feat(skill-learning): gate publish on replay confidence

2026-06-08 13:36:55 +08:00
parent 64d789a3d0
commit b9171998b9
2 changed files with 83 additions and 1 deletions
--- a/app-instance/backend/beaver/skills/learning/pipeline.py
+++ b/app-instance/backend/beaver/skills/learning/pipeline.py
@ -337,6 +337,14 @@ class SkillLearningPipelineService:
        eval_report = self.get_eval_report(draft.skill_name, draft.draft_id)
        if eval_report is not None and eval_report.status != "skipped_provider_unavailable" and not eval_report.passed:
            raise ValueError("Draft eval report did not pass")
+        if eval_report is not None and eval_report.mode == "replay":
+            if eval_report.confidence == "low":
+                raise ValueError("Draft replay eval has low confidence and requires revision before publish")
+            if eval_report.blocked_coverage >= 1.0:
+                raise ValueError("Draft replay eval blocked all important tool calls")
+            preservation = eval_report.preservation_report or {}
+            if preservation.get("passed") is False:
+                raise ValueError("Draft preservation check did not pass")

    def _mark_candidate_by_draft(
        self,
--- a/app-instance/backend/tests/unit/test_skill_learning_pipeline.py
+++ b/app-instance/backend/tests/unit/test_skill_learning_pipeline.py
@ -5,7 +5,7 @@ from pathlib import Path
 import pytest

 from beaver.memory.runs import RunMemoryStore
-from beaver.memory.skills import SkillLearningCandidate, SkillLearningStore
+from beaver.memory.skills import SkillDraftEvalReport, SkillLearningCandidate, SkillLearningStore
 from beaver.skills.drafts import DraftService
 from beaver.skills.learning import EvidenceSelector, SkillDraftSynthesizer, SkillLearningPipelineService, SkillLearningService
 from beaver.skills.publisher import SkillPublisher
@ -132,3 +132,77 @@ def test_pipeline_reject_removes_draft_from_review_list(tmp_path: Path) -> None:

    assert review.status == SkillReviewState.REJECTED.value
    assert pipeline.list_drafts() == []
+
+
+def test_publish_blocks_low_confidence_replay_report(tmp_path: Path) -> None:
+    pipeline = _pipeline(tmp_path)
+    draft = pipeline.draft_service.create_new_skill_draft(
+        skill_name="low-confidence",
+        proposed_content="# Low\n\nDo it.",
+        proposed_frontmatter={"description": "low", "tools": []},
+        created_by="test",
+        reason="test",
+    )
+    pipeline.learning_store.write_eval_report(
+        SkillDraftEvalReport(
+            report_id="eval-low",
+            skill_name=draft.skill_name,
+            draft_id=draft.draft_id,
+            candidate_id="candidate-1",
+            passed=True,
+            baseline_score_avg=0.7,
+            candidate_score_avg=0.9,
+            score_delta=0.2,
+            regression_count=0,
+            improved_count=1,
+            unchanged_count=0,
+            confidence="low",
+            mode="replay",
+            eval_version="replay-v1",
+            execution_coverage=0.0,
+            surrogate_coverage=1.0,
+            blocked_coverage=0.0,
+        )
+    )
+    pipeline.submit_review(draft.skill_name, draft.draft_id, requested_by="tester")
+    pipeline.approve(draft.skill_name, draft.draft_id, reviewer="tester")
+    pipeline.check_safety(draft.skill_name, draft.draft_id)
+
+    with pytest.raises(ValueError, match="low confidence"):
+        pipeline.publish(draft.skill_name, draft.draft_id, publisher="tester")
+
+
+def test_publish_blocks_failed_preservation_report(tmp_path: Path) -> None:
+    pipeline = _pipeline(tmp_path)
+    draft = pipeline.draft_service.create_new_skill_draft(
+        skill_name="dropped-section",
+        proposed_content="# Skill\n\n## Workflow\n\nDo it.",
+        proposed_frontmatter={"description": "dropped", "tools": []},
+        created_by="test",
+        reason="test",
+    )
+    pipeline.learning_store.write_eval_report(
+        SkillDraftEvalReport(
+            report_id="eval-preservation",
+            skill_name=draft.skill_name,
+            draft_id=draft.draft_id,
+            candidate_id="candidate-1",
+            passed=True,
+            baseline_score_avg=0.7,
+            candidate_score_avg=0.9,
+            score_delta=0.2,
+            regression_count=0,
+            improved_count=1,
+            unchanged_count=0,
+            confidence="medium",
+            mode="replay",
+            eval_version="replay-v1",
+            preservation_report={"passed": False, "risk_level": "high", "dropped_sections": ["Safety"]},
+        )
+    )
+    pipeline.submit_review(draft.skill_name, draft.draft_id, requested_by="tester")
+    pipeline.approve(draft.skill_name, draft.draft_id, reviewer="tester")
+    pipeline.check_safety(draft.skill_name, draft.draft_id)
+
+    with pytest.raises(ValueError, match="preservation"):
+        pipeline.publish(draft.skill_name, draft.draft_id, publisher="tester")