feat(skill-learning): extend eval report payload

2026-06-08 13:26:12 +08:00
parent 0fd4df3c17
commit 3a16dc283d
2 changed files with 107 additions and 0 deletions
--- a/app-instance/backend/beaver/memory/skills/models.py
+++ b/app-instance/backend/beaver/memory/skills/models.py
@ -227,6 +227,15 @@ class SkillDraftEvalReport:
    cases: list[dict[str, Any]] = field(default_factory=list)
    status: str = "completed"
    created_at: str = ""
+    eval_version: str = "heuristic-v1"
+    mode: str = "heuristic"
+    execution_coverage: float = 0.0
+    surrogate_coverage: float = 0.0
+    blocked_coverage: float = 0.0
+    confidence: str = "low"
+    case_reports: list[dict[str, Any]] = field(default_factory=list)
+    tool_mode_summary: dict[str, Any] = field(default_factory=dict)
+    preservation_report: dict[str, Any] | None = None

    def to_dict(self) -> dict[str, Any]:
        return {
@ -244,6 +253,17 @@ class SkillDraftEvalReport:
            "cases": [dict(item) for item in self.cases],
            "status": self.status,
            "created_at": self.created_at,
+            "eval_version": self.eval_version,
+            "mode": self.mode,
+            "execution_coverage": self.execution_coverage,
+            "surrogate_coverage": self.surrogate_coverage,
+            "blocked_coverage": self.blocked_coverage,
+            "confidence": self.confidence,
+            "case_reports": [dict(item) for item in self.case_reports],
+            "tool_mode_summary": dict(self.tool_mode_summary),
+            "preservation_report": (
+                dict(self.preservation_report) if self.preservation_report is not None else None
+            ),
        }

    @classmethod
@ -263,6 +283,23 @@ class SkillDraftEvalReport:
            cases=[dict(item) for item in payload.get("cases") or [] if isinstance(item, dict)],
            status=str(payload.get("status") or "completed"),
            created_at=str(payload.get("created_at") or ""),
+            eval_version=str(payload.get("eval_version") or "heuristic-v1"),
+            mode=str(payload.get("mode") or "heuristic"),
+            execution_coverage=_bounded_float(payload.get("execution_coverage"), default=0.0),
+            surrogate_coverage=_bounded_float(payload.get("surrogate_coverage"), default=0.0),
+            blocked_coverage=_bounded_float(payload.get("blocked_coverage"), default=0.0),
+            confidence=str(payload.get("confidence") or "low"),
+            case_reports=[
+                dict(item)
+                for item in payload.get("case_reports") or []
+                if isinstance(item, dict)
+            ],
+            tool_mode_summary=dict(payload.get("tool_mode_summary") or {}),
+            preservation_report=(
+                dict(payload["preservation_report"])
+                if isinstance(payload.get("preservation_report"), dict)
+                else None
+            ),
        )


@ -272,6 +309,15 @@ def _optional_str(value: Any) -> str | None:
    return str(value)


+def _bounded_float(value: Any, *, default: float = 0.0) -> float:
+    if value in (None, ""):
+        return default
+    try:
+        return max(0.0, min(1.0, float(value)))
+    except (TypeError, ValueError):
+        return default
+
+
 def _summarize_evidence(payload: dict[str, Any]) -> str:
    evidence = payload.get("evidence")
    if isinstance(evidence, dict):
--- a/app-instance/backend/tests/unit/test_skill_learning_eval_report_model.py
+++ b/app-instance/backend/tests/unit/test_skill_learning_eval_report_model.py
@ -0,0 +1,61 @@
+from __future__ import annotations
+
+from beaver.memory.skills import SkillDraftEvalReport
+
+
+def test_eval_report_defaults_preserve_legacy_payload_shape() -> None:
+    report = SkillDraftEvalReport(
+        report_id="eval-1",
+        skill_name="debug",
+        draft_id="draft-1",
+        candidate_id="candidate-1",
+        passed=True,
+        baseline_score_avg=0.5,
+        candidate_score_avg=0.8,
+        score_delta=0.3,
+        regression_count=0,
+        improved_count=2,
+        unchanged_count=0,
+        cases=[{"run_id": "run-1"}],
+        status="completed",
+        created_at="now",
+    )
+
+    payload = report.to_dict()
+
+    assert payload["eval_version"] == "heuristic-v1"
+    assert payload["mode"] == "heuristic"
+    assert payload["execution_coverage"] == 0.0
+    assert payload["surrogate_coverage"] == 0.0
+    assert payload["blocked_coverage"] == 0.0
+    assert payload["confidence"] == "low"
+    assert payload["case_reports"] == []
+    assert payload["tool_mode_summary"] == {}
+    assert payload["preservation_report"] is None
+    assert payload["cases"] == [{"run_id": "run-1"}]
+
+
+def test_eval_report_reads_legacy_payload_without_replay_fields() -> None:
+    report = SkillDraftEvalReport.from_dict(
+        {
+            "report_id": "eval-legacy",
+            "skill_name": "debug",
+            "draft_id": "draft-1",
+            "candidate_id": "candidate-1",
+            "passed": True,
+            "baseline_score_avg": 0.4,
+            "candidate_score_avg": 0.8,
+            "score_delta": 0.4,
+            "regression_count": 0,
+            "improved_count": 1,
+            "unchanged_count": 0,
+            "cases": [{"run_id": "run-1"}],
+            "status": "completed",
+            "created_at": "now",
+        }
+    )
+
+    assert report.eval_version == "heuristic-v1"
+    assert report.mode == "heuristic"
+    assert report.confidence == "low"
+    assert report.case_reports == []