feat(skill-learning): add surrogate tool evaluator

2026-06-08 13:33:02 +08:00
parent 70014c0f70
commit 4c8bc53d33
3 changed files with 86 additions and 0 deletions
--- a/app-instance/backend/beaver/skills/learning/init.py
+++ b/app-instance/backend/beaver/skills/learning/init.py
@ -13,6 +13,7 @@ from .pipeline import SkillLearningPipelineService
 from .preservation import check_preservation
 from .replay import ReplayToolExecutor, ReplayToolPolicy, classify_tool_mode
 from .service import RunReceiptContext, SkillLearningService
 from .surrogate import SurrogateToolEvaluator
 from .synthesizer import SkillDraftSynthesizer
 from .worker import SkillLearningWorker, SkillLearningWorkerConfig, SkillLearningWorkerResult
@ -31,6 +32,7 @@ __all__ = [
    "ReplayToolExecutor",
    "ReplayToolPolicy",
    "classify_tool_mode",
    "SurrogateToolEvaluator",
    "SkillDraftSynthesizer",
    "SkillLearningService",
    "SkillLearningWorker",
--- a/app-instance/backend/beaver/skills/learning/surrogate.py
+++ b/app-instance/backend/beaver/skills/learning/surrogate.py
@ -0,0 +1,53 @@
 """Surrogate evaluation for replay tool calls that cannot execute safely."""
 from __future__ import annotations
 from typing import Any
 class SurrogateToolEvaluator:
    async def evaluate(self, *, task_text: str, baseline: dict[str, Any], candidate: dict[str, Any]) -> dict[str, Any]:
        baseline_score = _score_arm(task_text, baseline)
        candidate_score = _score_arm(task_text, candidate)
        surrogate_count = _mode_count(baseline, "surrogate") + _mode_count(candidate, "surrogate")
        blocked_count = _mode_count(baseline, "blocked") + _mode_count(candidate, "blocked")
        confidence = "low" if blocked_count else ("medium" if surrogate_count <= 2 else "low")
        return {
            "baseline_score": baseline_score,
            "candidate_score": candidate_score,
            "delta": round(candidate_score - baseline_score, 4),
            "surrogate_tool_count": surrogate_count,
            "blocked_tool_count": blocked_count,
            "confidence": confidence,
            "notes": [
                "Surrogate score is based on intended tool calls, schemas, arguments, and task relevance.",
            ],
        }
 def _score_arm(task_text: str, arm: dict[str, Any]) -> float:
    calls = [item for item in arm.get("tool_calls") or [] if isinstance(item, dict)]
    if not calls:
        return 0.5
    scores = [_score_call(task_text, call) for call in calls]
    return round(sum(scores) / len(scores), 4)
 def _score_call(task_text: str, call: dict[str, Any]) -> float:
    if call.get("mode") == "blocked":
        return 0.2
    if call.get("mode") == "executed":
        result = call.get("result") if isinstance(call.get("result"), dict) else {}
        return 0.85 if result.get("success") is not False else 0.35
    arguments = dict(call.get("arguments") or {})
    if not arguments:
        return 0.45
    non_empty = sum(1 for value in arguments.values() if str(value).strip())
    completeness = non_empty / max(1, len(arguments))
    argument_text = " ".join(str(value).lower() for value in arguments.values())
    relevance = 0.15 if any(token and token in argument_text for token in task_text.lower().split()[:16]) else 0.0
    return round(min(0.9, 0.5 + 0.3 * completeness + relevance), 4)
 def _mode_count(arm: dict[str, Any], mode: str) -> int:
    return sum(1 for item in arm.get("tool_calls") or [] if isinstance(item, dict) and item.get("mode") == mode)
--- a/app-instance/backend/tests/unit/test_skill_learning_surrogate.py
+++ b/app-instance/backend/tests/unit/test_skill_learning_surrogate.py
@ -0,0 +1,31 @@
 from __future__ import annotations
 import asyncio
 from beaver.skills.learning.surrogate import SurrogateToolEvaluator
 def test_surrogate_scores_complete_candidate_higher_than_missing_baseline() -> None:
    evaluator = SurrogateToolEvaluator()
    baseline = {
        "arm": "baseline",
        "tool_calls": [
            {"tool_name": "mcp_outlook_send_email", "mode": "surrogate", "arguments": {"to": "", "subject": ""}},
        ],
    }
    candidate = {
        "arm": "candidate",
        "tool_calls": [
            {
                "tool_name": "mcp_outlook_send_email",
                "mode": "surrogate",
                "arguments": {"to": "ada@example.com", "subject": "Status", "body": "Done"},
            },
        ],
    }
    result = asyncio.run(evaluator.evaluate(task_text="Send a status email to Ada.", baseline=baseline, candidate=candidate))
    assert result["candidate_score"] > result["baseline_score"]
    assert result["surrogate_tool_count"] == 2
    assert result["confidence"] in {"low", "medium"}