添加 RuntimeContext 类用于捕获模型运行时的日期时间信息, 包括UTC时间、本地时间和时区信息,并在系统提示中显示这些信息。 同时增加最大上下文消息数和工具迭代次数的配置选项, 将验证服务从引擎加载器中移除,并更新相关的数据结构和接口。 BREAKING CHANGE: 移除了验证服务,相关字段被替换为证据状态和接受状态。 - 添加 RuntimeContext 类和相关渲染方法 - 增加 max_context_messages 和 max_tool_iterations 配置 - 移除 ValidationService 相关代码 - 更新消息记录中的验证状态字段 - 添加原始工具调用检测和回退处理
16 KiB
Beaver 后端产品能力展示与演进路线
1. 产品定位
Beaver 后端不是一个普通聊天后端,而是一个面向“可执行任务”的智能体运行系统。
它的核心价值是把用户的一句话,从普通对话升级成一条可以被识别、执行、追踪、验收、复用和持续学习的任务链路。系统不仅能调用模型生成回答,还能调用工具处理文件、搜索历史、执行命令、触发定时任务,并把成功经验沉淀成后续可复用的技能。
从产品角度看,Beaver 后端承担的是智能体产品的“操作系统层”:
- 识别用户真正要完成的任务
- 调用合适的模型和工具执行任务
- 记录任务过程、证据和结果
- 支持用户确认、修改或放弃结果
- 把被用户认可的经验沉淀为长期能力
- 为已经完成但待接入的记忆系统、未来文件系统、多智能体协作和主动服务能力打基础
2. 核心价值
从聊天助手升级为任务执行系统
普通聊天系统的重点是“回答问题”。Beaver 后端的重点是“完成事情”。
系统会判断用户当前输入是简单对话,还是需要进入任务模式。如果是任务,系统会持续跟踪它的目标、执行过程、工具调用、产出结果和用户反馈,而不是把每次对话当成孤立消息。
从一次性回答升级为可验收结果
系统会保存任务执行过程中的证据,包括模型输出、工具结果、子任务结果和最终产物。用户可以对结果进行满意、修改、放弃等反馈。
这让产品具备“交付物意识”:不是模型说完就结束,而是以用户是否认可作为闭环。
从人工经验升级为可复用技能
当一次任务被用户认可,系统可以把这次成功经验转化为技能候选,再经过草稿、审核和发布,变成后续任务可自动调用的能力。
这意味着 Beaver 不只是被动响应,而是具备逐步积累组织经验的基础。
从短期上下文升级为长期记忆资产
系统已经具备长期记忆系统的底层能力,包括用户记忆、组织知识、历史任务、文件资源、工具经验和技能学习记录。当前重点不是从零建设记忆系统,而是把已完成的记忆能力接入主产品链路,并做成可展示、可管理、可解释的产品体验。
3. 产品能力总览
| 能力名称 | 当前价值 | 后续可展示的产品形态 |
|---|---|---|
| 多渠道接入能力 | 支持来自网页、命令行、网关、定时任务等入口的请求 | 统一工作台、多渠道智能助手、企业内部入口 |
| 任务识别与跟踪能力 | 自动判断是否需要进入任务模式,并跟踪任务状态 | 任务列表、任务详情、执行进度 |
| 自动执行与工具调用能力 | 模型可以调用文件、终端、网页、记忆、定时任务等工具 | 可视化工具调用记录、任务产物管理 |
| 多智能体协作能力 | 复杂任务可拆给多个子智能体并行或按依赖执行 | 多角色协作视图、子任务分工看板 |
| 过程证据留存能力 | 任务过程、工具结果、输出和验证信息会被记录 | 可审计任务报告、证据链展示 |
| 用户验收与反馈能力 | 用户可以确认满意、要求修改或放弃任务 | 结果验收按钮、修改意见跟踪 |
| 技能沉淀与复用能力 | 成功经验可进入技能学习、草稿、审核、发布链路 | 企业技能库、最佳实践沉淀 |
| 长期记忆与上下文管理能力 | 记忆底层能力已完成,当前待接入主产品链路 | 记忆管理台、知识资产地图、检索轨迹 |
| 定时任务与主动触达能力 | 支持自动触发任务或通知 | 定时提醒、周期报告、主动运营 |
| 模型与供应商切换能力 | 后端抽象了模型供应商和 fallback 机制 | 成本/质量路由、多模型策略 |
4. 已具备的产品功能
4.1 多入口统一接入
系统可以承接不同来源的请求,包括网页端、命令行、本地工具、网关和定时任务。无论请求来自哪里,后端都会把它转成统一的会话和任务执行流程。
产品价值:
- 后续可以同时支持 Web 助手、企业内部工具、自动化任务和第三方系统接入
- 不需要为每个入口重复实现一套智能体逻辑
- 用户在不同入口产生的任务和记忆可以沉淀到同一套系统里
4.2 任务模式
系统会判断用户输入是普通聊天,还是需要持续执行和跟踪的任务。
如果是简单问题,系统直接回复;如果是复杂任务,系统会创建一个可追踪的任务,记录目标、过程、结果和反馈。
产品价值:
- 用户不需要手动创建任务,系统自动识别
- 复杂请求不会被当成一次性聊天处理
- 后续可以展示任务状态、历史结果和修改记录
4.3 自动执行与工具调用
系统可以根据任务需要选择并调用工具,例如文件操作、终端命令、网页访问、会话搜索、记忆读写、技能管理和定时任务操作。
产品价值:
- 智能体不只是“说”,还能“做”
- 适合代码分析、文件处理、资料整理、定时报告、历史追溯等工作流
- 工具调用过程会被记录,方便审计和复盘
4.4 多智能体协作
对于复杂任务,系统可以先拆分成多个子任务,再交给不同的子智能体执行。子任务可以顺序执行、并行执行,也可以按依赖关系执行。
产品价值:
- 复杂任务不必全部压在一个模型调用里
- 适合“调研 + 审核 + 汇总”“设计 + 实现 + 验证”等多阶段工作
- 后续可以形成可视化的任务协作网络
4.5 过程证据留存
系统会记录任务执行过程,包括模型请求、工具选择、工具结果、子任务输出、最终结果和用户反馈。
产品价值:
- 结果不是黑盒,可以追溯它是怎么得出的
- 适合企业场景下的复盘、合规和质量管理
- 为后续自动学习提供可靠证据
4.6 用户验收闭环
任务完成后,系统支持用户表达满意、要求修改或放弃。用户反馈会影响任务状态,也会影响后续技能学习。
产品价值:
- 用用户真实反馈判断任务是否成功
- 避免把错误结果沉淀成长期能力
- 支持“交付 - 修改 - 再交付”的工作流
4.7 技能沉淀与复用
当任务结果被用户认可,系统可以把执行经验整理成技能候选。候选经过草稿、审核和发布后,可以在未来类似任务中被自动激活。
产品价值:
- 把一次成功经验变成组织可复用能力
- 减少重复摸索和重复提示词编写
- 为企业内部“智能体技能库”打基础
4.8 长期记忆系统
系统已经完成长期记忆系统的底层能力,目前主要处于“已实现、待接入、待产品化展示”的状态。
它已经覆盖几类核心资产:
- 用户记忆:保存长期偏好、背景和稳定信息
- 组织业务知识:保存企业、项目和业务相关的长期知识
- 历史任务和结果:保存任务目标、执行过程和最终产出
- 文件和任务产物:保存可被后续任务引用的资源线索
- 工具调用经验:保存哪些工具在什么任务中有效或失败
- 成功技能和失败案例:支持后续复用和避坑
- 可复用工作流程:为技能学习和自动化执行提供素材
产品价值:
- 智能体可以基于历史上下文工作,而不是每次从零开始
- 后续重点是把已完成的记忆能力接入任务、文件、技能和工作台
- 支持向“越用越懂业务”的智能体演进
4.9 定时任务与主动触达
系统支持定时触发任务或通知,适合周期性提醒、自动报告、定期检查和主动推送。
产品价值:
- 从被动问答扩展到主动服务
- 支持运营、管理、监控类场景
- 可以与任务系统、记忆系统、文件系统联动
4.10 模型与供应商切换
系统把模型供应商抽象为统一接口,可以支持不同模型服务,并区分主模型、辅助模型和向量检索模型。
产品价值:
- 可以根据成本、速度、质量选择不同模型
- 可以为不同任务配置不同模型能力
- 为企业级稳定性和成本管理打基础
5. 记忆系统:从聊天记录到智能体长期资产
5.1 为什么记忆系统是关键能力
智能体产品的长期竞争力不只来自模型本身,还来自它能否积累上下文、业务经验、用户偏好和工具使用方式。
如果没有记忆系统,智能体每次都像第一次工作:不知道用户偏好,不知道历史任务,不知道哪些方案曾经成功,也不知道哪些工具调用曾经失败。
Beaver 后端的记忆系统底层能力已经完成,当前还没有完整接入主产品链路。后续重点是把它和任务执行、文件资源、技能学习、用户界面打通,让已经存在的记忆能力真正成为可使用、可解释、可管理的产品能力。
5.2 Beaver 已完成的记忆系统能力
Beaver 的记忆系统可以定义为“智能体长期上下文资产库”。这部分底层能力已经完成,当前状态是待接入主流程和产品界面。
它已经覆盖:
- 用户长期偏好
- 组织业务知识
- 历史任务和结果
- 文件和任务产物
- 工具调用经验
- 成功技能和失败案例
- 可复用的工作流程
这些能力后续需要接入三个主要产品入口:
- 任务执行:让任务能按需读取相关记忆
- 产品界面:让用户能查看、编辑、确认和删除记忆
- 技能学习:让事实类内容进入记忆,流程类经验进入技能
5.3 后期接入功能:记忆管理台
功能说明:
提供一个面向用户和管理员的记忆管理界面,展示系统已经记住了什么、这些记忆来自哪里、何时被使用、是否可信。
解决的问题:
- 用户不知道系统记住了什么
- 错误记忆难以发现和删除
- 记忆来源不可追溯
具体实现:
- 展示长期记忆列表,按用户、任务、技能、文件、来源分类
- 每条记忆展示来源任务、创建时间、最近使用时间、可信状态
- 支持用户手动确认、编辑、删除或冻结记忆
- 支持系统自动标记“候选记忆”,只有确认后进入长期记忆
接入状态:相关底层能力已经完成,后续需要接入产品界面和管理操作。
优先级:高
5.4 后期接入功能:记忆检索轨迹
功能说明:
当智能体引用历史信息时,展示它检索了哪些记忆、为什么选择这些记忆、最终哪些记忆进入了上下文。
解决的问题:
- 用户无法判断回答是否基于正确历史
- 记忆检索像黑盒,难以调试
- 企业场景需要解释和审计
具体实现:
- 每次任务执行记录记忆检索 query、候选结果、最终注入内容
- 在任务详情页展示“本次使用的记忆”
- 支持把错误引用标记为无效,反馈给记忆系统
接入状态:相关记录和检索能力已经具备基础,后续需要接入任务详情页和调试视图。
优先级:高
5.5 已实现功能:分层记忆加载
功能说明:
将记忆分为基础层、任务相关层和深度资料层,按任务需要逐步加载,减少上下文浪费。
解决的问题:
- 全量记忆直接注入会浪费 token
- 过多无关记忆会干扰模型判断
- 历史越多,检索越需要结构化
具体实现:
- 基础层:用户身份、偏好、长期稳定信息
- 任务层:和当前任务相关的历史任务、工具结果、文件资源
- 深度层:需要时再检索的详细材料、历史证据和长文档
- 每次任务记录加载了哪一层、为什么加载
接入状态:底层能力已实现,后续需要接入任务执行链路和产品展示界面。
5.6 已实现能力:记忆与技能联动的基础
功能说明:
把“记住信息”和“学会方法”区分开。事实类内容进入记忆,流程类经验进入技能。
解决的问题:
- 事实、偏好、方法、工具经验混在一起会造成混乱
- 技能学习需要来自高质量任务,而不是任意聊天
具体实现:
- 用户偏好、业务事实进入记忆
- 成功工作流程进入技能候选
- 失败任务进入反例经验,用于提醒系统避免重复错误
- 用户满意反馈作为高价值学习信号
接入状态:底层链路已经具备基础,后续需要在任务验收和技能审核界面中产品化呈现。
6. 后续补强的产品功能
6.3 技能库管理
功能说明:
把系统沉淀出来的技能变成可管理的企业能力库。
业务价值:
- 企业可以看到智能体已经掌握哪些工作方法
- 技能可以审核、启用、停用和版本管理
- 避免未经确认的经验直接影响生产结果
具体实现:
- 展示已发布技能、草稿技能、待审核技能
- 每个技能展示适用场景、来源任务、需要的工具、版本记录
- 支持人工审核后发布
- 支持回滚到上一版本
6.4 权限与安全策略
功能说明:
为工具调用、文件访问、外部系统接入和技能发布建立统一权限体系。
业务价值:
- 企业场景必须控制智能体能看什么、能改什么、能调用什么
- 防止越权访问文件、误执行命令或误发布技能
- 为后续接入客户数据和企业系统做准备
具体实现:
- 按用户、入口、任务类型和工具类型做权限判断
- 高风险工具调用前需要确认或策略允许
- 所有拒绝和允许都进入审计记录
- 管理员可以配置工具权限和文件权限
6.5 可回滚文件系统与对象存储
功能说明:
未来接入 MinIO 作为对象存储底座,承载用户文件、任务产物、工具生成物、会话附件、版本快照和可回滚文件状态。
业务价值:
- 智能体处理的文件不再散落在本地目录
- 每次任务产生的文件都可以追踪来源
- 误操作后可以回滚到历史版本
- 文件可以成为记忆系统和任务系统的长期资源
具体实现:
- 将用户上传文件、任务输出文件、工具生成文件统一存入对象存储
- 为每个文件建立版本记录、来源任务、创建人、使用记录
- 支持文件快照、版本比较和回滚
- 将文件元数据接入记忆检索,让智能体能按任务需要引用相关文件
- 文件访问走权限策略,避免越权读取
6.7 模型成本与质量监控
功能说明:
展示不同模型调用的成本、耗时、成功率和任务质量表现。
业务价值:
- 企业需要控制模型成本
- 不同任务可以选择不同模型
- 可以用数据判断模型供应商是否稳定
具体实现:
- 记录每次模型调用的 token、耗时、模型名、供应商和结果状态
- 按任务类型统计成本和成功率
- 支持为简单任务使用低成本模型,为复杂任务使用高质量模型
7. 未来路线图
短期:让现有能力稳定可展示
目标:把当前已有能力整理成可以验收、可以复盘的产品闭环。
目标为:
- 任务工作台
- 任务详情与执行过程展示
- 用户验收入口
- 定时任务运行历史
- 已完成记忆系统接入验证
- 基础记忆展示
- 技能草稿和审核流程整理
预期结果:
用户可以清楚看到系统正在做什么、做完了什么、哪些结果被认可、哪些经验可以沉淀。
中期:形成智能体资产管理能力
目标:把已经完成的记忆系统接入任务、文件和技能链路,并把任务、记忆、文件、技能变成可管理资产。
目标为:
- 记忆管理台
- 记忆检索轨迹
- 分层记忆加载接入任务执行链路
- 技能库管理
- 可回滚文件系统与对象存储
- 文件版本、来源和回滚
- 权限与审计策略
- 多智能体执行可视化
预期结果:
Beaver 不只是一个执行工具,而是开始形成企业级智能体资产库。已经完成的记忆能力会进入主产品链路,用户的文件、任务、记忆和技能可以被统一管理、追踪和复用。
长期:向自进化智能体系统演进
目标:让系统具备持续学习、持续优化和主动服务能力。
目标为::
- 记忆质量评估
- 技能效果评估
- 自动发现可复用流程
- 主动推荐技能优化
- 多模型质量和成本路由
- 跨任务、跨文件、跨记忆的上下文网络
预期结果:
Beaver 可以逐步从“会执行任务的助手”演进为“能积累组织经验、主动优化工作方式的智能体系统”。