AI 精选动态
智能评分 60
Apodex:面向深度研究的自进化系统
AI 推荐理由
新增了具体基准超越数据和竞赛表现,值得关注其多 Agent 协作与自我验证架构。核心解读
Apodex 发布了一个名为 Apodex 的深度研究系统,支持最多 150 个子 Agent 并行探索,总步数达 15,000 步,内置三层自我验证机制。在 BrowseComp 上超越 GPT-5.5-pro,在 DeepSearchQA 上超越 Claude-Opus-4.8 和 Kimi-K2.6,并在 FutureX 竞赛中包揽前四名。
全文
Apodex :一个面向深度研究而打造的 Self-evolving heavy-duty solver
专门解决那种"没有现成答案、需要大量调研才能搞定"的硬问题
可一次最多派出 150 个子 Agent 并行探索,总共能跑 15,000 步
在 BrowseComp 上超越了 GPT-5.5-pro,在 DeepSearchQA 上超越了 Claude-Opus-4.8 和 Kimi-K2.6...
在科研和金融领域具有强大的研究能力 ...
它的工作步骤是:深度研究—自我校验—撰写
主要特点:
1、多 Agent 团队协作:主 Agent 接到任务后拆解成子问题,异步派发给专业化的子 Agent,每个子 Agent 有自己独立的上下文、提示词和工具集。
子 Agent 的报告汇入共享报告池,编排器异步读取,不会被最慢的那个卡住。单任务最高可调度 150 个子 Agent,执行超过 15,000 步。
2、内置三层自我验证机制: 当子 Agent 报告出现分歧时,冲突审查员介入;具体声明需要落地时,事实检查员介入;草稿完成时,草稿审查员过一遍。
最后还有一个全局验证器对所有汇集的证据做终审。验证器在结构上是独立于推理器的,被提示去"评估"而不是"继续推理",可以推翻前面的结论。
3、由一个专门的 AgentOS 驱动:与执行任务严格分离,它只负责通用的底层事务:
- Agent调度 — 150 个子 Agent 谁先跑谁后跑,资源怎么分配。
- 模型和工具路由 — 这个子任务该调哪个模型、该用哪个工具(搜索引擎、代码执行器、数据库等)。
- 事件流 — 子 Agent 之间怎么传递消息和状态更新。
- 检查点和追踪 — 跑到哪一步了,出错了能不能回滚。
- 成本记账 — 这个任务总共调了多少次 API,花了多少钱。
- 权限管理 — 哪些工具允许用,哪些数据允许访问。
这种设计好处是:当你添加新应用时候,只需一个插件代码文件夹,底下的调度、路由、记账、追踪这些基础设施全都现成的,不用动内核一行代码。
https://video.twimg.com/amplify_video/2067486478633201665/vid/avc1/1080x1140/CxdfVGLqjXX8cxIl.mp4?tag=28
小互 (@xiaohu): 官方介绍:https://t.co/sMnMf1hMU7
在线体验:https://t.co/9MkIOcxyWJ
模型下载:https://t.co/FsmNvI31PL
小互 (@xiaohu): 6月,Apodex 向 FutureX(https://t.co/kBOBp0uGJW) 提交了四个基于 Apodex-1.0-mini 35B的模型构建的实验预测框架。
在6月的第一周排名包揽了第 1、第 2、第 3 和第 4名
在6月第二周持续霸榜第1名 https://t.co/u1g7PJlH0u