返回精选
AI 精选动态 智能评分 72

豆包实时语音模型3.0 API 上线

来源: twitter关注列表
作者: 小互 (@xiaohu)
发布于: 2026-06-19
收录于: 2026-06-19
AI 推荐理由
新增自定义规则和实时工具调用能力对AI Agent应用具有历史价值,建议关注其技术实现细节和生态推广节奏
核心解读
通义公司发布豆包实时语音模型3.0 API,升级支持全双工对话(同时听说)、端到端语音处理,关键功能包括自定义规则指导(如管理多人对话参与时机)和实时工具调用能力(预定日历/发邮件等),相比上一代新增跨场景交互能力。
全文
豆包实时语音模型3.0 API 上线 看演示还是很牛P的,能干不少事情了 全双工:能同时听和说,像真人聊天那样可以随时插话 端到端:语音进、语音出,不进行转录,更快、更自然。 精准遵循 + 适时参与: 你可以一句话给它定规矩,比如多人聊天时说「现在先别出声,聊到世界杯时再加入」, 它就安静待命,等话题真到了再主动接话 最关键的一步升级: 它支持自定义工具,能在实时对话里直接调用工具完成任务,预定日历、发邮件、总结文档、发起查询,一句话语音就在对话流里办完。 这等于从「语音助手」往「语音 Agent」迈了一步 https://video.twimg.com/amplify_video/2067838678064672768/vid/avc1/1920x1080/E7mkB8lvZlvJ849S.mp4?tag=28 小互 (@xiaohu): 动态判停 难点是拿捏时机,你的短暂停顿可能是在思考,也可能说完了,或者是嗯嗯啊啊的语气词 它都能精准判断,等你真正说完才接话 https://t.co/3LFG5AYD2S 小互 (@xiaohu): 抗干扰 环境嘈杂声音或者有其他说话声音干扰 即便是在广播、导航、多人对话等嘈杂环境 也能正常工作 https://t.co/otk3FKRumj
#模型发布#技术突破#产品发布