AI 精选动态智能评分 72

豆包实时语音模型3.0 API 上线

来源: twitter关注列表

作者: 小互 (@xiaohu)

发布于: 2026-06-19

收录于: 2026-06-19

AI 推荐理由

新增自定义规则和实时工具调用能力对AI Agent应用具有历史价值，建议关注其技术实现细节和生态推广节奏

核心解读

通义公司发布豆包实时语音模型3.0 API，升级支持全双工对话（同时听说）、端到端语音处理，关键功能包括自定义规则指导（如管理多人对话参与时机）和实时工具调用能力（预定日历/发邮件等），相比上一代新增跨场景交互能力。

全文

豆包实时语音模型3.0 API 上线看演示还是很牛P的，能干不少事情了全双工：能同时听和说，像真人聊天那样可以随时插话端到端：语音进、语音出，不进行转录，更快、更自然。精准遵循 + 适时参与：你可以一句话给它定规矩，比如多人聊天时说「现在先别出声，聊到世界杯时再加入」，它就安静待命，等话题真到了再主动接话最关键的一步升级：它支持自定义工具，能在实时对话里直接调用工具完成任务，预定日历、发邮件、总结文档、发起查询，一句话语音就在对话流里办完。这等于从「语音助手」往「语音 Agent」迈了一步 https://video.twimg.com/amplify_video/2067838678064672768/vid/avc1/1920x1080/E7mkB8lvZlvJ849S.mp4?tag=28 小互 (@xiaohu): 动态判停难点是拿捏时机，你的短暂停顿可能是在思考，也可能说完了，或者是嗯嗯啊啊的语气词它都能精准判断，等你真正说完才接话 https://t.co/3LFG5AYD2S 小互 (@xiaohu): 抗干扰环境嘈杂声音或者有其他说话声音干扰即便是在广播、导航、多人对话等嘈杂环境也能正常工作 https://t.co/otk3FKRumj

#模型发布#技术突破#产品发布

阅读原始全文