AI HOT 日报 (evening)
模型发布
Step 3.7 Flash 发布,多模态性能提升
StepFun 发布 Step 3.7 Flash 开源多模态模型(Apache 2.0),已在 StepFun first-party API 上线。模型总参数 198B、激活参数 11B,支持 256K tokens 上下文;提供 BF16 (400GB)、FP8 (200GB) 和 NVFP4 (100GB) 版本。Artificial Analysis 显示,其 Intelligence Index 为 42.6 (较 Step 3.5 Flash 提升 4.1 分),GDPval-AA Elo 1298 (高于上一代的 1070),TerminalBench Hard 35.6% (vs 32.6%),AA-LCR 63.7% (vs 54.3%)。输出速度约 400 tokens/s。新增 1.8B 视觉编码器,MMMU-Pro 达 75.3%,接近 Qwen3.5 122B A10B (75.0%)。
MiniMax M3 开源模型发布新基准与定价
MiniMax 发布 M3 开源权重模型,支持 1M 上下文及原生多模态。在 Code Arena Frontend 排名第 7 (得分 1531),性能与 GLM-5.1 相当。SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%。定价为每 1M token 输入 $0.60,输出 $2.40。模型采用 MiniMax Sparse Attention (MSA) 架构,将 attention kernel 计算时间从 30% 降至 5%。
Stable Video Infinity 上线 ModelScope,支持无限长度视频
ModelScope 新增 Stable Video Infinity (SVI),源自 ICLR 2026 Oral 论文。模型主打无限长度视频生成,采用 Error Recycling Fine Tuning。SVI-Shot 主体一致性达 93.52%,背景一致性 95.86%;250 秒时主体一致性为 97.50%,长度扩展时仅下降 0.63%。质量指标:审美 58.07%、成像 62.81%、运动平滑度 98.42%。支持每 5 秒 1 条 prompt,SVI-Talk 和 SVI-Dance 加入音频与骨架条件,支持 LoRA 微调。
Sakana AI 启动日本首个 1T 参数模型计划
Sakana AI 的 David Ha 透露,公司在 METI GENIAC 计划支持下,正推进日本首个 1T 参数 agent-native 模型项目。该模型目标优化长链路深度研究和自主工具使用,将很快公布更多细节。
OpenAI GPT-5 传闻参数达万亿,性能超越 GPT-4
Elon Musk 透露,OpenAI 发布 GPT-5 模型,参数量达 1 万亿,比 GPT-4 提升 30%,并在基准测试中达到 90 分。此消息尚未获 OpenAI 官方证实。
智能体与开发工具
Meta 开源 Llama 2 训练框架和工具链
Meta 公开 Llama 2 训练框架代码和开发工具资源,包含训练框架、系统化工具链、模型评估方法,用于提升模型预训练和微调效率。Llama 2 参数量 7B、13B、70B。旨在降低研究和应用门槛。
Zara Zhang 开源 feishu-claude-code-bridge 项目
Zara Zhang 开源 feishu-claude-code-bridge 项目,实现飞书与 Claude Code 智能连接,支持命令行处理或流式输出,解决跨平台文档生成和智能协作问题。项目包含配置和使用案例,进一步扩展 Moody AI 工具链。
LandingAI 推出 Margin Collateral Agent 解决金融争议
LandingAI 介绍 Margin Collateral Agent,旨在通过架构分离处理 OTC 保证金争议。全球场外衍生品名义价值达 846 万亿美元,其中 45% 的保证金追缴存在争议。该系统由四层构成:ADE 提取数据、3 个 Claude Agent 并行归一化条款、纯规则验证 Agent 预审矛盾,最终由纯 Python 计算器执行确定性运算并输出审计包,不调用 LLM。