AI 日报
收录 6 条重要资讯
AI HOT 日报 (evening)
本期导读
本时段,AI 领域聚焦于模型技术的开源与升级,其中百度 PaddleOCRv6 实现了多语言识别能力的显著扩展,NVIDIA 也开源了其 3D 人体模型 SOMA-X v0.2。研究方面,RepFusion 方法在文本图像生成领域带来新突破。同时,ChatGPT 用户照片附件体验得到优化,并有 Mini Macintosh 等新产品亮相。模型发布
PaddleOCRv6:34.5亿参数、50语言支持
PaddlePaddle 发布 PP-OCRv6 系列 OCR 模型,模型规模从1.5M扩展至34.5M参数。检测准确率相比 v5 提升4.9%,识别准确率提升5.1%,OpenVINO CPU 推理速度提升5.2倍。模型首次实现单一模型支持50种语言识别,并应用于 PCB、CAD 绘图等新场景,采用 Apache 2.0 协议开源。
NVIDIA 开源 SOMA-X v0.2 3D 模型
NVIDIA 开源 SOMA-X v0.2,这是一个使用单一骨架表达各种体型的 3D 人体模型,具备关节扭转修正、自动缩放和高级姿态反转功能。该模型数据轻量,采用 Apache 2.0 许可,专为机器人和物理 AI 训练设计。
研究突破
RepFusion:多模态先验参与去噪过程
Xichen Pan 提出了 RepFusion 方法,旨在解决当前 text-to-image 模型中 LLM 仅编码 prompt 一次、新训练生成骨干独立处理噪声隐状态的不匹配问题。该方法使预训练多模态先验能够参与去噪过程,相关论文和项目主页已公开。
产品更新
ChatGPT 照片附件体验升级
OpenAI 通过流体相册过渡、快速捕捉和直接嵌入文本框的用户界面优化,提升了 ChatGPT 照片附件流程的连续感。此改动旨在降低用户切换操作的阻力,但未提供具体的性能指标或技术细节。
基础设施
Mini Macintosh 发布与技术简介
文中提及新的 Mini Macintosh 产品,并说明了公司发布排版、参数量和内容方向。系统评估了其信息密度,并聚焦于核心技术点。具体参数量及发布公司信息待进一步披露。
行业洞察
Marc Andreessen 转发 Will Manidis 关于AI行为
高管 Marc Andreessen 转发了 Will Manidis 关于 AI 行业高阶人物行为的评价,指出其对极端案例反应中的从容与批判。文章强调了对数字数据的备注,并突出统筹对比较的重要性。