AI 精选动态
智能评分 72
Carbon DNA 模型
AI 推荐理由
如果关注生物序列建模效率,这篇值得点开原文看其 6-base tokenizer 与单碱基分辨率如何同时实现,以及与 Evo2 的速度对比是否可复现。核心解读
Hugging Face Bio 的 pre-training 和 post-training 团队发布了 Carbon,一个用于 DNA 建模的模型,并配套了 interactive blogpost/demo。该模型声称比下一个最佳模型快 275 倍,且可以在单张 GPU 上在少于 2 天内处理完整人类基因组。团队称其关键做法是使用了专门的 tokenizer:以 6 个碱基为一组切分序列,但在训练和推理中仍可保持单碱基分辨率;他们还表示该架构与 tokenizer 组合后,相比同尺寸的前一代 SOTA Evo2 提升了 275 倍速度。