AI 精选动态
智能评分 60
AI 推荐理由
涉及英国AI安全研究所的权威模型评估更新,包含具体性能数据和评估方法讨论,对AI安全研究者和从业者有一定参考价值。核心解读
UK AISI发布Mythos Preview模型在网络攻击评估中的新数据,新版本在32步企业网络攻击任务中可完成6/10,同时讨论了评估中按token与按美元计算的性能差异,验证了第二缩放定律通过增加思考token可持续提升LLM表现。