AI 精选动态智能评分 72

Introducing Q-Judger and Qwen-Image-Bench, an automated T2I evaluation suite from Qwen team. Apache 2.0. 🤖 https://t.co/hv3R6iU9UX

来源: twitter关注列表

作者: ModelScope (@ModelScope2022)

发布于: 2026-05-28

收录于: 2026-05-28

AI 推荐理由

提供新型T2I评估框架，包含多维度量化指标和行业基准数据，对模型性能全面评估具有参考价值

核心解读

Qwen团队发布自动化T2I评估工具Q-Judger和Qwen-Image-Bench，基于Qwen3.6-27B思维模式生成结构化评分（质量、美感、对齐度、现实贴合度、创意生成），Spearman ρ=0.92与人工评分一致。评估18个前沿模型，GPT Image 2总分64.7分领先，Qwen Image 2.0 Pro排名5。发现四个系统性瓶颈（物理逻辑、解剖学、动物、接触交互）得分均低于44，创意生成方差是质量的11倍。

#模型发布#开源#AI模型

阅读原始全文