AI 精选动态
智能评分 72
Introducing Q-Judger and Qwen-Image-Bench, an automated T2I evaluation suite from Qwen team. Apache 2.0. 🤖 https://t.co/hv3R6iU9UX
AI 推荐理由
提供新型T2I评估框架,包含多维度量化指标和行业基准数据,对模型性能全面评估具有参考价值核心解读
Qwen团队发布自动化T2I评估工具Q-Judger和Qwen-Image-Bench,基于Qwen3.6-27B思维模式生成结构化评分(质量、美感、对齐度、现实贴合度、创意生成),Spearman ρ=0.92与人工评分一致。评估18个前沿模型,GPT Image 2总分64.7分领先,Qwen Image 2.0 Pro排名5。发现四个系统性瓶颈(物理逻辑、解剖学、动物、接触交互)得分均低于44,创意生成方差是质量的11倍。