OpenAI 发布AI 健康系统基础评测体系 HealthBench

Source

品玩5月14日讯,据 ZDNet 报道,OpenAI 近日推出AI 健康系统评估标准HealthBench,用户可以用这套体系评测大模型的“医疗水准”。

OpenAI 表示,HealthBench 是与 262 名在 60 个国家执业的医生合作建立的,其中包括 5000 个真实的健康对话,每个对话都有一个由医生自定义的评分标准,用于对模型的反应进行评分。此外该标准包含 48562 个独特的评分标准,广泛涵盖了模型性能的特定方面。

利用这套体系,OpenAI对多款大模型产品进行了评测,包括自己的 O3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 Sonnet。表现最好的是 OpenAI 自家的 o3 模型,拿下最高分并位列第一,Grok 3 和 Gemini 2.5 Pro 分别排名第二和第三