OpenAI 发布AI 健康系统基础评测体系 HealthBench

Source

品玩5月14日讯，据 ZDNet 报道，OpenAI 近日推出AI 健康系统评估标准HealthBench，用户可以用这套体系评测大模型的“医疗水准”。

OpenAI 表示，HealthBench 是与 262 名在 60 个国家执业的医生合作建立的，其中包括 5000 个真实的健康对话，每个对话都有一个由医生自定义的评分标准，用于对模型的反应进行评分。此外该标准包含 48562 个独特的评分标准，广泛涵盖了模型性能的特定方面。

利用这套体系，OpenAI对多款大模型产品进行了评测，包括自己的 O3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 Sonnet。表现最好的是 OpenAI 自家的 o3 模型，拿下最高分并位列第一，Grok 3 和 Gemini 2.5 Pro 分别排名第二和第三