美团发布VitaBench评测基准揭示AI智能体真实场景短板

Source

品玩10月21日讯，美团LongCat团队宣布，正式推出贴近真实生活场景的大模型智能体评测基准VitaBench，聚焦复杂问题解决能力评估。该基准以在外卖点餐、餐厅就餐、旅游出行三大高频场景为载体，构建含66个工具的交互式环境，设计400项单场景与跨场景任务，如全流程旅游规划等。

其核心创新在于首次从深度推理、工具使用、用户交互三大维度量化拆解任务复杂度，并提出滑动窗口评估器保障评测精准性。实测显示，即便领先模型在复杂跨场景任务中成功率仅30%，暴露出现有智能体与真实应用需求的差距。

VitaBench现已全面开源，项目主页、论文及代码仓库等资源同步上线，未来将持续维护更新榜单，为智能体研发提供关键基础设施支持。