品玩10月21日讯,美团LongCat团队宣布,正式推出贴近真实生活场景的大模型智能体评测基准VitaBench,聚焦复杂问题解决能力评估。该基准以在外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建含66个工具的交互式环境,设计400项单场景与跨场景任务,如全流程旅游规划等。
其核心创新在于首次从深度推理、工具使用、用户交互三大维度量化拆解任务复杂度,并提出滑动窗口评估器保障评测精准性。实测显示,即便领先模型在复杂跨场景任务中成功率仅30%,暴露出现有智能体与真实应用需求的差距。
VitaBench现已全面开源,项目主页、论文及代码仓库等资源同步上线,未来将持续维护更新榜单,为智能体研发提供关键基础设施支持。