Agent AI: Surveying the Horizons of Multimodal Interaction---附录

Source

附录

A. Agent AI 的 GPT-4V 提示细节
除非特别说明，否则我们使用 GPT-4V 的默认系统提示。我们在图 31 中展示了 GPT-4V 在 Minecraft 游戏中提示的详细描述以及生成响应的过程。

在这里插入图片描述
图 31：我们提供代码片段来展示调用 GPT-4V 分析 Minecraft 视频的完整提示过程。首先，对视频的帧进行编码，然后调用 GPT-4V 接口。模型的响应显示在屏幕底部。

B. GPT-4V 应用于 Bleeding Edge

在这里插入图片描述
图 32：GPT-4V 能够为 Bleeding Edge 这样的具有第三人称视角和视觉复杂场景的游戏生成有意义的内容。为了向 GPT-4V 输入大量帧（48 帧），我们将这些帧以网格形式排列，并在每帧上叠加帧编号（如上图所示）。

Bleeding Edge 是一款第三人称团队战斗游戏，玩家尝试占领目标点或收集比敌队更多的资源。我们在图 32 中展示了在该游戏中提示 GPT-4V 的示例输入和输出。与 Minecraft 相比，我们发现 GPT-4V 对 Bleeding Edge 的视觉内容和游戏规则的理解较为浅显。这可能是由于 (1) GPT-4V 训练数据中 Minecraft 数据量较大，以及 (2) 相较于 Minecraft，Bleeding Edge 具有更高的视觉复杂性。

C. GPT-4V 应用于 Microsoft Flight Simulator

在这里插入图片描述
图 33：GPT-4V 能够为 Microsoft Flight Simulator 游戏生成有意义的内容描述。GPT-4V 智能体可以提供高级动作描述，描述玩家在飞行模拟器中驾驶飞机的过程，通过驾驶舱视角和飞机的外部视角展示，管理各种飞行控制和仪表，以保持适当的空速和高度，并在虚拟空域中导航。为了输入较大的视频，我们选择了若干关键帧（6 帧）发送给 GPT-4V。每个关键帧单独输入，未使用网格（如上图所示）。

如图 33 所示，基于 GPT-4V 的智能体能够为 Microsoft Flight Simulator 提供玩家的高级动作描述。智能体描述了玩家正在驾驶一架飞机，视角显示为驾驶舱视角和外部视角，玩家通过管理各种飞行控制和仪器来保持适当的空速和高度，并在虚拟空域中导航。

D. GPT-4V 应用于 Assassin’s Creed Odyssey

在这里插入图片描述

如图 34 所示，GPT-4V 智能体提供了角色在历史战斗中的夜间战斗的高级动作描述，角色手持长矛并使用如“猛冲”这样的特殊技能与多个敌人作战，同时管理健康值和能力值条。智能体还描述了玩家参与了大规模的近战场景，控制着一个带有红色装饰的角色，并按照屏幕提示使用“猛冲技能”。环境黑暗而火光四起，表明这是一个战场，玩家的角色面对多个头顶有等级和血条标记的敌人。这一场景可能是教程或战斗序列的一部分，玩家在其中学习并执行战斗技能。

E. GPT-4V 应用于 GEARS of WAR 4

在这里插入图片描述

图 35：GPT-4V 能够为《战争机器 4》游戏生成有意义的内容描述。GPT-4V 智能体提供了高级动作描述，描绘玩家在一个视觉丰富、具有未来感的环境中参与战斗场景，环境类似于工业或军事建筑。角色身穿护甲，携带火器，在该区域中穿梭，利用掩体和瞄准系统与敌人交战。捕捉的动作包括角色在掩体后瞄准敌人、向敌人开火、通过屏幕上的视觉提示显示受到伤害，以及进行近距离战斗。环境为夜间照明，人工光源突出了关键区域或动作区域。还出现了一些角色呈现为透明轮廓的时刻，可能表示特殊技能或暂时状态，例如无敌或隐身。为了输入较大的视频，我们选择了若干关键帧（10 帧）发送给 GPT-4V。每个关键帧单独输入，未使用网格（如上图所示）。

如图 35 所示，基于提供的 10 帧视频序列，GPT-4V 智能体可以概述玩家在视频游戏中的动作：
“玩家在夜间引导角色穿越工业环境，利用箱子和墙等物体进行战略掩护。角色携带武器并与敌人展开战斗，可能使用枪械和近战攻击，近距离战斗暗示了这一点。玩家似乎在管理弹药和健康状况，屏幕上的红色闪烁指示符常常显示角色受到伤害。此外，玩家战术性地移动，在不同掩护之间切换以推进或防御敌人。游戏中还出现了保护屏障的激活，表明玩家通过防御技能应对敌方攻击。角色也似乎在重新装填武器，表明战斗中的资源管理元素。血迹和撞击效果显示敌人受到成功攻击。
玩家角色与盟友协同作战，附近有其他角色从事类似的战斗行动。环境中具有互动元素，例如可以利用的爆炸桶，可能为玩家带来战斗优势。”

F. GPT-4V 应用于 Starfield

如图 36 所示，基于提供的 10 帧视频序列，GPT-4V 智能体为《星空》游戏中的玩家动作提供了总体描述。据 GPT-4V 所述：“图像展示了玩家在星空游戏中的一系列事件，反映了其在采矿环境中的互动。以下是该序列的描述：

在这里插入图片描述
图 36：GPT-4V 能够为 Xbox 主机游戏《星空》生成有意义的内容描述。GPT-4V 智能体为这款太空主题探索游戏提供了高级动作描述。为了输入较大的视频，我们选择若干关键帧（10 帧）发送给 GPT-4V。每个关键帧单独输入，未使用网格（如上图所示）。

玩家站在昏暗的地下洞穴中，四周有钟乳石，旁边站着另一位穿着类似宇航服的角色。他们面向一个高亮的路径点，表明该位置是任务目标或感兴趣的位置。
玩家穿过一个工业化的内部区域，可能是采矿站，靠近另一位角色。HUD（抬头显示）显示了来自“林主管”的对话行，这表明可能是 NPC（非玩家角色）互动，可能是任务简报或更新。
玩家似乎在跟随 NPC 林主管穿过洞穴，暗示此段游戏为 NPC 引导玩家前往特定地点或任务的内容。
来自林主管的对话表明可能出现决策点或任务更新，可能引导玩家前往与“大矿脉”相关的新任务。
玩家再次遇到林主管，对方提供了关于金属矿藏的指示或信息，暗示即将开始采矿任务或探索新区域。
在此帧中，玩家似乎在观察或操作一台机器，旁边的角色伊莎贝尔暗示与设备操作或技术工作的相关对话或操作。
玩家俯视粗糙的地形，看到两个发光的物体，可能代表可采集的资源或任务中的兴趣点。
玩家检查特定资源，HUD 标记显示为“铍矿藏”，表明涉及资源收集或采矿活动。
玩家穿过洞穴，可能在寻找更多资源或前往下一个任务目标，前方还有另一名穿着宇航服的角色。
玩家位于洞穴中较暗的区域，有两个发光的标记，指示前方的路径或目标点。

从这些图像来看，玩家似乎参与了一个任务，包括探索、与 NPC 的互动、资源收集以及在采矿环境中操作机器等。HUD 元素如路径点、对话文本和任务更新为玩家的动作和游戏目标提供了背景。”