Agent AI: Surveying the Horizons of Multimodal Interaction---附录

Source

附录

    A. Agent AI 的 GPT-4V 提示细节
除非特别说明,否则我们使用 GPT-4V 的默认系统提示。我们在图 31 中展示了 GPT-4V 在 Minecraft 游戏中提示的详细描述以及生成响应的过程。

在这里插入图片描述
图 31:我们提供代码片段来展示调用 GPT-4V 分析 Minecraft 视频的完整提示过程。首先,对视频的帧进行编码,然后调用 GPT-4V 接口。模型的响应显示在屏幕底部。

    B. GPT-4V 应用于 Bleeding Edge

在这里插入图片描述
图 32:GPT-4V 能够为 Bleeding Edge 这样的具有第三人称视角和视觉复杂场景的游戏生成有意义的内容。为了向 GPT-4V 输入大量帧(48 帧),我们将这些帧以网格形式排列,并在每帧上叠加帧编号(如上图所示)。

    Bleeding Edge 是一款第三人称团队战斗游戏,玩家尝试占领目标点或收集比敌队更多的资源。我们在图 32 中展示了在该游戏中提示 GPT-4V 的示例输入和输出。与 Minecraft 相比,我们发现 GPT-4V 对 Bleeding Edge 的视觉内容和游戏规则的理解较为浅显。这可能是由于 (1) GPT-4V 训练数据中 Minecraft 数据量较大,以及 (2) 相较于 Minecraft,Bleeding Edge 具有更高的视觉复杂性。

    C. GPT-4V 应用于 Microsoft Flight Simulator

在这里插入图片描述
图 33:GPT-4V 能够为 Microsoft Flight Simulator 游戏生成有意义的内容描述。GPT-4V 智能体可以提供高级动作描述,描述玩家在飞行模拟器中驾驶飞机的过程,通过驾驶舱视角和飞机的外部视角展示,管理各种飞行控制和仪表,以保持适当的空速和高度,并在虚拟空域中导航。为了输入较大的视频,我们选择了若干关键帧(6 帧)发送给 GPT-4V。每个关键帧单独输入,未使用网格(如上图所示)。

    如图 33 所示,基于 GPT-4V 的智能体能够为 Microsoft Flight Simulator 提供玩家的高级动作描述。智能体描述了玩家正在驾驶一架飞机,视角显示为驾驶舱视角和外部视角,玩家通过管理各种飞行控制和仪器来保持适当的空速和高度,并在虚拟空域中导航。

    D. GPT-4V 应用于 Assassin’s Creed Odyssey

在这里插入图片描述

    如图 34 所示,GPT-4V 智能体提供了角色在历史战斗中的夜间战斗的高级动作描述,角色手持长矛并使用如“猛冲”这样的特殊技能与多个敌人作战,同时管理健康值和能力值条。智能体还描述了玩家参与了大规模的近战场景,控制着一个带有红色装饰的角色,并按照屏幕提示使用“猛冲技能”。环境黑暗而火光四起,表明这是一个战场,玩家的角色面对多个头顶有等级和血条标记的敌人。这一场景可能是教程或战斗序列的一部分,玩家在其中学习并执行战斗技能。

    E. GPT-4V 应用于 GEARS of WAR 4

在这里插入图片描述

图 35:GPT-4V 能够为《战争机器 4》游戏生成有意义的内容描述。GPT-4V 智能体提供了高级动作描述,描绘玩家在一个视觉丰富、具有未来感的环境中参与战斗场景,环境类似于工业或军事建筑。角色身穿护甲,携带火器,在该区域中穿梭,利用掩体和瞄准系统与敌人交战。捕捉的动作包括角色在掩体后瞄准敌人、向敌人开火、通过屏幕上的视觉提示显示受到伤害,以及进行近距离战斗。环境为夜间照明,人工光源突出了关键区域或动作区域。还出现了一些角色呈现为透明轮廓的时刻,可能表示特殊技能或暂时状态,例如无敌或隐身。为了输入较大的视频,我们选择了若干关键帧(10 帧)发送给 GPT-4V。每个关键帧单独输入,未使用网格(如上图所示)。

    如图 35 所示,基于提供的 10 帧视频序列,GPT-4V 智能体可以概述玩家在视频游戏中的动作:
“玩家在夜间引导角色穿越工业环境,利用箱子和墙等物体进行战略掩护。角色携带武器并与敌人展开战斗,可能使用枪械和近战攻击,近距离战斗暗示了这一点。玩家似乎在管理弹药和健康状况,屏幕上的红色闪烁指示符常常显示角色受到伤害。此外,玩家战术性地移动,在不同掩护之间切换以推进或防御敌人。游戏中还出现了保护屏障的激活,表明玩家通过防御技能应对敌方攻击。角色也似乎在重新装填武器,表明战斗中的资源管理元素。血迹和撞击效果显示敌人受到成功攻击。
玩家角色与盟友协同作战,附近有其他角色从事类似的战斗行动。环境中具有互动元素,例如可以利用的爆炸桶,可能为玩家带来战斗优势。”

    F. GPT-4V 应用于 Starfield

    如图 36 所示,基于提供的 10 帧视频序列,GPT-4V 智能体为《星空》游戏中的玩家动作提供了总体描述。据 GPT-4V 所述:“图像展示了玩家在星空游戏中的一系列事件,反映了其在采矿环境中的互动。以下是该序列的描述:

在这里插入图片描述
图 36:GPT-4V 能够为 Xbox 主机游戏《星空》生成有意义的内容描述。GPT-4V 智能体为这款太空主题探索游戏提供了高级动作描述。为了输入较大的视频,我们选择若干关键帧(10 帧)发送给 GPT-4V。每个关键帧单独输入,未使用网格(如上图所示)。

  1. 玩家站在昏暗的地下洞穴中,四周有钟乳石,旁边站着另一位穿着类似宇航服的角色。他们面向一个高亮的路径点,表明该位置是任务目标或感兴趣的位置。
  2. 玩家穿过一个工业化的内部区域,可能是采矿站,靠近另一位角色。HUD(抬头显示)显示了来自“林主管”的对话行,这表明可能是 NPC(非玩家角色)互动,可能是任务简报或更新。
  3. 玩家似乎在跟随 NPC 林主管穿过洞穴,暗示此段游戏为 NPC 引导玩家前往特定地点或任务的内容。
  4. 来自林主管的对话表明可能出现决策点或任务更新,可能引导玩家前往与“大矿脉”相关的新任务。
  5. 玩家再次遇到林主管,对方提供了关于金属矿藏的指示或信息,暗示即将开始采矿任务或探索新区域。
  6. 在此帧中,玩家似乎在观察或操作一台机器,旁边的角色伊莎贝尔暗示与设备操作或技术工作的相关对话或操作。
  7. 玩家俯视粗糙的地形,看到两个发光的物体,可能代表可采集的资源或任务中的兴趣点。
  8. 玩家检查特定资源,HUD 标记显示为“铍矿藏”,表明涉及资源收集或采矿活动。
  9. 玩家穿过洞穴,可能在寻找更多资源或前往下一个任务目标,前方还有另一名穿着宇航服的角色。
  10. 玩家位于洞穴中较暗的区域,有两个发光的标记,指示前方的路径或目标点。

    从这些图像来看,玩家似乎参与了一个任务,包括探索、与 NPC 的互动、资源收集以及在采矿环境中操作机器等。HUD 元素如路径点、对话文本和任务更新为玩家的动作和游戏目标提供了背景。”