硅谷对谈：当人类第一次能把Personal AI做出来｜对话深庭纪、Kerrigan、Teamily和Qualccom Ventures

Source

有一个问题，在硅谷被讨论了好几年，但从未像现在这样带着一种迫近现实的紧张感。

AI，能不能真正成为一个“与你一起运转”的存在？

不再只是一个需要打开才会响应的工具，而是一个“始终在场”的系统：理解你所有习惯、情绪与偏好，在你开口之前就已开始替你做判断、做准备。

OpenClaw 的横空出世，把“个人 AI agent”从极客实验推入主流语境，也让一件事变得清晰——当模型足够强、算力足够便宜，个体级的agent正在加速跑起来。那么，从“AI 能做到”，到 AI 真正“住进你的生活”，这最后一公里的关键又在哪里？

近期GenAI Assembling 第九期线下 Meetup 在 Los Altos 举办，主题为「The Last Mile of Personal AI」。在圆桌「The AI That Lives With You」中，来自机器人、agent 社交平台与投资领域的多位嘉宾，从不同路径展开讨论。

以下为现场实录。

参与嘉宾：

Thomas Luo，GenAI Assembling 创始人兼 CEO（主持人）

Tao Wang，Sentigent Technology 创始人兼 CEO

Nan Zhou，Qualcomm Ventures 投资总监

Mohamad Fayez Taha，Kerrigan Robotics 创始人兼 CEO

Aiden He，Teamily AI 联合创始人

OpenClaw火了：一个人、一台机器、一个"一人工厂"

Thomas： 今晚第一个问题，必须聊OpenClaw。这是过去一个月最现象级的产品。请问它给你们各自的方向带来了什么启发？或者说，跟你们做的事根本没关系？

Tao： 我先说吧。我觉得 OpenClaw 是一个非常精彩的实验。它证明了一件事——哪怕只用很简单的 memory 机制，也能做出很厉害的东西。就是在本地磁盘上存一些人类可读的文件，就能实现相当不错的短期和长期记忆，效果甚至比很多RAG（检索增强生成）系统还好。

这也给了我们一个启发：在模型能力已经很强的今天，不一定需要再叠加复杂系统。回归简单设计，做对了，就能出好结果。

对我们来说，一个关键问题一直是：机器人到底要不要依赖云端，还是尽可能放在本地运行？OpenClaw 让我们更倾向于后者——很多能力其实 on-device 就能完成，而且在隐私、效率和延迟上都有明显优势。

当然，OpenClaw也有它的问题。Peter（Steinberger，OpenClaw作者）基本上是vibe coding出来的，从架构上也能看出来。有研究说，OpenClaw消耗的97%的token都是冗余的。但正因为有这些问题，才说明它的优化潜力还很大。它已经是个很好的实验——今天的限制，本身就意味着它还有很大的潜力。

Thomas： Taha，从工业和制造的角度呢？

Taha： 我有两点感触。

第一点：这是一个人做出来的。我们说了很久"一个人的十亿美元公司"——OpenClaw真的做到了。我们不知道OpenAI收购时给了多少钱，但技术意义上，那个时刻到来了，而且还会再来。

这跟我们在Kerrigan Robotics做的事非常契合——"一人工厂"的概念。以前要在工厂里部署一批机器人，你需要一支庞大的集成商团队、大量SaaS工程师。我在Tesla做这件事是六七年前，一个项目需要六个月来集成。我离开Tesla大约一年半前，用传统软件已经缩短到几周。今天呢？几天就能搞定多机器人协同，而且我们已经看到了以"小时"为单位的可能性——哪怕是你从未见过的机器人，AI也能让它们在工厂里协作完成实际任务。

第二点是orchestration（编排）的力量。把不同API、不同模态、不同类型的系统拉通，在同一个地方完成多个任务。就像你可以说：如果我的银行账户低于某个额度，就发一条WhatsApp给我，或者通知我老婆。这种"把所有东西连在一起"的力量，我们知道它存在，但OpenClaw把它的效果真正展示出来了。在制造业，同样适用。

Thomas： Nan，你作为今晚唯一的投资人——

Nan： 谢谢你让我来。（笑）

Thomas： 你从投资人视角怎么看OpenClaw代表的这波趋势？

Nan： OpenClaw其实是AI agent这几年发展速度的一个缩影。ChatGPT刚出来那会儿，我们投资人私下都在聊：要是有个AI能把手机上所有app都协同起来就好了。但在三年前，那还只是 wishful thinking。

后来有了 Manus，每个知识工作者像是有了一个“实习生”，但它是 reactive 的——你还是要下指令：“做这个分析”“做这个PPT”，它才会动，而不会主动思考你要什么。

Thomas： 某种程度上，app 其实已经开始“消失”了。

Nan： 对，你会发现自己越来越不需要它们了。然后到去年年底，前 xAI 的 pre-training 负责人 Eric Zelikman 出来做 Humans&，他们想做的是一种真正双向理解人的 AI。他来跟我聊的时候说，现在所有 agent 都是单向的，他们要做双向的。我当时觉得，终于有人要做这件事了。但没想到一个月之后，OpenClaw 就发布了。

所以OpenClaw现在有了，但还不完美。有个关于Meta高管的段子在流传：他某天开着特斯拉，很得意地把控制权交给了OpenClaw。结果那天下雨，OpenClaw判断他没带伞，就自作主张把车开去了Walmart，强迫他买伞。他根本不想去——他只想去办公室（笑）。

这就是差距所在。一个真正智能的 personal AI，应该理解你、理解你的偏好，提前帮你规划，并按照你想要的方式执行。它应该是“放大版的你”，而不是替你做决定的东西。

Thomas： “放大版的你”，这个定义很好。

Nan： 而且说实话，我们现在离这个还很远。比如我今天来这里，一个小时都打不到 Uber。GPT 加上 NVIDIA 市值都快五万亿美元了，但我们还没有一个 agent 会提醒我“你应该四点出发”，或者“走到那个路口更容易打到车”。这种最基础的智能，还没有真正进入我们的日常生活。

Thomas： 谢谢你赶过来，Nan。（笑）Aiden，你怎么看？

Aiden： 对我来说，OpenClaw最大的意义，是验证了我们去年就在做的判断。

Teamily AI是一个AI原生的即时通讯平台——你可以把它理解成一个支持WhatsApp或微信体验的平台，在上面可以创建、训练、部署agent，让agent帮你赚钱、服务你的客户。可以通过电话号码、二维码找到它，也可以让agent加入你的Slack，或者活在我们自己的agent社交网络里。

去年我们在做这个方向，突然OpenClaw火了。我们就去跟投资人说"我们做的是带OpenClaw功能的原生IM"——然后很多投资人就主动来找我了。我们团队也很兴奋，feature requests像雪花一样飞来，他们自然而然就理解了要建什么，我甚至不需要亲自定策略。这是我四年创业历程中感受到最强的产品traction。

OpenClaw给我最大的启发是"个性化"这件事。我没想到大家对"拥有自己的AI"有多狂热。有点像买房和租房的区别——大家想要的是"我自己的ChatGPT"，是ownership感。他们并不是真的拥有模型，只是在调API、管账户、上传个人数据、甚至做个AI twin。但那种"这是我自己的"的感觉，让人着迷。

所以我们的方向是：让每个人都能创建自己的AI twin，通过聊天就能训练，不需要懂任何代码。我自己就把我的产品哲学、团队管理方式、营销策略都放进了agent里。现在写PR稿，我先让AI团队写，我只需要确认最终版本。

还有一家会计师事务所来找我们，他们想用AI团队服务自己的外部客户——不是内部工具，是对外服务的"AI员工"。这些use case，精准地印证了我们的平台愿景：做一个类微信的基础设施，让agent能连接人、连接服务，甚至连接机器人。我想象中的未来，是数字agent、Physical AI agent和真实人类共存的世界。

Thomas： 那我们可以说，Teamily AI就是一个让多个OpenClaw协作的平台？

Aiden： 对，差不多就是这个意思。我们提供三种模式：第一，在我们平台上直接创建AI原生agent，活在我们的社交网络里；第二，接入你已有的OpenClaw实例，一个API命令就能让它加入对话；第三，开源版，自己部署OpenClaw再插进来。对机器人来说，同样可以给它建一个AI twin，通过API发送指令控制它的动作——这对机器人来说，可能是一个更简洁的方案。

Proactive Agent：不只是"主动"，是要"懂得什么时候主动"

Thomas： 刚才大家说到OpenClaw时都提到了一个词：proactive（主动性）。这对你们各自在做的产品有多重要？Tao，先从机器人的角度说说？

Tao： Proactive这件事，一定要放到具体场景里讨论。如果你在睡觉，你不希望机器人跑到床边叫醒你。但你孤独、无聊的时候，你希望它主动来找你说话。所以核心是situational awareness（情境感知）——机器人需要知道你现在在干什么，再决定要不要互动、怎么互动。

这正是我们在 Rovar 上重点解决的问题。它需要知道你是在带它户外活动，是小孩在和它玩，还是你正在开会；不同场景，对应不同的互动阈值。

OpenClaw给了我们一个很好的启发——它的输入不是 embedding，而是人类可读的 JSON 或自然语言。我们在机器人上构建了一组 expert models，用来感知环境并生成结构化描述，比如：“Thomas 在我面前，他在挥手，他是主要用户。”这些信息再输入到多模态大模型，由模型决定下一步行动。实际系统会更复杂，但整体架构是这样。

Thomas： 所以Sentigent的机器人——Rovar——内部不是单一模型，是一个agent系统？

Tao： 对，是多个模型协同工作，每个负责不同的能力。比如你要让机器人靠近某个人：先要检测目标、确认身份，然后在三维空间中规划路径并执行动作。这些 physical skills 在数字世界里是不存在的。OpenClaw 可以生成计划，但给不了适配具体机器人结构的运动轨迹，这部分必须我们自己构建。好消息是，一旦这些能力具备，大模型就可以对它们进行编排，让机器人呈现出一种“有生命感”的状态。

Taha： Proactive在工业场景里也一直是个命题——我们有root cause analysis（根因分析），有predictive maintenance（预测性维护），这些不是新概念。但以前，这些系统极其难以实现，要对工厂里一台电机做预测性维护，需要高度定制化的复杂软件。

Tao提到的那个点很关键：统一的语言。当工厂里所有机器人都能用一种一致的语言来描述自己的状态——就像Palantir说的ontology（本体论）概念——AI就能在一个统一的数据模型上做推理，而不是处理各种来自不同设备的乱七八糟的原始信号。这让proactive真正变得可行，而且是规模化可行。

以前我们知道orchestration很强大，但OpenClaw把它真实地证明了。用例一直都在，我们现在只是有了快一百倍的执行能力。

Thomas： Nan，你觉得理想化的个人agent应该是proactive还是reactive？

Nan： 两者都要。有时候你想要它精准执行你的指令；同时，你也希望它足够敏锐，能感知你的上下文——知道你今天的目标、这周的计划，在对的时间提醒你对的事情。就像一个真正了解你的助手，而不是只会等你开口的工具。

Thomas： Aiden，你们实际在构建proactive agent的过程中，有过哪些经验？

Aiden：经验很多，分享几个。

首先，要做proactive，你必须先有memory。没有过去，就无法预判未来。举个例子：如果agent能看到我们今天的对话历史，它就可能预见到"本周五应该安排一次路线图会议"。所以我们设计了三层memory结构，从群聊历史里提取可以预见的事件和模式。

但memory只是第一步。第二步是long-horizon agent——agent需要7×24小时在线。如果有一分钟断掉，可能就错过了一个关键事件。就像现实中，如果你的同事发现一件紧急的事，第一时间会打电话给你；但如果agent不是always-on的，它就没有这种能力。

问题是：让模型每秒都跑推理，成本太高了。我们曾经让agent充当软件工程师，每晚去处理群聊里提出的feature requests、自动写代码。有时候agent卡死，有时候成本直接爆掉。频率、成本、条件触发系统这三件事，目前行业里还没有很好的解法。

第三个挑战是UX。agent主动推送消息，本身就是个很难拿捏的事。什么时候推，怎么推，推错了会不会让用户觉得被打扰，甚至感到奇怪或不舒服？我们内部把这个叫"guardrails"，可能需要一个专门的LLM judge来判断：这个时机，该不该通知人类？

最后是self-evolving（自我进化）。如果agent不能持续更新自己的记忆和技能，它的proactive能力就会慢慢停滞。

四选一：Memory、Device、Always-On、Proactive——哪个最重要？

Thomas： 我来出一道题。构建personal agent，有四个核心要素：1. 完善的memory系统；2. 可靠的个人设备作为载体；3. 7×24小时待机；4. proactive与reactive之间的良好平衡。请给它们排序——哪个最重要？

Tao： 老实说这个问题有点宽，答案其实取决于你在做哪种agent。

对我们这种伴侣型机器人——Rovar——来说，我会把 proactive 和 reactive 的平衡放在第一位。

不是因为这个答案更“好听”，而是因为要做到这个平衡，底层能力必须全部到位：3D 感知、情境理解、环境建模。这是最难的一点，但一旦做好，其他能力也会被带动起来。

第二是有一个实体设备。仅仅是“有一个物理存在”，就能贡献大约 50% 到 60% 的陪伴感——哪怕只是一个毛绒玩具。同时，这里面还有一个信任问题：一个有明确物理边界的机器人，反而更容易让人安心。你知道它在哪里，它不会无处不在地分布在家里的每个设备中。这种“有限存在”，本身就在帮助建立信任。

Thomas： Taha？

Taha： 说实话，四个都重要。但如果要类比的话，我觉得这四个对应了计算机发展史上的四个阶段：Memory对应数据库，Always-on对应互联网连接，Device对应移动设备，Proactive对应push notification。

按这个历史逻辑，优先级是：memory第一，因为没有数据库什么都做不了；然后是always-on，因为没有连接，一切都是孤岛；然后是device，最后才是proactive。这不是我的发明，是历史已经告诉我们的顺序。

Nan： 我给一个简洁版本：memory最重要，而且最好和proactive能力一起打包做。然后是可靠的设备加上多模态的交互界面。

Aiden： 我也同意memory第一。我可以分享一个很具体的例子——这是Teamily AI现在还在修的一个bug。

我们想做的功能是：在群聊里，就算没人艾特agent，agent也能在恰当的时机自动插话回应。这个功能听起来简单，但一开始怎么都做不好。我让我们的科学家去调，agent要么完全不说话，要么说错时机。

后来我们换了一种思路。另一位科学家没有再直接调模型，而是先把数据可视化，然后重构了 memory 结构，把它拆成四个维度：群组画像、个人画像、话题偏好，以及触发回应的条件。结构一改，效果立刻提升——准确率从接近零提升到了大约 80%。

这件事让我非常确定：memory 的结构才是关键的“解锁点”。 一旦 memory 做对了，其他几个要素也会随之成立。好的 memory，会决定 agent 什么时候应该 always-on，什么时候该主动介入。

它是底座，其他都是在它之上的。

Thomas： 听起来memory 已经成了在场的共识——也是当下很多创业公司正在集中攻克的核心问题。

"Make something agents really want"：为人设计，还是为Agent设计？

Thomas： Paul Graham说过，好的创业公司要"make something people really want"。但到了2026年，我觉得这句话里的"people"也许应该换成"agents"了。

你们同意吗？——不管是做伴侣机器人、工业机器人，还是做平台，agent to agent（A2A）的协作越来越核心。在agentic的世界里，最重要的事是不是"build something agents really want"？

Nan： 我不觉得这是一个非此即彼的问题。产品层面，你仍然需要做出人能用的东西——human first。但在基础设施和集成层面，你必须为 agent 之间的协作做好准备。因为接下来，独立的 app 会逐渐消失，一切都会走向 agent as a service，就像Jensen（黄仁勋）昨天说的那样。

因此未来的产品，一方面要让人能够观察和审计 agent 的工作流程；另一方面，在系统层面必须支持 agent-to-agent 的集成。换句话说，基础设施这一层，需要的是“对 agent 更友好的用户体验”。

Taha： 我同意，但加一个but。这取决于你在优化什么。

如果你优化的目标是钱和VC——agents first。硅谷一直奖励对下一代范式的早期下注，这个逻辑从互联网时代就是这样。如果你优化的目标是impact——humans first。因为归根结底，这一切的最终使用者还是人。这两个答案并不矛盾，只是对应不同的优化目标。

Thomas： Aiden，你们其实是在同一个界面上同时做human to agent和agent to agent的通信——你们内部怎么想清楚这件事的？

Aiden： 我们内部其实讨论了很久，最后收敛成一个两层框架。

第一层是基础设施层：agent first。memory 要以 agent 可理解、可调用的方式来组织；API 也要开放，让 agent 可以直接调用工具。

举个例子，一个朋友想把他的 API 卖给我，他把文档发过来。我直接让 agent 读文档、完成接入。整个过程中，agent 只问了我一个问题：“API key 是什么？”——就完成了。原本需要两个工程师两周的工作，现在几分钟就搞定。这就是 agent-first infrastructure 的意义。

第二层是应用层：human first。agent 的行为方式应该更像人。我们的产品不是 ChatGPT 那种“思考过程可见”的界面，而是类似 WhatsApp 的聊天流——直接给你消息卡片、网页预览、结果输出。

agent 之间的协作，我们也更倾向用 IM，而不是直接调用 API。IM 更自然，上下文传递更完整，延迟也更低。某种程度上，我们其实是在“反对”纯 API 协议的 agent 通信方式，memory 驱动的 IM 更合适。

所以总结就是：基础设施层 agent first，应用层 human first。

Tao： 对我们来说，答案很清晰——human first。我们做的是伴侣机器人，设计哲学必须以人为中心。

当然，agent 的作用会越来越重要。未来当多个 physical agent 出现在同一个空间时，它们之间会如何通信？是用人类语言，还是某种我们还无法想象的“硅基协议”？比如像 Morse code 一样的方式，甚至是二进制的“眨眼”。

我们现在还不知道。但可以确定的是——它们会自己找到方式。