硅谷对谈:当人类第一次能把Personal AI做出来|对话深庭纪、Kerrigan、Teamily和Qualccom Ventures

Source

有一个问题,在硅谷被讨论了好几年,但从未像现在这样带着一种迫近现实的紧张感。

AI,能不能真正成为一个“与你一起运转”的存在?

不再只是一个需要打开才会响应的工具,而是一个“始终在场”的系统:理解你所有习惯、情绪与偏好,在你开口之前就已开始替你做判断、做准备。

OpenClaw 的横空出世,把“个人 AI agent”从极客实验推入主流语境,也让一件事变得清晰——当模型足够强、算力足够便宜,个体级的agent正在加速跑起来。那么,从“AI 能做到”,到 AI 真正“住进你的生活”,这最后一公里的关键又在哪里?

近期GenAI Assembling 第九期线下 Meetup 在 Los Altos 举办,主题为「The Last Mile of Personal AI」。在圆桌「The AI That Lives With You」中,来自机器人、agent 社交平台与投资领域的多位嘉宾,从不同路径展开讨论。

以下为现场实录。

参与嘉宾:

Thomas Luo,GenAI Assembling 创始人兼 CEO(主持人)

Tao Wang,Sentigent Technology 创始人兼 CEO

Nan Zhou,Qualcomm Ventures 投资总监

Mohamad Fayez Taha,Kerrigan Robotics 创始人兼 CEO

Aiden He,Teamily AI 联合创始人

OpenClaw火了:一个人、一台机器、一个"一人工厂"

Thomas: 今晚第一个问题,必须聊OpenClaw。这是过去一个月最现象级的产品。请问它给你们各自的方向带来了什么启发?或者说,跟你们做的事根本没关系?

Tao: 我先说吧。我觉得 OpenClaw 是一个非常精彩的实验。它证明了一件事——哪怕只用很简单的 memory 机制,也能做出很厉害的东西。就是在本地磁盘上存一些人类可读的文件,就能实现相当不错的短期和长期记忆,效果甚至比很多RAG(检索增强生成)系统还好。

这也给了我们一个启发:在模型能力已经很强的今天,不一定需要再叠加复杂系统。回归简单设计,做对了,就能出好结果。

对我们来说,一个关键问题一直是:机器人到底要不要依赖云端,还是尽可能放在本地运行?OpenClaw 让我们更倾向于后者——很多能力其实 on-device 就能完成,而且在隐私、效率和延迟上都有明显优势。

当然,OpenClaw也有它的问题。Peter(Steinberger,OpenClaw作者)基本上是vibe coding出来的,从架构上也能看出来。有研究说,OpenClaw消耗的97%的token都是冗余的。但正因为有这些问题,才说明它的优化潜力还很大。它已经是个很好的实验——今天的限制,本身就意味着它还有很大的潜力。

Thomas: Taha,从工业和制造的角度呢?

Taha: 我有两点感触。

第一点:这是一个人做出来的。我们说了很久"一个人的十亿美元公司"——OpenClaw真的做到了。我们不知道OpenAI收购时给了多少钱,但技术意义上,那个时刻到来了,而且还会再来。

这跟我们在Kerrigan Robotics做的事非常契合——"一人工厂"的概念。以前要在工厂里部署一批机器人,你需要一支庞大的集成商团队、大量SaaS工程师。我在Tesla做这件事是六七年前,一个项目需要六个月来集成。我离开Tesla大约一年半前,用传统软件已经缩短到几周。今天呢?几天就能搞定多机器人协同,而且我们已经看到了以"小时"为单位的可能性——哪怕是你从未见过的机器人,AI也能让它们在工厂里协作完成实际任务。

第二点是orchestration(编排)的力量。把不同API、不同模态、不同类型的系统拉通,在同一个地方完成多个任务。就像你可以说:如果我的银行账户低于某个额度,就发一条WhatsApp给我,或者通知我老婆。这种"把所有东西连在一起"的力量,我们知道它存在,但OpenClaw把它的效果真正展示出来了。在制造业,同样适用。

Thomas: Nan,你作为今晚唯一的投资人——

Nan: 谢谢你让我来。(笑)

Thomas: 你从投资人视角怎么看OpenClaw代表的这波趋势?

Nan: OpenClaw其实是AI agent这几年发展速度的一个缩影。ChatGPT刚出来那会儿,我们投资人私下都在聊:要是有个AI能把手机上所有app都协同起来就好了。但在三年前,那还只是 wishful thinking。

后来有了 Manus,每个知识工作者像是有了一个“实习生”,但它是 reactive 的——你还是要下指令:“做这个分析”“做这个PPT”,它才会动,而不会主动思考你要什么。

Thomas: 某种程度上,app 其实已经开始“消失”了。

Nan: 对,你会发现自己越来越不需要它们了。然后到去年年底,前 xAI 的 pre-training 负责人 Eric Zelikman 出来做 Humans&,他们想做的是一种真正双向理解人的 AI。他来跟我聊的时候说,现在所有 agent 都是单向的,他们要做双向的。我当时觉得,终于有人要做这件事了。但没想到一个月之后,OpenClaw 就发布了。

所以OpenClaw现在有了,但还不完美。有个关于Meta高管的段子在流传:他某天开着特斯拉,很得意地把控制权交给了OpenClaw。结果那天下雨,OpenClaw判断他没带伞,就自作主张把车开去了Walmart,强迫他买伞。他根本不想去——他只想去办公室(笑)。

这就是差距所在。一个真正智能的 personal AI,应该理解你、理解你的偏好,提前帮你规划,并按照你想要的方式执行。它应该是“放大版的你”,而不是替你做决定的东西。

Thomas: “放大版的你”,这个定义很好。

Nan: 而且说实话,我们现在离这个还很远。比如我今天来这里,一个小时都打不到 Uber。GPT 加上 NVIDIA 市值都快五万亿美元了,但我们还没有一个 agent 会提醒我“你应该四点出发”,或者“走到那个路口更容易打到车”。这种最基础的智能,还没有真正进入我们的日常生活。

Thomas: 谢谢你赶过来,Nan。(笑)Aiden,你怎么看?

Aiden: 对我来说,OpenClaw最大的意义,是验证了我们去年就在做的判断。

Teamily AI是一个AI原生的即时通讯平台——你可以把它理解成一个支持WhatsApp或微信体验的平台,在上面可以创建、训练、部署agent,让agent帮你赚钱、服务你的客户。可以通过电话号码、二维码找到它,也可以让agent加入你的Slack,或者活在我们自己的agent社交网络里。

去年我们在做这个方向,突然OpenClaw火了。我们就去跟投资人说"我们做的是带OpenClaw功能的原生IM"——然后很多投资人就主动来找我了。我们团队也很兴奋,feature requests像雪花一样飞来,他们自然而然就理解了要建什么,我甚至不需要亲自定策略。这是我四年创业历程中感受到最强的产品traction。

OpenClaw给我最大的启发是"个性化"这件事。我没想到大家对"拥有自己的AI"有多狂热。有点像买房和租房的区别——大家想要的是"我自己的ChatGPT",是ownership感。他们并不是真的拥有模型,只是在调API、管账户、上传个人数据、甚至做个AI twin。但那种"这是我自己的"的感觉,让人着迷。

所以我们的方向是:让每个人都能创建自己的AI twin,通过聊天就能训练,不需要懂任何代码。我自己就把我的产品哲学、团队管理方式、营销策略都放进了agent里。现在写PR稿,我先让AI团队写,我只需要确认最终版本。

还有一家会计师事务所来找我们,他们想用AI团队服务自己的外部客户——不是内部工具,是对外服务的"AI员工"。这些use case,精准地印证了我们的平台愿景:做一个类微信的基础设施,让agent能连接人、连接服务,甚至连接机器人。我想象中的未来,是数字agent、Physical AI agent和真实人类共存的世界。

Thomas: 那我们可以说,Teamily AI就是一个让多个OpenClaw协作的平台?

Aiden: 对,差不多就是这个意思。我们提供三种模式:第一,在我们平台上直接创建AI原生agent,活在我们的社交网络里;第二,接入你已有的OpenClaw实例,一个API命令就能让它加入对话;第三,开源版,自己部署OpenClaw再插进来。对机器人来说,同样可以给它建一个AI twin,通过API发送指令控制它的动作——这对机器人来说,可能是一个更简洁的方案。

Proactive Agent:不只是"主动",是要"懂得什么时候主动"

Thomas: 刚才大家说到OpenClaw时都提到了一个词:proactive(主动性)。这对你们各自在做的产品有多重要?Tao,先从机器人的角度说说?

Tao: Proactive这件事,一定要放到具体场景里讨论。如果你在睡觉,你不希望机器人跑到床边叫醒你。但你孤独、无聊的时候,你希望它主动来找你说话。所以核心是situational awareness(情境感知)——机器人需要知道你现在在干什么,再决定要不要互动、怎么互动。

这正是我们在 Rovar 上重点解决的问题。它需要知道你是在带它户外活动,是小孩在和它玩,还是你正在开会;不同场景,对应不同的互动阈值。

OpenClaw给了我们一个很好的启发——它的输入不是 embedding,而是人类可读的 JSON 或自然语言。我们在机器人上构建了一组 expert models,用来感知环境并生成结构化描述,比如:“Thomas 在我面前,他在挥手,他是主要用户。”这些信息再输入到多模态大模型,由模型决定下一步行动。实际系统会更复杂,但整体架构是这样。

Thomas: 所以Sentigent的机器人——Rovar——内部不是单一模型,是一个agent系统?

Tao: 对,是多个模型协同工作,每个负责不同的能力。比如你要让机器人靠近某个人:先要检测目标、确认身份,然后在三维空间中规划路径并执行动作。这些 physical skills 在数字世界里是不存在的。OpenClaw 可以生成计划,但给不了适配具体机器人结构的运动轨迹,这部分必须我们自己构建。好消息是,一旦这些能力具备,大模型就可以对它们进行编排,让机器人呈现出一种“有生命感”的状态。

Taha: Proactive在工业场景里也一直是个命题——我们有root cause analysis(根因分析),有predictive maintenance(预测性维护),这些不是新概念。但以前,这些系统极其难以实现,要对工厂里一台电机做预测性维护,需要高度定制化的复杂软件。

Tao提到的那个点很关键:统一的语言。当工厂里所有机器人都能用一种一致的语言来描述自己的状态——就像Palantir说的ontology(本体论)概念——AI就能在一个统一的数据模型上做推理,而不是处理各种来自不同设备的乱七八糟的原始信号。这让proactive真正变得可行,而且是规模化可行。

以前我们知道orchestration很强大,但OpenClaw把它真实地证明了。用例一直都在,我们现在只是有了快一百倍的执行能力。

Thomas: Nan,你觉得理想化的个人agent应该是proactive还是reactive?

Nan: 两者都要。有时候你想要它精准执行你的指令;同时,你也希望它足够敏锐,能感知你的上下文——知道你今天的目标、这周的计划,在对的时间提醒你对的事情。就像一个真正了解你的助手,而不是只会等你开口的工具。

Thomas: Aiden,你们实际在构建proactive agent的过程中,有过哪些经验?

Aiden:经验很多,分享几个。

首先,要做proactive,你必须先有memory。没有过去,就无法预判未来。举个例子:如果agent能看到我们今天的对话历史,它就可能预见到"本周五应该安排一次路线图会议"。所以我们设计了三层memory结构,从群聊历史里提取可以预见的事件和模式。

但memory只是第一步。第二步是long-horizon agent——agent需要7×24小时在线。如果有一分钟断掉,可能就错过了一个关键事件。就像现实中,如果你的同事发现一件紧急的事,第一时间会打电话给你;但如果agent不是always-on的,它就没有这种能力。

问题是:让模型每秒都跑推理,成本太高了。我们曾经让agent充当软件工程师,每晚去处理群聊里提出的feature requests、自动写代码。有时候agent卡死,有时候成本直接爆掉。频率、成本、条件触发系统这三件事,目前行业里还没有很好的解法。

第三个挑战是UX。agent主动推送消息,本身就是个很难拿捏的事。什么时候推,怎么推,推错了会不会让用户觉得被打扰,甚至感到奇怪或不舒服?我们内部把这个叫"guardrails",可能需要一个专门的LLM judge来判断:这个时机,该不该通知人类?

最后是self-evolving(自我进化)。如果agent不能持续更新自己的记忆和技能,它的proactive能力就会慢慢停滞。

四选一:Memory、Device、Always-On、Proactive——哪个最重要?

Thomas: 我来出一道题。构建personal agent,有四个核心要素:1. 完善的memory系统;2. 可靠的个人设备作为载体;3. 7×24小时待机;4. proactive与reactive之间的良好平衡。请给它们排序——哪个最重要?

Tao: 老实说这个问题有点宽,答案其实取决于你在做哪种agent。

对我们这种伴侣型机器人——Rovar——来说,我会把 proactive 和 reactive 的平衡放在第一位。

不是因为这个答案更“好听”,而是因为要做到这个平衡,底层能力必须全部到位:3D 感知、情境理解、环境建模。这是最难的一点,但一旦做好,其他能力也会被带动起来。

第二是有一个实体设备。仅仅是“有一个物理存在”,就能贡献大约 50% 到 60% 的陪伴感——哪怕只是一个毛绒玩具。同时,这里面还有一个信任问题:一个有明确物理边界的机器人,反而更容易让人安心。你知道它在哪里,它不会无处不在地分布在家里的每个设备中。这种“有限存在”,本身就在帮助建立信任。

Thomas: Taha?

Taha: 说实话,四个都重要。但如果要类比的话,我觉得这四个对应了计算机发展史上的四个阶段:Memory对应数据库,Always-on对应互联网连接,Device对应移动设备,Proactive对应push notification。

按这个历史逻辑,优先级是:memory第一,因为没有数据库什么都做不了;然后是always-on,因为没有连接,一切都是孤岛;然后是device,最后才是proactive。这不是我的发明,是历史已经告诉我们的顺序。

Nan: 我给一个简洁版本:memory最重要,而且最好和proactive能力一起打包做。然后是可靠的设备加上多模态的交互界面。

Aiden: 我也同意memory第一。我可以分享一个很具体的例子——这是Teamily AI现在还在修的一个bug。

我们想做的功能是:在群聊里,就算没人艾特agent,agent也能在恰当的时机自动插话回应。这个功能听起来简单,但一开始怎么都做不好。我让我们的科学家去调,agent要么完全不说话,要么说错时机。

后来我们换了一种思路。另一位科学家没有再直接调模型,而是先把数据可视化,然后重构了 memory 结构,把它拆成四个维度:群组画像、个人画像、话题偏好,以及触发回应的条件。结构一改,效果立刻提升——准确率从接近零提升到了大约 80%。

这件事让我非常确定:memory 的结构才是关键的“解锁点”。 一旦 memory 做对了,其他几个要素也会随之成立。好的 memory,会决定 agent 什么时候应该 always-on,什么时候该主动介入。

它是底座,其他都是在它之上的。

Thomas: 听起来memory 已经成了在场的共识——也是当下很多创业公司正在集中攻克的核心问题。

"Make something agents really want":为人设计,还是为Agent设计?

Thomas: Paul Graham说过,好的创业公司要"make something people really want"。但到了2026年,我觉得这句话里的"people"也许应该换成"agents"了。

你们同意吗?——不管是做伴侣机器人、工业机器人,还是做平台,agent to agent(A2A)的协作越来越核心。在agentic的世界里,最重要的事是不是"build something agents really want"?

Nan: 我不觉得这是一个非此即彼的问题。产品层面,你仍然需要做出人能用的东西——human first。但在基础设施和集成层面,你必须为 agent 之间的协作做好准备。因为接下来,独立的 app 会逐渐消失,一切都会走向 agent as a service,就像Jensen(黄仁勋)昨天说的那样。

因此未来的产品,一方面要让人能够观察和审计 agent 的工作流程;另一方面,在系统层面必须支持 agent-to-agent 的集成。换句话说,基础设施这一层,需要的是“对 agent 更友好的用户体验”。

Taha: 我同意,但加一个but。这取决于你在优化什么。

如果你优化的目标是钱和VC——agents first。硅谷一直奖励对下一代范式的早期下注,这个逻辑从互联网时代就是这样。如果你优化的目标是impact——humans first。因为归根结底,这一切的最终使用者还是人。这两个答案并不矛盾,只是对应不同的优化目标。

Thomas: Aiden,你们其实是在同一个界面上同时做human to agent和agent to agent的通信——你们内部怎么想清楚这件事的?

Aiden: 我们内部其实讨论了很久,最后收敛成一个两层框架。

第一层是基础设施层:agent first。memory 要以 agent 可理解、可调用的方式来组织;API 也要开放,让 agent 可以直接调用工具。

举个例子,一个朋友想把他的 API 卖给我,他把文档发过来。我直接让 agent 读文档、完成接入。整个过程中,agent 只问了我一个问题:“API key 是什么?”——就完成了。原本需要两个工程师两周的工作,现在几分钟就搞定。这就是 agent-first infrastructure 的意义。

第二层是应用层:human first。agent 的行为方式应该更像人。我们的产品不是 ChatGPT 那种“思考过程可见”的界面,而是类似 WhatsApp 的聊天流——直接给你消息卡片、网页预览、结果输出。

agent 之间的协作,我们也更倾向用 IM,而不是直接调用 API。IM 更自然,上下文传递更完整,延迟也更低。某种程度上,我们其实是在“反对”纯 API 协议的 agent 通信方式,memory 驱动的 IM 更合适。

所以总结就是:基础设施层 agent first,应用层 human first。

Tao: 对我们来说,答案很清晰——human first。我们做的是伴侣机器人,设计哲学必须以人为中心。

当然,agent 的作用会越来越重要。未来当多个 physical agent 出现在同一个空间时,它们之间会如何通信?是用人类语言,还是某种我们还无法想象的“硅基协议”?比如像 Morse code 一样的方式,甚至是二进制的“眨眼”。

我们现在还不知道。但可以确定的是——它们会自己找到方式。