对话Mootion王咏刚：AI视频创业，要用B端打磨的“AI锤子”，敲C端海量市场的真实“钉子”

Source

在阿曼——一个仅有四百多万人口的国家，有近3万名老师，正通过一款AI工具制作教学视频。

而缔造这一切的，是一个仅有20人的中国团队——Mootion，一款用户只需要输入一句话，就可以让AI写剧本、做分镜、剪视频的一站式AI视频应用工具。

当下，拥挤的AI视频赛道正上演着一场“向上”与“向下”的双向狂奔：向上，是以Kling、Veo为代表的顶尖基座模型，不断挑战着真实感的天花板，向着更高的可控性、一致性和信息密度进发；向下，是层出不穷的视频Agent工具，努力向用户场景靠近，通过提供爆款特效或风格化模板(Hailuo Video Agent)，在C端市场分一杯羹。

在这一行业背景下，Mootion正在尝试走一条不同的道路：它既不追赶底层模型的参数竞赛，也不是提供炫酷的风格化模板，而是深入特定垂直场景，将从脚本构思、分镜设计到最终视频生成的一整套流程，进行“类型化”与“自动化”。

阿曼及更广泛的阿拉伯世界中，教育工作者对Mootion的广泛使用，就是一个典型且成功的垂直领域案例。

在创始人王咏刚看来，基座大模型就像一个能力超群的“理科生”，能精准执行指令，却缺乏艺术感和叙事能力。而Mootion要做的，就是让模型学习“文科”，通过这些结构化的场景，学会特定类型下的镜头语言和人类故事逻辑。

我们和Mootion的创始人王咏刚聊了聊发现，他们有一套“B端打磨技术，C端普惠用户”的打法。

一头，Mootion通过扎进最专业的影视工业，与猫眼等公司合作，让AI在电影级的制作流程中，学习工业级的顶尖叙事和运镜技巧；另一头，将这些千锤百炼的“导演方法论”，打包成普通人也能一键使用的场景化功能，以极低的成本反哺C端的用户们。

从一个个细分场景切入，Mootion正在解决普通人的视频内容创作需求。

B端打磨、C端复用，为AI补上“导演课”

硅星人：您好，首先请您介绍一下，Mootion是一款怎样的产品？

王咏刚：一句话描述就是，Mootion 就是一款最“普惠”的AI视频制作工具，谁都可以用，非常方便、简单、快速。

硅星人： 这种低门槛是怎么体现的？

王咏刚： 比如我们最新的功能，agentic video creation。用户只要输入一句话，AI就会自动以导演的角色构思，编剧的角色制作脚本，动画师的角色制作分镜，然后剪辑师的身份进行剪辑，最后给到用户一个故事、画面、声音都完成的完整作品。

过去，用户可能还需要自己一步步地去选择场景、风格。现在，我们希望用户连这些“稍微选一选”的步骤都可以省掉。

硅星人：这和现在市面上有很多的AI视频 Agent产品相比，区别在哪？

王咏刚： 这个核心问题就是：AI在创意领域的逻辑能力，其实非常弱，我们做了很多差异化的工作，让用户一句话生成的最终成果，达到了真正可交付的水平。

打个比方，如果说AI在处理有标准答案的、数理化编程这类“理工科”问题上，能力已经从去年的30分提高到了今天的80分。那么在创意领域，怎么讲一个好故事，怎么安排镜头，它可能顶多是从30分提高到了50分，还远远不及格。

今天AI生成的很多内容，在专业导演看来，非常“平庸”，甚至不如一个电影学院的学生。

硅星人：您的意思是，当前的大语言模型，不懂专业影视制作的艺术？具体是怎么不懂？

王咏刚： 因为创意逻辑是开放的，它需要风格化、需要个人表达。一个大导演、大编剧的思考逻辑，与数学公式完全不同。

这个问题的根源在于，今天大模型的训练体系，无论是训练数据、激励函数还是评估标准，都充满了“理工科思维”，它们被设计用来解决数学和编程问题。如果后训练阶段，能有懂得写作、编剧、导演、美术的专业人士来制定数据和评价体系，AI的创意能力才会有本质的提升空间。

所以，我们的Agent，就是集中在这些大语言模型不擅长的地方，不是简单地去调用大模型的能力，让它习得这些专业的“方法论”。

硅星人：意思是喂给他王家卫、周星驰这种大导演的类型数据吗？

王咏刚：不不，我们不指望AI马上变成一个大导演，而是希望它能达到一个“导演系科班生”的水平。

我们可以直接用人类世界已经沉淀下来的课本知识去finetune，以及我们也会通过和专业影视行业（比如我们的战略投资方猫眼）的深度合作，拿到很多私有的、真实详细的动画番剧、电影的“分镜头剧本”，让AI去学习这些结构化的专业数据。

不是学皮毛，而是学导演的叙事节奏、场景安排、镜头语言。

硅星人：所以，Mootion和猫眼的合作是怎样的形式，主要是数据库的搭建吗？

王咏刚： 不只是数据层面，而是业务和技术层面的合作。这也是我们非常核心的战略。

我们的团队一直希望用高质量的专业内容制作，来带动普惠的、人人能用的内容产品。具体来说，Mootion.com是我们面向全球个人用户的C端平台，它追求的是简单易用，让一个8岁的孩子都能通过一句话生成一个有趣的故事视频。

而我们团队深厚的算法能力，尤其是3D动画与视频的融合算法，则主要输出给了B端的专业工作流。我们正与中国最前沿的动画内容制作团队进行深度的技术合作，在真实的工业级动画电影、网络番剧的制作流程中去打磨我们的AI技术。

相当于说，我们在最顶尖的3D动画工作流中，解决最棘手的技术难题，比如如何让AI理解并执行复杂的“运镜”。当这些技术在B端得到验证和沉淀后，我们再通过Mootion平台，将其“普惠”给C端的海量个人用户。

先从50分到60分，建立电影数据库与关键帧审查机制

硅星人：您刚才说，现在模型能做到的是50分，那么Mootion等产品，要在此之上，做到60分、70分甚至100分的过程，具体该怎么做？

王咏刚： 第一，建立专业的导演知识库、数据库，第二是，基于这些数据，结合RAG（检索增强生成）和微调（Fine-tuning），让AI“学”。

硅星人： “导演知识库”是怎么做的？数据是怎么处理的呢？

王咏刚： 本质上是在“教”AI学懂电影的视听语言。我们会把影史上经典的类型片，比如上百部经典的恐怖电影，进行逐帧、逐镜头的拆解和分析。我们内部有一个小程序，专门阅读和分析这些真实的动画番剧、电影的分镜头剧本，学习导演是如何安排叙事、场景、人物关系和运镜的。

一方面，从中总结出一些规律性的“编剧公式”。比如，“一个高大全的好人角色是不好看的，必须在他小时候安排一件事来解释他性格上的软弱”，这种公式AI是能够学会的。

另一方面，学习“类型片”的导演、镜头公式。比如针对悬疑类型的，最常用的镜头语言是什么，什么时候推镜头、什么时候近景等等。

现在“镜头语言”可能是AI生图和生视频目前最差的环节，就像一个恐怖故事，用“身后过肩视角”就比“全景”更能营造氛围，这件事基模并不容易学会。

以恐怖故事为例，我们拥有了一个关于“如何拍恐怖片”的庞大知识库后，当用户选择“恐怖故事”模板并输入他的故事情节时，AI会通过Rag检索出“导演知识库”中类似的经典分镜方案，作为参考喂给模型，从而提升生成质量。

硅星人：您解释了编剧阶段如何让文本模型更好的生成，那视频生成阶段呢，如果模型无法做到精准理解并执行“镜头语言”，生成环节抽卡抽不出来，怎么办呢？

王咏刚： 比如，“希区柯克式变焦”非常经典，它在光学上是“摄像机向前推的同时，镜头向后变焦”。模型可能听不懂“”这个词，但它们可能分别听得懂“Dolly in”（向前推）和“Zoom out”（向后变焦）这两个更基础的指令。我们需要就是把这些复杂的导演术语，在我们的数据库和指令层，翻译和拆解成基础模型能够理解的、更简单的指令组合。

其次，我也很坦诚，Mootion也不是说今天就很完美了，只是在努力从50分做到60分、70分的水平。作为创业公司，我们不做直接做生成视频的模型，生成抽卡是基模目前的一个现状，我们在其中尽可能做了关键帧审查（Keyframe Review）。

当我们生成一个动态画面时，实际是把上一个视频片段的某一帧，当作下一个片段的关键帧来继续生成。我们会在每隔4秒或5秒的关键节点上，对生成的关键帧进行一次质量验证。这个验证就包括了类型一致性和视觉风格一致性。

硅星人： Mootion的底层技术架构，能否具体拆解一下，在文本理解、分镜设计，以及最终的图像和视频生成这些不同环节，你们分别依赖哪些模型来实现的？

王咏刚： 在文本和分镜设计这个环节，我们是综合使用Claude和GPT这两种模型来提供服务的，然后会配合我们的一些反馈机制和基于RAG的小型数据库——这些小数据库主要是用来做特定类型片（比如悬疑故事）的优化。

而在图像和视频生成上，我们则基于开源模型自研优化为主。我们不去调用那些通过API提供、价格昂贵的闭源模型，因为成本非常高。目前，我们的图像生成主要集中在FLUX模型，并且和他们的团队已经建立了企业级的合作关系。

硅星人： 相当于，顶尖闭源模型负责思考，优化后的开源模型负责执行，这是一个注重planning的制作过程。

“全球市场非常庞大和分散，而我们已经找到了切入口”

硅星人：用户现在的反馈如何，以及用户量级和增速有相应的数据吗？

王咏刚： 用户的反馈其实挺有意思的，我们收到的最普遍的好评，就是用户觉得Mootion“不用学，上手就懂”。这一点让我们很受鼓舞，说明我们追求的“普惠”理念，用户是能直接感受到的。

至于量级，我们产品正式发布还不到一年，目前全球已经积累了两百多万的注册用户，分布在十几个不同的国家和地区。可以说，增长速度还是非常快的。

硅星人：目前的收入数据是怎样的？

王咏刚： 我们的订阅收入增长得相当不错。就在最近，我们的年化经常性收入（ARR）刚刚达到了100万美金这个里程碑。

当然，坦白说，我们还没有达到break-even（盈亏平衡）的那个点。但对于一个正式发布还不到一年的产品来说，这笔收入已经至关重要。它让我们能够建立一个健康的商业循环，而不是完全依赖外部融资去烧钱。

这里面还有一个很有意思的现象：我们大概有三分之一的订阅收入，是来自阿拉伯世界。比如阿联酋、沙特这些海湾国家用户，他们的付费意愿和能力都非常强。

硅星人：这个很有意思，为什么是阿拉伯世界？Mootion是怎么找到这个市场的？

王咏刚： 说实话，这最初也让我们非常意外。我们目前沉淀下来两类非常核心的付费用户群体，第一类是社交媒体上的类型化内容创作者，比如儿童睡前故事、恐怖故事、历史故事等。对于他们而言，Mootion提供了一个高效的、能快速将文本创意视觉化的工具，这非常符合他们的需求。

第二类，就是阿拉伯世界的教育工作者。这真是一个“无心插柳”的故事。

产品发布初期，我们在全球多个市场都做了小规模的推广尝试。其中，一个面向阿拉伯地区的推广视频，在埃及和摩洛哥的学校里传播开来，快速传播到海湾6国。后台数据也显示，来自那里的用户量和付费比例在自然增长。

我们去当地调研后发现，老师有一个巨大的刚需场景：他们教孩子英语时，除了课本，非常缺乏其他的教学参考资料。而用Mootion可以快速生成双语对话视频，学生们不仅能看，还能自己动手创作双语视频故事，实践“做中学”的理念。这个模式一下就在老师群体中通过口碑传播开来，完全没有花我们额外的推广费用。

硅星人：这种完全由用户自发形成的口碑传播，后来发展到了多大的规模？有没有一个具体的时刻，让你们团队意识到“这件事真的成了”？

王咏刚： 的确有。最让我们震惊的一个时刻，是今年1月份，阿曼的教育部通过他们驻中国的大使馆，主动找到了我们。他们给出的理由非常直接：“我们发现有很多老师都在用一个叫Mootion的产品”。

当时，阿曼这个国家总人口只有四百多万，但已经有接近3万名老师在用我们的产品教英语、历史和科学。一个完全由民间自发形成的教学工具，最终获得了官方的关注和认可，那一刻我们才真正意识到，我们可能无意中解决了一个非常普遍且重要的刚需。

硅星人：之后你们针对这个庞大的教师群体做了特别的优化吗？这个发现有影响到你们的产品策略吗？

王咏刚： 当然，这是必须的。这个案例给了我们极大的启发：AI应用的真正出路，不在于追求技术上最酷炫的效果，而在于深入垂直领域，找到并解决用户的真实痛点。

我们发现，这些老师用户最关心的并不是画面有多精美，而是教学内容是否准确，产品能否无缝地融入他们的课堂。为此，我们专门针对他们的需求，重点优化了“双语故事”和“双语对话”这两个模板。我们甚至还投入精力去处理更细节的问题，比如阿拉伯世界不同国家和地区的方言差异，以确保生成的音频更贴近当地的使用习惯。

精准高频的场景，比一味地追赶模型上限更能打动用户

硅星人：这点从你们的产品上似乎也能看出来，做细分的模板，去打到更多的精准用户。

王咏刚： 是的。现在很多AI工具，都太像一个“万能的工具箱”了。它把所有强大的零件，比如文生图、图生视频等，都摆在你面前，然后告诉你：“你可以用这些创造任何东西”。这对于专业人士或者目标明确的用户来说很好，但对于绝大多数普通人来说，门槛太高了。他们面对一个空白的输入框，往往第一个问题就是：“我该干什么？”

而我们的模板，本质上就是针对某个高频场景，提供的一套“最佳实践”或者说“一键解决方案”。我们不想只给用户一把锤子，我们想直接给他一个已经设计好的、能快速组装的椅子。

硅星人：可以举一些例子吗？除了现有的故事博主和阿拉伯世界的老师这两个已经得到验证的场景，你们之后还会扩充到哪些新的模板类型？打算如何扩展呢？

王咏刚：比如说，市场营销模板： 这是个巨大的市场。一个用户想为他的小产品，哪怕只是一支笔或一件衣服，制作一个简单的小广告视频。在这个场景下，用户的核心需求就变了。他会特别关心产品的logo、图案是不是能准确无误地合成到视频里，产品在视频中以何种方式出现，整个视频的风格是不是能像一个合格的广告片。这和教育用户关心的点完全不同。

还有理科教育模板，之前我们在文科教育，特别是语言教学上获得了成功，下一步自然会延伸到理科。比如，如何用视频生动地讲解一道数学题？可以肯定的是，理科教学对逻辑准确性的要求极高，这也是我们要攻克的难点。

可以说，有非常多的场景，但方法论是一以贯之的：先确定垂直场景，然后深入挖掘这个场景里用户的核心需求和侧重点，最后再去打造和优化模板。

硅星人：这就像美图秀秀和Photoshop的区别。Photoshop无比强大，但99%的人可能永远学不会。而美图秀秀抓住了“让自拍更好看”这一个最核心的痛点，把它做成了一键式的模板化功能，所以它能服务数亿用户。

王咏刚：是的，我们做的也是同样的事，只不过领域从图片变成了视频。无论是“双语教学对话”，还是“商品营销视频”，我们都是把一个复杂的创作流程，打包成一个普通人点几下就能完成的模板。大厂或许能做出更强大的通用模型，但他们很难有精力深入到如此细分的垂直场景中。

硅星人：那生成成本如何呢？现在的视频生成普遍都很贵，这也是因此，很难达到真正的PMF（产品市场契合点）。

王咏刚： 我们希望用户在几块钱人民币的预算内，就能做出一个能动的视频。成本控制是我们能实现“普惠”的关键，主要有两方面原因：

第一，技术选型。我们在图像和视频生成上，大量采用的是优秀的开源模型，而不是直接调用昂贵的闭源模型API。

第二，深度的推理优化。这是我们的核心技术竞争力之一。我们有专门的算法工程师，将业界所有主流的推理优化技术，如低分辨率生成再放大、TensorRT层面的算法优化、工作流优化、内存加载优化等，都应用到了我们的服务中。通过这一系列精细化的工程优化，我们可以将一个标准部署下成本为“1”的开源模型，降低到“0.1”左右。这个优化能力，与专业的MaaS（模型即服务）厂商是处于同一梯队的，这也是我们能持续运营、不完全依赖融资的关键。

创业，找到一个信仰的支点

硅星人：团队目前大概是什么规模？人员构成是怎样的？

王咏刚： 我们团队现在总共大约20人，构成上基本是一半对一半。有10个人左右负责算法研发，也就是刚才提到的那些与3D、专业工作流相关的技术探索；另外10个人则负责Mootion.com这个产品的工程实现和日常运营。

硅星人：您现在在团队里具体扮演什么角色？会负责哪块技术方向吗？

王咏刚： 我还会写代码。我们团队最新的、实验性的代码基本都是我写的，尤其是一些和B端专业团队合作的探索性项目。我先把原型跑出来，一旦验证了可行性，或者发现可以在C端产品上应用，再交给团队去把它做得更完善。

硅星人：您是一位经历丰富的“老兵”，从Google到创新工场，再到亲自下场创业，为什么在众多AI方向中，选择了视频生成工具？

王咏刚： 这里面有两层考量：一层是战略判断，另一层是个人热情。

从战略上讲，我坚信多模态一定是未来的方向。纯文本或纯图像的AI已经非常拥挤，而视频是多模态技术的终极体现，它融合了文本、图像、声音和时间序列，是最难但也最有价值的领域。所以我们必须选择这个方向。

而恰好，这个战略方向完美地契合了我的个人理想。我可以说是一个“精分”的人，我既是一个写了多年代码、现在依然在写代码的技术人，同时我的另一半头脑又对内容创作充满了热情。我出过小说，写过诗，业余时间会跟着电影剧组学习。AI的出现，第一次让我看到了将我这两个分裂的热爱融合在一起的可能。

我在谷歌时，用20%的业余时间参与过Google Doodles（谷歌首页涂鸦）项目，那是我第一次在一个专业的艺术创作流程里写代码，团队里美术师比程序员多。那个时候我就觉得，2D、3D动画、艺术和程序，这几件事的结合在未来有巨大的探索空间。

所以，我希望自己通过创业，能让每一个普通人都能体验到这种创作的快乐，让他们想讲一个好故事、想给自己的小产品拍个广告片时，都能拥有这个能力。

硅星人：理想很丰满，您创业Mootion之后，有哪些时刻会觉得现实很骨感吗？

王咏刚： 从我做AI这么多年来看，这些困难我都能想到，但当你真正身处其中时，还是会觉得非常难。

所有AI创业，都面临一个普遍的困境：AI的炒作周期（Hype Cycle）效应特别明显。每当一个新技术出现，投资人、创业者甚至用户都会觉得“问题已经被解决了”，但实际上，离真正解决问题还非常遥远。

其实，AI创业最难的事情就在于：你手里拿着一把还没完工的锤子，却要面对世界上无数真实的钉子，你不知道该怎么敲。

这个根本性问题从2016年的AlphaGo时代就存在，直到今天的大模型时代依然如此。你看到的模型迭代很快，今天多一个功能，明天多一个功能，但它离成为一把能轻松敲钉子的完美工具，差距巨大。我们常说的“AI只有50分”，就是这个意思。

今天的AI创业，本质上是由“信仰”维系的。如果我相信现在的技术已经能解决问题了，那创业公司就不要做了；相反地，如果我们不相信AI能从今天的50分，最终进化到80分甚至100分，今天99%的AI创业公司也都不要做了。信仰在支撑着我们持续不断地探索这个领域新的可能性。