Kevin Weil 管理着 4 亿周活用户的 ChatGPT 产品。他最反直觉的洞察是:设计 AI 产品体验时,最好的心智模型是"想象一个人会怎么做"——模型需要思考 25 秒?人也不会沉默 25 秒。多个模型协作?就像团队头脑风暴。他的另一个核心信念:Chat 不是过渡界面,而是因为人类语言本身就是最通用的接口。OpenAI 的产品哲学是"模型极大主义"——不花时间修补当前模型的缺陷,因为两个月后新模型会让这些缺陷消失。
Kevin 引用了一个他很喜欢的定义:AI 是你还做不到的事;做到了就叫机器学习;普及了就叫算法。自动驾驶三年前是 AI,现在湾区满街都是 Waymo,没人觉得它特别。
这个定义揭示了一个产品人必须面对的现实:你正在构建的"AI 产品",两年后会变成一个普通功能。如果你的竞争力只是"我用了 AI",那你没有竞争力。
今天你用的 AI 模型,是你这辈子用过的最差的 AI 模型。当你真正理解了这句话,你对产品的思考方式会完全不同。
— Kevin Weil
OpenAI 内部有一个哲学叫"Model Maximalism"。核心思想:模型不完美,你可以花大量时间在模型周围搭脚手架,但两个月后新模型会让这些脚手架变得多余。
给开发者的建议也是一样:如果你正在做的产品刚好在模型能力的边缘,继续做。不要因为模型"差一点点做不到"就放弃。再等两个月,模型会进步到让你的产品真正发光的程度。
Bolt/Stackblitz 的故事就是最好的例证:他们的产品做了七年都不行,直到 Claude Sonnet 3.5 出来的那天,一切突然 work 了。
Kevin 说他最惊讶的发现是:你可以像理解人一样理解 AI 模型的行为,而且它居然有效。
几个例子:
🤔 思考 UI:推理模型需要 25 秒思考。人会怎么做?不会沉默 25 秒,也不会把每个想法都说出来。他们会给你零星的更新——"嗯,这是个好问题。让我想想……" OpenAI 最终的设计就是这样。
🧠 多模型协作:多个模型攻击同一个问题,然后一个模型整合答案——这就像人类头脑风暴。一群人想问题,一个人总结,效果比一个人独自想好得多。
🏢 公司就是模型集合体:每个员工都是一个经过"微调"的模型(通过教育和职业经历),组合在一起的输出比任何个体都好。有些人便宜,有些人贵;有些人快,有些人慢;有些人会"幻觉"。
不是说答案总是"想想人会怎么做"。但当你不知道该怎么设计时,想想同等情况下一个人会怎么反应——这给了你一个很好的起点。
— Kevin Weil
人们总说"Chat 只是过渡,等我们找到更好的 AI 界面"。Kevin 不同意。他的论点:如果我们之间有一个更死板的界面,我能和你讨论的主题范围就会小很多。Chat(无论是文字还是语音)是人类沟通的最低公约数——最灵活、最通用、没有限制。
过去 Chat 不行,是因为没有模型能理解人类语言的复杂性和微妙性。LLM 改变了这一点。Chat 不是 LLM 的临时界面,它是为 LLM 量身定制的完美界面。
当然,特定的高频垂直场景可以有更优化的界面。但 Chat 是兜底的通用层——任何不适合特定界面的需求,都可以通过 Chat 满足。
在传统软件中,QA 是确定性的——输入 A 得到输出 B。LLM 不是。同样的输入可能得到不同的输出,而且"正确"的定义本身是模糊的。
这就是为什么 Eval(评估)变成了 AI 产品的核心技能。Kevin 说:在 OpenAI,每个 PM 和工程师都需要理解如何写 eval。你必须能够定义"什么是好",然后用可量化的方式衡量模型是否做到了。
60% 的准确率、95% 的准确率、99.5% 的准确率——你做的产品完全不同。在 60% 准确率下,你需要大量人工复核;在 99.5% 下,你可以全自动。
Lenny 问 ImageGen(4o 图像生成)的病毒式传播是否出乎意料。Kevin 说:当内部团队疯狂使用一个产品时——周末后回来同事们互相说"我看到你去露营了!"——你就知道它会成功。
这个信号在 Instagram Stories 时也出现过。Kevin 认为,对于社交性产品,内部使用度是最可靠的 leading indicator——因为公司本身就是一个紧密的社交网络。
Kevin 在 Facebook 主导了 Libra(后来改名 Diem)——一个基于区块链的全球支付系统。他的愿景:通过 WhatsApp 免费给任何人转 50 美分。
Libra 可能是我职业生涯中最大的遗憾。让我深感失望的是,这个产品今天不存在于世界上——因为世界有了它会更好。
— Kevin Weil
项目被监管和政治压力杀死了。Kevin 的反思很微妙:错不在技术,也不完全在监管——而在 Facebook 的声誉。如果换一家公司做同样的事,结果可能完全不同。他甚至建议 Facebook 在当前加密友好的政策环境下重新做这件事。
OpenAI 的产品发布哲学叫"Iterative Deployment"——早发布、早学习、在公共场域和用户一起进化。ChatGPT 最初就是一个"低调的研究预览",团队没有预期它会成为全球现象。
这个哲学也体现在 Sam Altman 的行为风格上:他会在 Twitter 上提前展示内部的研究进展,不等到完美再发布。Kevin 说这和其他大公司有根本区别——大多数公司会把突破藏起来,直到一个大发布会上"惊喜亮相"。
OpenAI 的路线图也极其短视——不写超过几周的 roadmap,因为底层模型能力每两个月就变一次。传统的年度计划在这个节奏下完全无效。
Lenny 问了一个所有创业者都关心的问题:OpenAI 会不会吃掉所有 AI 产品的市场?Kevin 的回答很坦诚:ChatGPT 会做通用的水平层,但垂直领域需要行业专业知识,那不是我们的专长。
他举了几个不会去碰的领域:法律 AI、医疗 AI、教育 AI、金融合规 AI——这些需要深度行业知识、专有数据和特定的合规框架。ChatGPT 可以是基座,但上层应用需要专业团队。
他的建议给创业者:如果你的竞争优势只是"我用了 GPT-4",你没有竞争优势。如果你的优势是"我理解这个行业 + 我有专有数据 + 我建立了工作流",那你是安全的。
Kevin 和 Lenny 即兴发展了一个比喻,越说越深:
🏢 公司 = 模型集合体(ensemble)——每个员工是一个被"微调"过的模型
💰 有些模型(员工)便宜,有些贵——取决于训练成本(教育 + 经验)
⚡ 有些模型快,有些慢——取决于问题复杂度
🤪 有些模型会"幻觉"——有些人确实会胡说
🎨 有些模型是视觉型的,有些是文字型的——思维方式的差异
OpenAI 内部也是这样用模型的:客服系统用 4o-mini 快速回答简单问题,用 o 系列模型处理需要推理的复杂问题。30-40 个客服人员服务 4 亿多周活用户——在传统公司需要数千人。
Kevin 有三个孩子(10 岁和 8 岁双胞胎),他们是完全的"AI 原住民"——和 ChatGPT 聊天、坐 Waymo 自动驾驶都觉得理所当然。
问到"教孩子学什么"时,Kevin 的回答不是编程也不是 prompt engineering:好奇心、独立思考、自信。因为没人知道未来是什么样——但能独立思考的人在任何版本的未来都会有优势。
他还说了一句很真诚的话:个性化 AI 辅导可能是 AI 能做的最重要的事情之一。每个研究都表明个性化辅导能带来多个标准差的学习提升。ChatGPT 是免费的,模型已经足够好。他惊讶于为什么还没有一个 20 亿孩子在用的 AI 教育产品。
Kevin 建议创业者"别修补当前模型的缺陷,等新模型"。但这个建议的隐含前提是:OpenAI 控制着模型升级的节奏和方向。如果你是依赖 OpenAI API 的创业者,你的产品命运实际上取决于 OpenAI 下一个模型的能力方向——这个方向你完全无法控制。"模型极大主义"对模型提供商是理性策略,对生态系统参与者却是风险敞口。
Kevin 把 OpenAI 描述为"和社会一起学习"的公司。但 OpenAI 不再公布模型的技术细节(GPT-4 的论文不包含架构信息),Sam Altman 的 Twitter 预告更像是产品营销而不是"透明"。在实际操作中,OpenAI 比任何传统科技公司都更不透明——因为他们认为这涉及安全。"迭代部署"和"透明"是两码事,但 Kevin 的叙述模糊了这个区别。
Kevin 认为 Chat 是最通用的接口。但 OpenAI 自己也在做 Canvas(画布)、Operator(自动浏览器)、Sora(视频生成)——这些都不是 Chat。如果 Chat 真的是"终极接口",为什么还需要这些?更合理的解释可能是:Chat 是一个好的入口,但不是好的工作空间。你通过 Chat 描述需求,但通过其他界面完成工作。Kevin 的"Chat 终极论"可能过度简化了实际的产品形态演化。