今天的 AI 是你这辈子用过最差的——OpenAI CPO 的产品哲学

"AI 就是还没做到的事"——做到了就叫机器学习，普及了就叫算法

Kevin 引用了一个他很喜欢的定义：AI 是你还做不到的事；做到了就叫机器学习；普及了就叫算法。自动驾驶三年前是 AI，现在湾区满街都是 Waymo，没人觉得它特别。

这个定义揭示了一个产品人必须面对的现实：你正在构建的"AI 产品"，两年后会变成一个普通功能。如果你的竞争力只是"我用了 AI"，那你没有竞争力。

今天你用的 AI 模型，是你这辈子用过的最差的 AI 模型。当你真正理解了这句话，你对产品的思考方式会完全不同。

— Kevin Weil

模型极大主义：别花时间修补缺陷，两个月后新模型会让它消失

OpenAI 内部有一个哲学叫"Model Maximalism"。核心思想：模型不完美，你可以花大量时间在模型周围搭脚手架，但两个月后新模型会让这些脚手架变得多余。

给开发者的建议也是一样：如果你正在做的产品刚好在模型能力的边缘，继续做。不要因为模型"差一点点做不到"就放弃。再等两个月，模型会进步到让你的产品真正发光的程度。

Bolt/Stackblitz 的故事就是最好的例证：他们的产品做了七年都不行，直到 Claude Sonnet 3.5 出来的那天，一切突然 work 了。

编者注

"模型极大主义"对 OpenAI 自己是最优策略——因为他们控制模型升级节奏。但对依赖 OpenAI API 的创业公司，这个哲学意味着你的产品随时可能因为模型变化而崩溃或变得多余。这是一个不对称的建议：给出建议的人控制着变量。

像理解人一样理解模型——Kevin 最反直觉的产品设计心智模型

Kevin 说他最惊讶的发现是：你可以像理解人一样理解 AI 模型的行为，而且它居然有效。

几个例子：

🤔 思考 UI：推理模型需要 25 秒思考。人会怎么做？不会沉默 25 秒，也不会把每个想法都说出来。他们会给你零星的更新——"嗯，这是个好问题。让我想想……" OpenAI 最终的设计就是这样。

🧠 多模型协作：多个模型攻击同一个问题，然后一个模型整合答案——这就像人类头脑风暴。一群人想问题，一个人总结，效果比一个人独自想好得多。

🏢 公司就是模型集合体：每个员工都是一个经过"微调"的模型（通过教育和职业经历），组合在一起的输出比任何个体都好。有些人便宜，有些人贵；有些人快，有些人慢；有些人会"幻觉"。

不是说答案总是"想想人会怎么做"。但当你不知道该怎么设计时，想想同等情况下一个人会怎么反应——这给了你一个很好的起点。

— Kevin Weil

Chat 不是过渡界面——它是人类语言本身，也就是最通用的接口

人们总说"Chat 只是过渡，等我们找到更好的 AI 界面"。Kevin 不同意。他的论点：如果我们之间有一个更死板的界面，我能和你讨论的主题范围就会小很多。Chat（无论是文字还是语音）是人类沟通的最低公约数——最灵活、最通用、没有限制。

过去 Chat 不行，是因为没有模型能理解人类语言的复杂性和微妙性。LLM 改变了这一点。Chat 不是 LLM 的临时界面，它是为 LLM 量身定制的完美界面。

当然，特定的高频垂直场景可以有更优化的界面。但 Chat 是兜底的通用层——任何不适合特定界面的需求，都可以通过 Chat 满足。

Eval 是新的核心技能——如果你不会写 Eval，你就不会做 AI 产品

在传统软件中，QA 是确定性的——输入 A 得到输出 B。LLM 不是。同样的输入可能得到不同的输出，而且"正确"的定义本身是模糊的。

这就是为什么 Eval（评估）变成了 AI 产品的核心技能。Kevin 说：在 OpenAI，每个 PM 和工程师都需要理解如何写 eval。你必须能够定义"什么是好"，然后用可量化的方式衡量模型是否做到了。

60% 的准确率、95% 的准确率、99.5% 的准确率——你做的产品完全不同。在 60% 准确率下，你需要大量人工复核；在 99.5% 下，你可以全自动。

编者注

Eval 正在成为一个新的职业技能。Braintrust、Humanloop、LangSmith 等工具都在围绕这个需求构建产品。对 PM 来说，"写好 eval"可能会像"做好 AB 测试"一样成为必备技能——而且更难，因为你需要定义什么是"足够好"，这本身就是一个产品判断。

ImageGen 的内部信号：如果你自己的团队疯狂使用，那就对了

Lenny 问 ImageGen（4o 图像生成）的病毒式传播是否出乎意料。Kevin 说：当内部团队疯狂使用一个产品时——周末后回来同事们互相说"我看到你去露营了！"——你就知道它会成功。

这个信号在 Instagram Stories 时也出现过。Kevin 认为，对于社交性产品，内部使用度是最可靠的 leading indicator——因为公司本身就是一个紧密的社交网络。

Libra：职业生涯最大的遗憾——世界本该有这个产品

Kevin 在 Facebook 主导了 Libra（后来改名 Diem）——一个基于区块链的全球支付系统。他的愿景：通过 WhatsApp 免费给任何人转 50 美分。

Libra 可能是我职业生涯中最大的遗憾。让我深感失望的是，这个产品今天不存在于世界上——因为世界有了它会更好。

— Kevin Weil

项目被监管和政治压力杀死了。Kevin 的反思很微妙：错不在技术，也不完全在监管——而在 Facebook 的声誉。如果换一家公司做同样的事，结果可能完全不同。他甚至建议 Facebook 在当前加密友好的政策环境下重新做这件事。

编者注

Libra/Diem 项目的失败是科技行业和监管冲突的标志性案例。美国财政部长 Janet Yellen、法国财长 Bruno Le Maire 和多国央行联合反对。核心担忧不是技术——而是一家已经有 30 亿用户的公司突然成为全球金融基础设施会带来的系统性风险。

迭代部署：不是"突然赐予世界"，而是"和社会一起学习"

OpenAI 的产品发布哲学叫"Iterative Deployment"——早发布、早学习、在公共场域和用户一起进化。ChatGPT 最初就是一个"低调的研究预览"，团队没有预期它会成为全球现象。

这个哲学也体现在 Sam Altman 的行为风格上：他会在 Twitter 上提前展示内部的研究进展，不等到完美再发布。Kevin 说这和其他大公司有根本区别——大多数公司会把突破藏起来，直到一个大发布会上"惊喜亮相"。

OpenAI 的路线图也极其短视——不写超过几周的 roadmap，因为底层模型能力每两个月就变一次。传统的年度计划在这个节奏下完全无效。

AI 创业的机会地图：垂直领域 + 行业知识 = OpenAI 不会去做的事

Lenny 问了一个所有创业者都关心的问题：OpenAI 会不会吃掉所有 AI 产品的市场？Kevin 的回答很坦诚：ChatGPT 会做通用的水平层，但垂直领域需要行业专业知识，那不是我们的专长。

他举了几个不会去碰的领域：法律 AI、医疗 AI、教育 AI、金融合规 AI——这些需要深度行业知识、专有数据和特定的合规框架。ChatGPT 可以是基座，但上层应用需要专业团队。

他的建议给创业者：如果你的竞争优势只是"我用了 GPT-4"，你没有竞争优势。如果你的优势是"我理解这个行业 + 我有专有数据 + 我建立了工作流"，那你是安全的。

公司就是一个模型集合体——这个比喻为什么惊人地准确

Kevin 和 Lenny 即兴发展了一个比喻，越说越深：

🏢 公司 = 模型集合体（ensemble）——每个员工是一个被"微调"过的模型
💰 有些模型（员工）便宜，有些贵——取决于训练成本（教育 + 经验）
⚡ 有些模型快，有些慢——取决于问题复杂度
🤪 有些模型会"幻觉"——有些人确实会胡说
🎨 有些模型是视觉型的，有些是文字型的——思维方式的差异

OpenAI 内部也是这样用模型的：客服系统用 4o-mini 快速回答简单问题，用 o 系列模型处理需要推理的复杂问题。30-40 个客服人员服务 4 亿多周活用户——在传统公司需要数千人。

教孩子好奇心，而不是编程——因为没人知道 2036 年的世界长什么样

Kevin 有三个孩子（10 岁和 8 岁双胞胎），他们是完全的"AI 原住民"——和 ChatGPT 聊天、坐 Waymo 自动驾驶都觉得理所当然。

问到"教孩子学什么"时，Kevin 的回答不是编程也不是 prompt engineering：好奇心、独立思考、自信。因为没人知道未来是什么样——但能独立思考的人在任何版本的未来都会有优势。

他还说了一句很真诚的话：个性化 AI 辅导可能是 AI 能做的最重要的事情之一。每个研究都表明个性化辅导能带来多个标准差的学习提升。ChatGPT 是免费的，模型已经足够好。他惊讶于为什么还没有一个 20 亿孩子在用的 AI 教育产品。

编者注

Kevin 对 AI 教育的热情不是空谈——OpenAI 和 Khan Academy 的合作已经在进行中，Sal Khan 也多次在播客中讨论过 Khanmigo 的进展。但"为什么还没有 20 亿孩子在用"的答案可能很简单：发展中国家的孩子不是不想用，而是没有稳定的网络和设备。基础设施，而不是 AI 能力，才是真正的瓶颈。