风格参考:Malcolm Gladwell(《引爆点》《异类》作者)—— 场景开头,层层剥洋葱,用悬念驱动叙事,最后揭示反直觉的结论。
那扇门
斯德哥尔摩,2019年冬天。
一个18岁的年轻人站在一家电商公司的前台,手里夹着一个文件夹。他没有预约,没有名片,没有大学学历——事实上,他连高中都没读完。前台问他找谁,他说想见电商业务的负责人,或者CEO也行。
前台的表情可以想象。在瑞典的商业文化里,陌生人不打招呼就上门拜访,约等于在地铁上跟陌生人搭话——不违法,但非常不寻常。更何况这个人看起来明显还未成年。
但这个年轻人打开了文件夹。里面是一张A3大小的对比图:左边是这家公司网站目前的商品推荐结果,右边是他用自己训练的模型生成的推荐结果。两列截图并排,差异肉眼可见——右边的推荐更精准,商品关联性更高,像是真的读懂了用户在想什么。
负责人出来了。看完对比图,第一反应是震惊,第二个问题是”这个怎么上线”。
年轻人当场从口袋里掏出一段写好的脚本代码,打开对方网站的浏览器控制台,粘贴,执行。推荐结果实时替换,页面上还自动跑起了A/B测试模块,跟踪两套方案的转化率对比。负责人盯着屏幕看了十几秒,抬头说:”我们谈谈价格。”
这一切发生在第一次见面的前十五分钟里。
这个年轻人叫Gabriel Petersson。五年之后,他加入了OpenAI,成为Sora团队的研究工程师。
但在这个故事的起点,他只是一个辍学生,连”机器学习”三个字到底是什么意思都说不太清楚。
那通电话
要理解Gabriel后来做的一切,你需要先回到更早的一个时刻。
那是一个普通的周末下午。Gabriel还在瑞典读高中,编程经验约等于零。他的表兄打来电话,说自己有一个创业想法——做一个电商推荐系统,卖给瑞典的在线零售商。他需要Gabriel马上过来斯德哥尔摩帮忙。
Gabriel说,今晚有个派对。
表兄说,现在就来。
他买了下一班车票。之后再也没有回到学校。
用Gabriel自己的话说,辍学并不是什么深思熟虑的人生决策。没有深夜辗转的权衡利弊,没有跟父母长谈后含泪告别,也没有”我要走一条不同的路”这种宣言式的顿悟。它更像是被一个足够紧迫的机会推着走——走着走着,就回不去了。
到了斯德哥尔摩之后,他面对的第一个问题不是”怎么写代码”,而是”怎么把东西卖出去”。冷邮件没人回——一个没有公司背景、没有客户案例、甚至没有正式网站的两人团队,发出去的邮件大概率被当成垃圾邮件。电话打了也很难让人信任一个没有技术背景的18岁少年。你可以想象那个场景:电话接通,对方问”你们公司在哪?团队多大?有什么成功案例?”,他一个都答不上来。
于是他想到了上门推销,也就是你在开头读到的那个场景。
他后来承认,这种做法留下了很多技术债——为了快速获客,他们几乎不考虑代码的可维护性和系统的可扩展性。但这段经历的真正价值不在于技术,而在于一个心理上的翻转:当你必须对结果负责的时候,你学东西的速度会快到自己都不敢相信。
但这里有一个问题:一个看不懂Andrew Ng机器学习课程、以为自己”太笨了”的高中辍学生,到底是怎么学会训练推荐模型、写爬虫、做A/B测试的?
答案藏在一个大多数人忽略的地方。
那些很烂的游戏
在成为那个带着A3大图上门推销的人之前,Gabriel的技术学习史可以用一个词概括:挫败。
表兄最初教他Java,两个人一起写了个回合制小游戏。Gabriel在访谈里对那个游戏的评价是:”很烂。”后来他上Udemy学Python,跟着课程做了另一个游戏,评价同样是:”也很烂。”他还尝试过Andrew Ng在Coursera上的机器学习课程——那是全球最受欢迎的AI入门课之一——但完全看不懂。他说他当时以为问题出在自己身上,以为自己就是不够聪明。
如果故事在这里结束,它只是一个”有人尝试学编程没学会”的平凡故事,全世界每天都有无数人经历着同样的事。
有意思的是接下来发生的事。
Gabriel创业之后,面对真实的客户需求,他突然开始学会了那些以前怎么都学不会的东西。不是因为他变聪明了,也不是因为他找到了更好的教程。是因为环境变了——以前学编程是”我在看一个课程”,现在学编程是”如果我明天搞不定这个功能,客户就流失了”。
他说了一句让主持人沉默了好几秒的话:没有压力我几乎学不会东西。
这句话听起来像是在为懒惰辩护,但认知科学家可能不会这么看。
两条路
教育研究者通常把学习路径分成两种:bottom-up和top-down。
Bottom-up是学校的默认模式。先学线性代数,再学概率论,再学统计学习,再学神经网络,最后做一个项目。这像盖房子——先打地基,再砌墙,再封顶。结构完整,循序渐进。好处显而易见。
坏处也显而易见:你可能在打了两年地基之后,发现自己对这栋房子毫无兴趣。
Top-down是另一种路径:先接一个真实的任务——比如给客户做一个推荐系统——然后在做的过程中遇到不懂的地方,当场补。发现不懂推荐算法,去查。发现推荐算法里有矩阵运算,去学。发现矩阵运算需要线性代数的直觉,再去补。哪里漏水就修哪里。
Gabriel走的就是top-down。
问题是,为什么学校几乎不用这种方式教学?
答案很现实:top-down需要老师持续判断”这个学生此刻卡在哪里”、”下一步该给他补什么”——这等于给每个学生配一个全天候的私人导师。在一个四十人的班级里,这是不可能的。所以学校选择了bottom-up。不是因为它效果最好,而是因为它是唯一能规模化的方案。
这个困境在教育史上并不新鲜。1984年,教育心理学家Benjamin Bloom发表了一篇著名论文,发现接受一对一辅导的学生,表现能超过常规课堂教学中98%的学生。他把这个发现叫做”两个标准差问题”(2 sigma problem)——私人辅导比课堂教学好两个标准差,但你没有办法给每个学生都配一个私人导师。这个问题困扰了教育界四十年,没有人找到解决方案。
认知科学家John Sweller提出的”认知负荷理论”可以进一步解释两种路径的效率差异。人的工作记忆容量极其有限,一次能处理的独立信息块不超过四到七个。Bottom-up路径的一个隐性成本在于:当你学到第三层知识的时候,你已经记不清第一层为什么重要了,而且你完全不知道眼前这些知识将来会用在哪里。大量的认知资源被浪费在”维持意义感”上——你不停地问自己”我为什么要学这个”,这个问题本身就在消耗你有限的工作记忆。
Top-down路径则不存在这个问题。你始终有一个具体的、紧迫的目标——让系统跑起来,让客户满意,让bug消失——每一块新知识都自动嵌入了上下文,不需要你额外花精力去给它”找意义”。
但top-down有一个致命的前提条件:你需要一个能随时回答你问题的导师。四十年来,没有人能规模化地满足这个条件。
然后,ChatGPT出现了。
Bloom的”两个标准差问题”,在技术层面上,突然有了一个接近可行的解决方案。
递归
Gabriel在访谈里描述了他用AI学习的完整流程。
如果他想学机器学习,他会先问ChatGPT:我该做什么项目?让它帮忙设计一个项目计划。然后让它写出完整代码。代码一定会报错——这反而是好事,因为从修bug开始学,比从空白页面开始学要高效得多。他一步步把程序跑起来。能跑之后,盯着某个模块追问:这段在做什么?为什么这个函数能让模型学到东西?ChatGPT会提到反向传播和矩阵乘法。他就继续追问数学直觉——不要公式,给我类比,给我示意图,给我一个”如果不这么做会怎样”的反例。
一层一层往下钻,直到触及他能理解的基础。然后回到项目,继续往前走。
访谈的主持人把这个方法类比为费曼学习法——最好的学习方式是把你理解的东西讲给别人听,让别人检查你的理解对不对。Richard Feynman说过,如果你不能把一个概念用简单的语言解释给一个小孩听,你就还没真正理解它。在ChatGPT的时代,”别人”可以是AI。你把自己的理解讲给它听,它告诉你哪里对、哪里不对、哪里只对了一半但遗漏了关键条件。
Gabriel给这套循环取了一个名字:递归式知识填补(recursive knowledge-filling)。
“递归”这个词来自计算机科学——一个函数调用自己来解决问题。你把一个大问题拆成结构相同的小问题,对每个小问题再做同样的拆解,直到触及最基本的单元。Gabriel的学习过程就是递归的:做→卡住→追问→获得解释→对解释中不懂的部分继续追问→获得更底层的解释→直到触及自己能理解的地方→返回,继续做。
这里有一个关键的细微之处,很容易被忽略:他不是在用AI跳过基础知识。线性代数、概率论、微积分——这些东西他最终都学了。他只是改变了学习的顺序:不是先学完所有基础再动手,而是先动手,在需要的时候再补基础。该学的一样都没少,只是每一块知识都带着明确的目的——“我学这个是因为我的推荐系统需要它”。
他说,如果只能用一个词来总结这套方法最关键的能力,那就是:知道自己哪里没懂。
这话听起来像是废话,做起来极难。大多数人在学习时的默认模式是”感觉大概懂了”就往下走——这相当于在承重墙上留了一条裂缝,短期看不出问题,但地基是虚的。心理学家有一个专门的术语来描述这种现象:流畅性错觉(illusion of fluency)——当一段解释读起来通顺、看起来合理时,你的大脑会自动把”读懂了”等同于”学会了”。Gabriel的方法之所以有效,是因为”用自己的话复述给AI听”这个动作,强行打破了流畅性错觉:你以为自己懂了,但当你尝试复述的时候,你会发现有些环节你根本说不清楚。
作弊还是学习
在继续讲Gabriel的职业故事之前,有一个相关的插曲值得停下来讲。
ChatGPT在2022年底推出之后,全球的教育系统几乎同时发生了一场小型恐慌。学生的第一反应是”太好了,可以帮我写作业”。老师的第一反应是”完了,大家要作弊,必须禁止”。
这两个反应互相强化,形成了一个闭环。学生看到AI被禁止,确认了它是一种”作弊工具”——既然是作弊工具,那它的唯一用途就是帮我偷懒。老师看到学生果然在用AI写作业,确认了自己的判断——果然是作弊源头,必须严防死守。
在这种叙事环境下,”AI可以用来学习”这个想法几乎没有生存空间。没有人会自然而然地想到:等一下,也许我可以不让它替我写作业,而是让它教我怎么写?
Gabriel在访谈里提到一个有趣的变化:最近他在瑞典的一些朋友开始用ChatGPT做一件不同的事——把历年考试题丢给它,让它总结核心概念,然后生成同类型的新题来练习。他们不是在让AI替自己考试,而是在让AI帮自己备考。同一个工具,用法翻转了180度。
这个差别看起来很小,但它背后的认知差距是巨大的。你把AI当答案机,它就只能强化你的依赖——你越用它代劳,你自己的能力越退化。你把AI当教练,它才会强化你的能力——每一次追问都在迫使你思考,每一次复述都在巩固你的理解。
区别不在工具,在人。
真正稀缺的东西
现在让我们回到Gabriel的职业轨迹。
到这里,我们可以回答开头提出的那个问题了:一个看不懂基础课程的辍学生,是怎么走到OpenAI的?
答案不是”他是天才”。他自己都说他不是。
答案也不是”辍学是一种优势”。访谈材料里反复强调,大学提供的社交网络、资源和视野仍然有很高的替代成本,不鼓励任何人模仿他辍学。
真正的答案,藏在访谈中一个反复出现的词里:agency——能动性。
当知识获取的成本趋近于零——你可以随时问ChatGPT任何问题、获得任何领域的入门解释——“知道很多东西”这件事本身就不再是稀缺资源了。稀缺的变成了另外一些东西:谁愿意动手?谁能定义问题?谁敢对结果负责?
Gabriel从最早带着A3大图上门推销的那一天起,就一直在做同一件事——把能力变成可见的结果。他不跟客户谈学历、背景和资质,他直接展示效果对比,当场用代码证明。
后来他要去美国工作,面临签证问题。没有高中学历,传统的移民路径对他来说几乎全部封死。他走的是O-1A——杰出人才签证,通常需要学术论文、国际奖项、行业认可等”硬证据”。他一个都没有。他没有论文,没有学位,没有任何传统意义上的学术成果。
他做了一件跟上门推销异曲同工的事:把自己在Stack Overflow等技术社区发布的高质量回答和贡献整理成证据包,论证这些贡献具有行业影响力和同行认可度。这些东西在传统标准里不算”学术成果”,但它们满足O-1A签证的核心要求——证明申请者在其领域具有”杰出能力”。
申请被批准了。
不是”请相信我”,而是”来验证我”。
他在访谈中给了一个很实际的建议:如果你没有传统背景做背书,就做一个简单但有效的demo,让别人三秒内看懂你做了什么。很多人误以为demo必须复杂,其实越简单越有力——因为复杂的东西需要解释,而解释的过程中对方的注意力早就散了。如果有机会,主动提出短期试用或者帮忙做一个小项目,让对方零风险地评估你。你承担所有的风险,对方只需要打开眼睛看。
这套策略之所以有效,是因为它精确地回应了AI时代一个底层结构的变化:当获取知识的门槛被AI抹平之后,真正区分人的,不再是你脑袋里装了多少东西,而是你愿不愿意走出去敲那扇门。
洋葱的最里层
每一个好故事都有一个容易被误读的表层。
Gabriel Petersson的故事,表层是”辍学少年逆袭进入OpenAI”。如果你只记住这一层,你会得出一个危险的结论——学历不重要,学校没有用。
但如果你像剥洋葱一样一层层剥下去,你会看到完全不同的东西。
第一层:他不是因为讨厌学校而辍学,他是被一个真实的项目拽走了——压力和交付的截止日期成了他真正的”课程体系”。
第二层:他不是用AI跳过了基础知识,他是用AI把基础知识从”预先储备”变成了”按需补齐”——该学的一样都没少学,只是学的顺序变了。
第三层:他不是在证明”不需要学习”,他是在证明”学习的方式需要改变”——从被动接收变成主动追问,从看懂变成能推进。
第四层:他不是在证明”个人英雄主义”,他是在证明一种可复用的方法论——找到一个必须交付的真实任务,卡住就追问,追问到能继续做为止,然后把结果公开出来让世界验证你。
最里面一层,也是最重要的一层:在一个知识免费的时代,他用行动回答了一个所有人都在回避的问题——如果知识不再稀缺,那什么才稀缺?
答案是你愿不愿意动手。
1984年,Benjamin Bloom发现私人辅导比课堂教学好两个标准差。他把它当成一个”问题”——因为我们没有办法给所有人配私人导师。四十年后,ChatGPT在技术层面上接近了这个梦想,但Bloom当年没有预见到的是:即便你给每个人都配了导师,真正决定学习效果的,仍然不是导师有多好,而是学生愿不愿意开口问第一个问题。
2400年前苏格拉底说,他唯一知道的事情就是自己什么都不知道。在ChatGPT的时代,这句话或许需要一个更新版本:
你唯一需要知道的,是你接下来要做什么。
然后去做。