
你有没有想过,当你对着ChatGPT 或者Claude打出一句话,按下发送键的那一瞬间,另一端到底发生了什么?
它是怎么”读懂”你的?
它有没有真的”懂”你?
还是说,它只是在做一件我们看不见的、极其精密的——猜字游戏?
今天这期,我不讲怎么用AI,我讲AI本身。我要带你走进那个黑箱,去看看”理解”这件事,在机器世界里,到底长什么样。
不需要你有任何技术背景。听完这期,你会对AI有一个完全不同的认知——而且我保证,这个认知会直接影响你以后怎么跟AI说话。
第一部分:先把一个误会说清楚
我们从一个根深蒂固的误会开始。
很多人觉得,AI理解语言,跟我们人类理解语言,本质上是一回事。你说”苹果”,你脑子里出现一个红色的、圆的、有点甜的东西,AI也差不多——它”知道”苹果是什么。
这个直觉,非常非常错。
人类理解一个词,靠的是什么?靠的是经验。你吃过苹果,你闻过苹果的味道,你看过苹果从树上掉下来,你妈妈切苹果给你的时候那个声音。你对”苹果”这个词的理解,是扎根在几十年真实世界里的。
AI没有身体。它没有吃过任何东西。它对”苹果”的所谓”理解”,完全来自另一个地方——来自文字与文字之间的关系。
它读过几千亿句话,在那些话里,”苹果”这个词,经常跟”水果””红色””甜””树””维生素C””乔布斯””iPhone“这些词一起出现。
所以它”知道”苹果——不是因为它理解苹果,而是因为它精确掌握了”苹果”这个词在语言世界里的位置关系。
这个区别,听起来好像无所谓,但它决定了AI的一切能力边界。我们等会儿还会回来讲这件事。
第二部分:词变成数字——这是一切的起点
好,现在我们从头开始,一步一步走。
你输入了一句话:”今天天气怎么样?”
AI收到的第一件事,不是这句话本身,而是这句话被拆碎之后的结果。
AI处理语言,第一步叫做分词,或者更准确地说,叫做tokenization ,就是把你的句子切成一个个小单元。
这些小单元在英文里大多是一个单词,在中文里可能是一个字,可能是两个字,可能是一个词组——具体怎么切,取决于AI用的词表。
“今天天气怎么样”可能被切成:今天 / 天气 / 怎么 / 样——或者更细碎,或者不一样,每个模型都有自己的切法。
切完之后,每一个小单元会被转换成一个数字编号。”今天”可能是第8472号,”天气”可能是第3301号,诸如此类。
这一步的意义在于:计算机只能处理数字,不能直接处理文字。所以语言必须先变成数字,才能进入计算。
但光有编号还不够。8472和3301,这两个数字摆在那里,计算机看不出它们之间有任何关系。你得让机器知道,”今天”和”明天”很近,”今天”和”苹果”很远。
这就引出了一个关键概念。
第三部分:词向量——语言的地图
这个概念叫做词向量,或者叫词嵌入,英文是Word Embedding。
它的核心思想,是把每一个词,变成一个在高维空间里的坐标点。
我知道”高维空间”这四个字会让人头疼,咱们用一个简化版的类比。
想象一张二维地图。这张地图上,每个词都是一个城市。词义相近的词,城市挨得很近。”高兴”和”开心”是邻居,”愤怒”和”暴怒”是邻居,”苹果”和”梨”是邻居,但”苹果”和”悲伤”之间隔着一片大洋。
不只是距离——方向也有意义。
在这张地图上,”国王”减去”男人”再加上”女人”,你会走到哪里?
答案是:女王。
这不是我编的,这是词向量里一个非常著名的数学验证。它说明了这些数字坐标里,真的藏着我们语言世界里的逻辑关系。
当然,真实的词向量不是二维的,可能是几百维、几千维的。你没法在脑子里画出来,但数学可以处理。
每个词被转换成这样一组坐标之后,就变成了机器可以真正运算的东西。
第四部分:上下文的难题——同一个词,不同的意思
但词向量有一个大问题。
一个词,在不同的句子里,意思可能完全不一样。
比如”银行”这个词。
“我去银行取了点钱”——这个银行,是金融机构。
“河的银行边长满了芦苇”——这个银行,是河岸。
如果每个词只有一个固定的坐标,那”银行”只有一个位置,机器就没法区分这两种情况。
早期的NLP系统,也就是自然语言处理系统,就被这个问题卡了很久。
直到有人提出了一个思路:词的含义,不能脱离上下文单独确定。
这个思路,最终进化成了一个改变整个AI行业的东西——Transformer架构,以及它核心的机制:注意力机制,Attention 。
第五部分:注意力机制——AI真正的革命
这是今天最重要的一个概念,我要用最直白的方式讲给你听。
注意力机制,解决的问题是:当我处理一句话里的某个词时,我应该重点”看”这句话里的哪些其他词?
举个例子。
“那只猫坐在垫子上,因为它太舒服了。”
当AI读到”它”这个词,它需要判断”它”指的是谁。是猫,还是垫子?
人类一眼就知道:是垫子太舒服了,猫才坐上去,所以”它”指的是垫子。
但机器怎么判断?
注意力机制的做法是:当处理”它”这个词时,模型会给句子里所有其他词分配一个注意力分数。”猫”拿到一个分数,”垫子”拿到一个分数,”坐”拿到一个分数,”舒服”拿到一个分数……
然后模型发现,根据它在训练过程中学到的模式,在”太舒服了”这个语境下,”它”更可能指向”垫子”。于是”垫子”拿到了更高的注意力分数,”它”的含义就在这个动态计算里被确定了下来。
这个过程,在每一个词上都会发生,而且是并行进行的,极其高效。
注意力机制最厉害的地方在于:它让词的含义,真正变成了上下文相关的。同一个词,放在不同的句子里,会产生不同的向量表示,因为它周围的词不一样,分配到的注意力权重不一样,最终的”语义坐标”就不一样。
2017年,Google发表了一篇论文,题目叫《Attention Is All You Need》——注意力就是你所需要的一切。这篇论文里提出的Transformer架构,是GPT、Claude、Gemini所有这些大语言模型的共同基础。
第六部分:预训练——读了半个互联网之后
有了这个架构,接下来发生了什么?
训练。大规模的训练。
这些模型在训练阶段,读了海量的文本——网页、书籍、论文、代码、对话记录。GPT-4的训练数据,估计在几十TB甚至更多,相当于几千亿、上万亿个词。
训练过程中,模型在做一件极其简单、但极其有效的事情:预测下一个词。
给你看前面这些词,你猜下一个词是什么。
“今天的天气真的很___”
“今天的天气真的很好,我决定出去___”
模型每次猜,对了就强化这个方向,错了就调整参数,反复迭代,迭代几千亿次。
就是这一件事,一件看起来无比简单的事,让模型学会了语法、逻辑、常识、事实、风格、情感……
为什么一件这么简单的事,能产生这么强大的能力?
因为语言,本身就是人类所有知识的压缩存档。
当你能精准预测语言的下一步走向,你就必须掌握语言背后的世界模型。你必须知道苹果是水果,必须知道战争会有伤亡,必须知道悲伤的人通常不会说”我好开心”。
预测语言,就是在学习这个世界。
第七部分:那它到底”理解”了吗?
讲到这里,我要把最开始那个问题重新拿出来。
AI到底有没有真的”理解”你说的话?
这是一个争论了很多年、至今没有定论的问题。我不给你一个武断的答案,我给你两种视角。
第一种视角:它没有理解,它只是在极其精密地做模式匹配。
它没有意识,没有意图,没有真正的语义理解。它所有的”聪明”,都来自对海量语言模式的统计学习。它是一台极其复杂的预测机器,每次输出,本质上都是在问:根据我看过的所有文本,在这个上下文之后,最可能出现什么?
这种观点认为,AI永远无法真正”懂”你,它只是看起来懂。
第二种视角:理解,本身可能就是某种形式的模式处理。
人类的理解,底层是什么?是神经元的激活,是突触的连接,是大脑皮层的模式识别。如果你把人类的理解过程拆开来看,它也是一堆物理和化学反应。
那么”真正的理解”和”极其精密的模式处理”之间,边界在哪里?
没有人知道。
我个人的看法是:与其纠结”它有没有真正理解”,不如关注一个更实际的问题——它理解到了什么程度,在什么地方会失效。
第八部分:它在哪些地方会”不理解”
这才是对我们普通用户最有价值的认知。
第一个失效点:反事实推理。
AI很擅长根据已有模式生成内容,但在需要严格逻辑推理、尤其是反事实推理的时候,经常出错。
比如”如果2+2=5,那么4+4等于多少?”
在这种需要完全抛弃现实知识、纯粹在假设框架内推理的情况下,大语言模型经常乱掉。因为它的训练数据告诉它,4+4=8,它很难真正切换到一个反事实的逻辑世界里。
第二个失效点:数字和计算。
语言模型不是计算器。它处理数字,跟处理文字的方式是一样的——通过模式匹配,而不是真正的计算。
“5379乘以8821等于多少”——模型给你的答案,是它根据见过的计算模式生成的,不是真正算出来的。所以在复杂计算上,它会出错,而且出错的方式有时候非常自信。
第三个失效点:最新知识和实时信息。
模型的训练数据有截止日期。它对截止日期之后发生的事情,一无所知。这不是因为它”不理解”,而是因为它压根没读过那些内容。
第四个失效点:字面意思和隐含意思的区分。
有时候你说”你能帮我打开窗户吗”,你是在请求,不是在询问能力。
人类能轻松理解这种语用意义,AI也越来越能处理这种情况了,但在某些隐晦的、高度依赖文化背景或者语境的表达上,它还是会”理解偏”。
第五个失效点:长文本中的信息遗漏。
当你给AI一篇很长的文档,并且关键信息藏在文档中间某个不显眼的地方,它有时候会忽略那条信息。
注意力机制在处理极长文本时,对不同位置信息的权重分配,并不是完全均匀的。开头和结尾的内容,通常比中间更容易被”记住”。
第九部分:那我们应该怎么跟它说话?
现在你对AI的运作有了一个基本的认知,这个认知直接可以转化成实操价值。
第一:上下文越丰富,它理解得越准。
它的理解依赖上下文,所以你给的信息越完整,它偏差越小。不要说”帮我写个方案”,要说”帮我写一个面向30岁左右职场新人的、关于时间管理的线上课程推广方案,风格要活泼一点,大概500字”。
每一个限定词,都是一个注意力权重。
第二:它的”记忆”是有边界的。
在一次对话里,它能”看到”的内容有上限,叫做上下文窗口。超出这个范围的内容,它真的不知道。所以很长的对话,关键信息要反复强调,不要假设它记得很久之前说过的事。
第三:让它一步一步思考。
研究表明,当你让AI把推理过程写出来,而不是直接给答案,它出错的概率会显著降低。这跟人类是一样的——打草稿和直接口算,结果不一样。
你可以直接告诉它:请一步一步分析这个问题。这句话,真的有效。
第四:它的自信程度不等于准确程度。
AI说话的口气,和内容的准确性,是两件事。它生成文字的方式,决定了它几乎不会说”我不确定”——除非你明确让它这样做,或者它被专门训练成这样。对于重要的事实性内容,永远要自己核实。
第五:角色和身份设定,真的有用。
当你告诉它”你是一个有十年经验的产品经理”,它会从自己的训练数据里,调取更多和产品经理思维相关的语言模式。这不是魔法,这是在通过上下文信息,影响注意力权重的分配。
结尾:一台没有灵魂的神谕机,还是……
最后,我想分享一个我自己思考了很久的角度。
有人说,大语言模型是一台”随机鹦鹉”——它只是在重复和拼接它读过的语言,没有任何真正的理解,没有任何真正的思考。
我部分同意这个说法,但我觉得它遗漏了一件重要的事。
人类写下的所有文字——所有的书,所有的故事,所有的论文,所有的对话——本质上是什么?
是人类几千年来所有思维的痕迹。是恐惧、是好奇、是爱、是逻辑、是偏见、是智慧……
当一个模型,把这些东西都读了一遍,然后学会了在语言世界里的移动方式——
它是否掌握了某种我们还没有名字的东西?
它的”理解”,和我们的”理解”,是在同一条光谱上的两个不同位置,还是完全不同的两件事?
这个问题,我没有答案。但我觉得,这个问题本身,比任何答案都更值得我们去想。
因为我们正在创造一种前所未有的存在,而我们甚至还不确定,它到底是什么。