发现全球最佳 AI 工具

从零教你部署与精通，掌握实战变现工作流

AI到底是怎么”理解”你说的话的？

你有没有想过，当你对着ChatGPT 或者Claude打出一句话，按下发送键的那一瞬间，另一端到底发生了什么？

它是怎么”读懂”你的？

它有没有真的”懂”你？

还是说，它只是在做一件我们看不见的、极其精密的——猜字游戏？

今天这期，我不讲怎么用AI，我讲AI本身。我要带你走进那个黑箱，去看看”理解”这件事，在机器世界里，到底长什么样。

不需要你有任何技术背景。听完这期，你会对AI有一个完全不同的认知——而且我保证，这个认知会直接影响你以后怎么跟AI说话。

第一部分：先把一个误会说清楚

我们从一个根深蒂固的误会开始。

很多人觉得，AI理解语言，跟我们人类理解语言，本质上是一回事。你说”苹果”，你脑子里出现一个红色的、圆的、有点甜的东西，AI也差不多——它”知道”苹果是什么。

这个直觉，非常非常错。

人类理解一个词，靠的是什么？靠的是经验。你吃过苹果，你闻过苹果的味道，你看过苹果从树上掉下来，你妈妈切苹果给你的时候那个声音。你对”苹果”这个词的理解，是扎根在几十年真实世界里的。

AI没有身体。它没有吃过任何东西。它对”苹果”的所谓”理解”，完全来自另一个地方——来自文字与文字之间的关系。

它读过几千亿句话，在那些话里，”苹果”这个词，经常跟”水果””红色””甜””树””维生素C””乔布斯””iPhone“这些词一起出现。

所以它”知道”苹果——不是因为它理解苹果，而是因为它精确掌握了”苹果”这个词在语言世界里的位置关系。

这个区别，听起来好像无所谓，但它决定了AI的一切能力边界。我们等会儿还会回来讲这件事。

第二部分：词变成数字——这是一切的起点

好，现在我们从头开始，一步一步走。

你输入了一句话：”今天天气怎么样？”

AI收到的第一件事，不是这句话本身，而是这句话被拆碎之后的结果。

AI处理语言，第一步叫做分词，或者更准确地说，叫做tokenization ，就是把你的句子切成一个个小单元。

这些小单元在英文里大多是一个单词，在中文里可能是一个字，可能是两个字，可能是一个词组——具体怎么切，取决于AI用的词表。

“今天天气怎么样”可能被切成：今天 / 天气 / 怎么 / 样——或者更细碎，或者不一样，每个模型都有自己的切法。

切完之后，每一个小单元会被转换成一个数字编号。”今天”可能是第8472号，”天气”可能是第3301号，诸如此类。

这一步的意义在于：计算机只能处理数字，不能直接处理文字。所以语言必须先变成数字，才能进入计算。

但光有编号还不够。8472和3301，这两个数字摆在那里，计算机看不出它们之间有任何关系。你得让机器知道，”今天”和”明天”很近，”今天”和”苹果”很远。

这就引出了一个关键概念。

第三部分：词向量——语言的地图

这个概念叫做词向量，或者叫词嵌入，英文是Word Embedding。

它的核心思想，是把每一个词，变成一个在高维空间里的坐标点。

我知道”高维空间”这四个字会让人头疼，咱们用一个简化版的类比。

想象一张二维地图。这张地图上，每个词都是一个城市。词义相近的词，城市挨得很近。”高兴”和”开心”是邻居，”愤怒”和”暴怒”是邻居，”苹果”和”梨”是邻居，但”苹果”和”悲伤”之间隔着一片大洋。

不只是距离——方向也有意义。

在这张地图上，”国王”减去”男人”再加上”女人”，你会走到哪里？

答案是：女王。

这不是我编的，这是词向量里一个非常著名的数学验证。它说明了这些数字坐标里，真的藏着我们语言世界里的逻辑关系。

当然，真实的词向量不是二维的，可能是几百维、几千维的。你没法在脑子里画出来，但数学可以处理。

每个词被转换成这样一组坐标之后，就变成了机器可以真正运算的东西。

第四部分：上下文的难题——同一个词，不同的意思

但词向量有一个大问题。

一个词，在不同的句子里，意思可能完全不一样。

比如”银行”这个词。

“我去银行取了点钱”——这个银行，是金融机构。

“河的银行边长满了芦苇”——这个银行，是河岸。

如果每个词只有一个固定的坐标，那”银行”只有一个位置，机器就没法区分这两种情况。

早期的NLP系统，也就是自然语言处理系统，就被这个问题卡了很久。

直到有人提出了一个思路：词的含义，不能脱离上下文单独确定。

这个思路，最终进化成了一个改变整个AI行业的东西——Transformer架构，以及它核心的机制：注意力机制，Attention 。

第五部分：注意力机制——AI真正的革命

这是今天最重要的一个概念，我要用最直白的方式讲给你听。

注意力机制，解决的问题是：当我处理一句话里的某个词时，我应该重点”看”这句话里的哪些其他词？

举个例子。

“那只猫坐在垫子上，因为它太舒服了。”

当AI读到”它”这个词，它需要判断”它”指的是谁。是猫，还是垫子？

人类一眼就知道：是垫子太舒服了，猫才坐上去，所以”它”指的是垫子。

但机器怎么判断？

注意力机制的做法是：当处理”它”这个词时，模型会给句子里所有其他词分配一个注意力分数。”猫”拿到一个分数，”垫子”拿到一个分数，”坐”拿到一个分数，”舒服”拿到一个分数……

然后模型发现，根据它在训练过程中学到的模式，在”太舒服了”这个语境下，”它”更可能指向”垫子”。于是”垫子”拿到了更高的注意力分数，”它”的含义就在这个动态计算里被确定了下来。

这个过程，在每一个词上都会发生，而且是并行进行的，极其高效。

注意力机制最厉害的地方在于：它让词的含义，真正变成了上下文相关的。同一个词，放在不同的句子里，会产生不同的向量表示，因为它周围的词不一样，分配到的注意力权重不一样，最终的”语义坐标”就不一样。

2017年，Google发表了一篇论文，题目叫《Attention Is All You Need》——注意力就是你所需要的一切。这篇论文里提出的Transformer架构，是GPT、Claude、Gemini所有这些大语言模型的共同基础。

第六部分：预训练——读了半个互联网之后

有了这个架构，接下来发生了什么？

训练。大规模的训练。

这些模型在训练阶段，读了海量的文本——网页、书籍、论文、代码、对话记录。GPT-4的训练数据，估计在几十TB甚至更多，相当于几千亿、上万亿个词。

训练过程中，模型在做一件极其简单、但极其有效的事情：预测下一个词。

给你看前面这些词，你猜下一个词是什么。

“今天的天气真的很___”

“今天的天气真的很好，我决定出去___”

模型每次猜，对了就强化这个方向，错了就调整参数，反复迭代，迭代几千亿次。

就是这一件事，一件看起来无比简单的事，让模型学会了语法、逻辑、常识、事实、风格、情感……

为什么一件这么简单的事，能产生这么强大的能力？

因为语言，本身就是人类所有知识的压缩存档。

当你能精准预测语言的下一步走向，你就必须掌握语言背后的世界模型。你必须知道苹果是水果，必须知道战争会有伤亡，必须知道悲伤的人通常不会说”我好开心”。

预测语言，就是在学习这个世界。

第七部分：那它到底”理解”了吗？

讲到这里，我要把最开始那个问题重新拿出来。

AI到底有没有真的”理解”你说的话？

这是一个争论了很多年、至今没有定论的问题。我不给你一个武断的答案，我给你两种视角。

第一种视角：它没有理解，它只是在极其精密地做模式匹配。

它没有意识，没有意图，没有真正的语义理解。它所有的”聪明”，都来自对海量语言模式的统计学习。它是一台极其复杂的预测机器，每次输出，本质上都是在问：根据我看过的所有文本，在这个上下文之后，最可能出现什么？

这种观点认为，AI永远无法真正”懂”你，它只是看起来懂。

第二种视角：理解，本身可能就是某种形式的模式处理。

人类的理解，底层是什么？是神经元的激活，是突触的连接，是大脑皮层的模式识别。如果你把人类的理解过程拆开来看，它也是一堆物理和化学反应。

那么”真正的理解”和”极其精密的模式处理”之间，边界在哪里？

没有人知道。

我个人的看法是：与其纠结”它有没有真正理解”，不如关注一个更实际的问题——它理解到了什么程度，在什么地方会失效。

第八部分：它在哪些地方会”不理解”

这才是对我们普通用户最有价值的认知。

第一个失效点：反事实推理。

AI很擅长根据已有模式生成内容，但在需要严格逻辑推理、尤其是反事实推理的时候，经常出错。

比如”如果2+2=5，那么4+4等于多少？”

在这种需要完全抛弃现实知识、纯粹在假设框架内推理的情况下，大语言模型经常乱掉。因为它的训练数据告诉它，4+4=8，它很难真正切换到一个反事实的逻辑世界里。

第二个失效点：数字和计算。

语言模型不是计算器。它处理数字，跟处理文字的方式是一样的——通过模式匹配，而不是真正的计算。

“5379乘以8821等于多少”——模型给你的答案，是它根据见过的计算模式生成的，不是真正算出来的。所以在复杂计算上，它会出错，而且出错的方式有时候非常自信。

第三个失效点：最新知识和实时信息。

模型的训练数据有截止日期。它对截止日期之后发生的事情，一无所知。这不是因为它”不理解”，而是因为它压根没读过那些内容。

第四个失效点：字面意思和隐含意思的区分。

有时候你说”你能帮我打开窗户吗”，你是在请求，不是在询问能力。

人类能轻松理解这种语用意义，AI也越来越能处理这种情况了，但在某些隐晦的、高度依赖文化背景或者语境的表达上，它还是会”理解偏”。

第五个失效点：长文本中的信息遗漏。

当你给AI一篇很长的文档，并且关键信息藏在文档中间某个不显眼的地方，它有时候会忽略那条信息。

注意力机制在处理极长文本时，对不同位置信息的权重分配，并不是完全均匀的。开头和结尾的内容，通常比中间更容易被”记住”。

第九部分：那我们应该怎么跟它说话？

现在你对AI的运作有了一个基本的认知，这个认知直接可以转化成实操价值。

第一：上下文越丰富，它理解得越准。

它的理解依赖上下文，所以你给的信息越完整，它偏差越小。不要说”帮我写个方案”，要说”帮我写一个面向30岁左右职场新人的、关于时间管理的线上课程推广方案，风格要活泼一点，大概500字”。

每一个限定词，都是一个注意力权重。

第二：它的”记忆”是有边界的。

在一次对话里，它能”看到”的内容有上限，叫做上下文窗口。超出这个范围的内容，它真的不知道。所以很长的对话，关键信息要反复强调，不要假设它记得很久之前说过的事。

第三：让它一步一步思考。

研究表明，当你让AI把推理过程写出来，而不是直接给答案，它出错的概率会显著降低。这跟人类是一样的——打草稿和直接口算，结果不一样。

你可以直接告诉它：请一步一步分析这个问题。这句话，真的有效。

第四：它的自信程度不等于准确程度。

AI说话的口气，和内容的准确性，是两件事。它生成文字的方式，决定了它几乎不会说”我不确定”——除非你明确让它这样做，或者它被专门训练成这样。对于重要的事实性内容，永远要自己核实。

第五：角色和身份设定，真的有用。

当你告诉它”你是一个有十年经验的产品经理”，它会从自己的训练数据里，调取更多和产品经理思维相关的语言模式。这不是魔法，这是在通过上下文信息，影响注意力权重的分配。

结尾：一台没有灵魂的神谕机，还是……

最后，我想分享一个我自己思考了很久的角度。

有人说，大语言模型是一台”随机鹦鹉”——它只是在重复和拼接它读过的语言，没有任何真正的理解，没有任何真正的思考。

我部分同意这个说法，但我觉得它遗漏了一件重要的事。

人类写下的所有文字——所有的书，所有的故事，所有的论文，所有的对话——本质上是什么？

是人类几千年来所有思维的痕迹。是恐惧、是好奇、是爱、是逻辑、是偏见、是智慧……

当一个模型，把这些东西都读了一遍，然后学会了在语言世界里的移动方式——

它是否掌握了某种我们还没有名字的东西？

它的”理解”，和我们的”理解”，是在同一条光谱上的两个不同位置，还是完全不同的两件事？

这个问题，我没有答案。但我觉得，这个问题本身，比任何答案都更值得我们去想。

因为我们正在创造一种前所未有的存在，而我们甚至还不确定，它到底是什么。

AI Stack Nav

登录

档案

注册

退出

发现全球最佳 AI 工具

AI到底是怎么”理解”你说的话的？

第一部分：先把一个误会说清楚

第二部分：词变成数字——这是一切的起点

第三部分：词向量——语言的地图

第四部分：上下文的难题——同一个词，不同的意思

第五部分：注意力机制——AI真正的革命

第六部分：预训练——读了半个互联网之后

第七部分：那它到底”理解”了吗？

第八部分：它在哪些地方会”不理解”

第九部分：那我们应该怎么跟它说话？

结尾：一台没有灵魂的神谕机，还是……

最新文章

热门文章

标签云

AI Stack Nav

发表回复取消回复

发现全球最佳 AI 工具

AI到底是怎么”理解”你说的话的？

第一部分：先把一个误会说清楚

第二部分：词变成数字——这是一切的起点

第三部分：词向量——语言的地图

第四部分：上下文的难题——同一个词，不同的意思

第五部分：注意力机制——AI真正的革命

第六部分：预训练——读了半个互联网之后

第七部分：那它到底”理解”了吗？

第八部分：它在哪些地方会”不理解”

第九部分：那我们应该怎么跟它说话？

结尾：一台没有灵魂的神谕机，还是……

最新文章

热门文章

标签云

AI Stack Nav

发表回复 取消回复

发表回复取消回复