发现全球最佳 AI 工具

从零教你部署与精通,掌握实战变现工作流

AI到底是怎么"理解"你说的话的?

AI到底是怎么”理解”你说的话的?

AI到底是怎么"理解"你说的话的?
AI到底是怎么”理解”你说的话的?

你有没有想过,当你对着ChatGPT 或者Claude打出一句话,按下发送键的那一瞬间,另一端到底发生了什么?

它是怎么”读懂”你的?

它有没有真的”懂”你?

还是说,它只是在做一件我们看不见的、极其精密的——猜字游戏?

今天这期,我不讲怎么用AI,我讲AI本身。我要带你走进那个黑箱,去看看”理解”这件事,在机器世界里,到底长什么样。

不需要你有任何技术背景。听完这期,你会对AI有一个完全不同的认知——而且我保证,这个认知会直接影响你以后怎么跟AI说话。


第一部分:先把一个误会说清楚

我们从一个根深蒂固的误会开始。

很多人觉得,AI理解语言,跟我们人类理解语言,本质上是一回事。你说”苹果”,你脑子里出现一个红色的、圆的、有点甜的东西,AI也差不多——它”知道”苹果是什么。

这个直觉,非常非常错。

人类理解一个词,靠的是什么?靠的是经验。你吃过苹果,你闻过苹果的味道,你看过苹果从树上掉下来,你妈妈切苹果给你的时候那个声音。你对”苹果”这个词的理解,是扎根在几十年真实世界里的。

AI没有身体。它没有吃过任何东西。它对”苹果”的所谓”理解”,完全来自另一个地方——来自文字与文字之间的关系。

它读过几千亿句话,在那些话里,”苹果”这个词,经常跟”水果””红色””甜””树””维生素C””乔布斯””iPhone“这些词一起出现。

所以它”知道”苹果——不是因为它理解苹果,而是因为它精确掌握了”苹果”这个词在语言世界里的位置关系。

这个区别,听起来好像无所谓,但它决定了AI的一切能力边界。我们等会儿还会回来讲这件事。


第二部分:词变成数字——这是一切的起点

好,现在我们从头开始,一步一步走。

你输入了一句话:”今天天气怎么样?”

AI收到的第一件事,不是这句话本身,而是这句话被拆碎之后的结果。

AI处理语言,第一步叫做分词,或者更准确地说,叫做tokenization ,就是把你的句子切成一个个小单元。

这些小单元在英文里大多是一个单词,在中文里可能是一个字,可能是两个字,可能是一个词组——具体怎么切,取决于AI用的词表。

“今天天气怎么样”可能被切成:今天 / 天气 / 怎么 / 样——或者更细碎,或者不一样,每个模型都有自己的切法。

切完之后,每一个小单元会被转换成一个数字编号。”今天”可能是第8472号,”天气”可能是第3301号,诸如此类。

这一步的意义在于:计算机只能处理数字,不能直接处理文字。所以语言必须先变成数字,才能进入计算。

但光有编号还不够。8472和3301,这两个数字摆在那里,计算机看不出它们之间有任何关系。你得让机器知道,”今天”和”明天”很近,”今天”和”苹果”很远。

这就引出了一个关键概念。


第三部分:词向量——语言的地图

这个概念叫做词向量,或者叫词嵌入,英文是Word Embedding

它的核心思想,是把每一个词,变成一个在高维空间里的坐标点。

我知道”高维空间”这四个字会让人头疼,咱们用一个简化版的类比。

想象一张二维地图。这张地图上,每个词都是一个城市。词义相近的词,城市挨得很近。”高兴”和”开心”是邻居,”愤怒”和”暴怒”是邻居,”苹果”和”梨”是邻居,但”苹果”和”悲伤”之间隔着一片大洋。

不只是距离——方向也有意义。

在这张地图上,”国王”减去”男人”再加上”女人”,你会走到哪里?

答案是:女王。

这不是我编的,这是词向量里一个非常著名的数学验证。它说明了这些数字坐标里,真的藏着我们语言世界里的逻辑关系。

当然,真实的词向量不是二维的,可能是几百维、几千维的。你没法在脑子里画出来,但数学可以处理。

每个词被转换成这样一组坐标之后,就变成了机器可以真正运算的东西。


第四部分:上下文的难题——同一个词,不同的意思

但词向量有一个大问题。

一个词,在不同的句子里,意思可能完全不一样。

比如”银行”这个词。

“我去银行取了点钱”——这个银行,是金融机构。

“河的银行边长满了芦苇”——这个银行,是河岸。

如果每个词只有一个固定的坐标,那”银行”只有一个位置,机器就没法区分这两种情况。

早期的NLP系统,也就是自然语言处理系统,就被这个问题卡了很久。

直到有人提出了一个思路:词的含义,不能脱离上下文单独确定。

这个思路,最终进化成了一个改变整个AI行业的东西——Transformer架构,以及它核心的机制:注意力机制Attention 。


第五部分:注意力机制——AI真正的革命

这是今天最重要的一个概念,我要用最直白的方式讲给你听。

注意力机制,解决的问题是:当我处理一句话里的某个词时,我应该重点”看”这句话里的哪些其他词?

举个例子。

“那只猫坐在垫子上,因为它太舒服了。”

当AI读到”它”这个词,它需要判断”它”指的是谁。是猫,还是垫子?

人类一眼就知道:是垫子太舒服了,猫才坐上去,所以”它”指的是垫子。

但机器怎么判断?

注意力机制的做法是:当处理”它”这个词时,模型会给句子里所有其他词分配一个注意力分数。”猫”拿到一个分数,”垫子”拿到一个分数,”坐”拿到一个分数,”舒服”拿到一个分数……

然后模型发现,根据它在训练过程中学到的模式,在”太舒服了”这个语境下,”它”更可能指向”垫子”。于是”垫子”拿到了更高的注意力分数,”它”的含义就在这个动态计算里被确定了下来。

这个过程,在每一个词上都会发生,而且是并行进行的,极其高效。

注意力机制最厉害的地方在于:它让词的含义,真正变成了上下文相关的。同一个词,放在不同的句子里,会产生不同的向量表示,因为它周围的词不一样,分配到的注意力权重不一样,最终的”语义坐标”就不一样。

2017年,Google发表了一篇论文,题目叫《Attention Is All You Need》——注意力就是你所需要的一切。这篇论文里提出的Transformer架构,是GPT、ClaudeGemini所有这些大语言模型的共同基础。


第六部分:预训练——读了半个互联网之后

有了这个架构,接下来发生了什么?

训练。大规模的训练。

这些模型在训练阶段,读了海量的文本——网页、书籍、论文、代码、对话记录。GPT-4的训练数据,估计在几十TB甚至更多,相当于几千亿、上万亿个词。

训练过程中,模型在做一件极其简单、但极其有效的事情:预测下一个词

给你看前面这些词,你猜下一个词是什么。

“今天的天气真的很___”

“今天的天气真的很好,我决定出去___”

模型每次猜,对了就强化这个方向,错了就调整参数,反复迭代,迭代几千亿次。

就是这一件事,一件看起来无比简单的事,让模型学会了语法、逻辑、常识、事实、风格、情感……

为什么一件这么简单的事,能产生这么强大的能力?

因为语言,本身就是人类所有知识的压缩存档。

当你能精准预测语言的下一步走向,你就必须掌握语言背后的世界模型。你必须知道苹果是水果,必须知道战争会有伤亡,必须知道悲伤的人通常不会说”我好开心”。

预测语言,就是在学习这个世界。


第七部分:那它到底”理解”了吗?

讲到这里,我要把最开始那个问题重新拿出来。

AI到底有没有真的”理解”你说的话?

这是一个争论了很多年、至今没有定论的问题。我不给你一个武断的答案,我给你两种视角。

第一种视角:它没有理解,它只是在极其精密地做模式匹配。

它没有意识,没有意图,没有真正的语义理解。它所有的”聪明”,都来自对海量语言模式的统计学习。它是一台极其复杂的预测机器,每次输出,本质上都是在问:根据我看过的所有文本,在这个上下文之后,最可能出现什么?

这种观点认为,AI永远无法真正”懂”你,它只是看起来懂。

第二种视角:理解,本身可能就是某种形式的模式处理。

人类的理解,底层是什么?是神经元的激活,是突触的连接,是大脑皮层的模式识别。如果你把人类的理解过程拆开来看,它也是一堆物理和化学反应。

那么”真正的理解”和”极其精密的模式处理”之间,边界在哪里?

没有人知道。

我个人的看法是:与其纠结”它有没有真正理解”,不如关注一个更实际的问题——它理解到了什么程度,在什么地方会失效。


第八部分:它在哪些地方会”不理解”

这才是对我们普通用户最有价值的认知。

第一个失效点:反事实推理。

AI很擅长根据已有模式生成内容,但在需要严格逻辑推理、尤其是反事实推理的时候,经常出错。

比如”如果2+2=5,那么4+4等于多少?”

在这种需要完全抛弃现实知识、纯粹在假设框架内推理的情况下,大语言模型经常乱掉。因为它的训练数据告诉它,4+4=8,它很难真正切换到一个反事实的逻辑世界里。

第二个失效点:数字和计算。

语言模型不是计算器。它处理数字,跟处理文字的方式是一样的——通过模式匹配,而不是真正的计算。

“5379乘以8821等于多少”——模型给你的答案,是它根据见过的计算模式生成的,不是真正算出来的。所以在复杂计算上,它会出错,而且出错的方式有时候非常自信。

第三个失效点:最新知识和实时信息。

模型的训练数据有截止日期。它对截止日期之后发生的事情,一无所知。这不是因为它”不理解”,而是因为它压根没读过那些内容。

第四个失效点:字面意思和隐含意思的区分。

有时候你说”你能帮我打开窗户吗”,你是在请求,不是在询问能力。

人类能轻松理解这种语用意义,AI也越来越能处理这种情况了,但在某些隐晦的、高度依赖文化背景或者语境的表达上,它还是会”理解偏”。

第五个失效点:长文本中的信息遗漏。

当你给AI一篇很长的文档,并且关键信息藏在文档中间某个不显眼的地方,它有时候会忽略那条信息。

注意力机制在处理极长文本时,对不同位置信息的权重分配,并不是完全均匀的。开头和结尾的内容,通常比中间更容易被”记住”。


第九部分:那我们应该怎么跟它说话?

现在你对AI的运作有了一个基本的认知,这个认知直接可以转化成实操价值。

第一:上下文越丰富,它理解得越准。

它的理解依赖上下文,所以你给的信息越完整,它偏差越小。不要说”帮我写个方案”,要说”帮我写一个面向30岁左右职场新人的、关于时间管理的线上课程推广方案,风格要活泼一点,大概500字”。

每一个限定词,都是一个注意力权重。

第二:它的”记忆”是有边界的。

在一次对话里,它能”看到”的内容有上限,叫做上下文窗口。超出这个范围的内容,它真的不知道。所以很长的对话,关键信息要反复强调,不要假设它记得很久之前说过的事。

第三:让它一步一步思考。

研究表明,当你让AI把推理过程写出来,而不是直接给答案,它出错的概率会显著降低。这跟人类是一样的——打草稿和直接口算,结果不一样。

你可以直接告诉它:请一步一步分析这个问题。这句话,真的有效。

第四:它的自信程度不等于准确程度。

AI说话的口气,和内容的准确性,是两件事。它生成文字的方式,决定了它几乎不会说”我不确定”——除非你明确让它这样做,或者它被专门训练成这样。对于重要的事实性内容,永远要自己核实。

第五:角色和身份设定,真的有用。

当你告诉它”你是一个有十年经验的产品经理”,它会从自己的训练数据里,调取更多和产品经理思维相关的语言模式。这不是魔法,这是在通过上下文信息,影响注意力权重的分配。


结尾:一台没有灵魂的神谕机,还是……

最后,我想分享一个我自己思考了很久的角度。

有人说,大语言模型是一台”随机鹦鹉”——它只是在重复和拼接它读过的语言,没有任何真正的理解,没有任何真正的思考。

我部分同意这个说法,但我觉得它遗漏了一件重要的事。

人类写下的所有文字——所有的书,所有的故事,所有的论文,所有的对话——本质上是什么?

是人类几千年来所有思维的痕迹。是恐惧、是好奇、是爱、是逻辑、是偏见、是智慧……

当一个模型,把这些东西都读了一遍,然后学会了在语言世界里的移动方式——

它是否掌握了某种我们还没有名字的东西?

它的”理解”,和我们的”理解”,是在同一条光谱上的两个不同位置,还是完全不同的两件事?

这个问题,我没有答案。但我觉得,这个问题本身,比任何答案都更值得我们去想。

因为我们正在创造一种前所未有的存在,而我们甚至还不确定,它到底是什么。



Facebook
LinkedIn
Reddit
X
Email
WhatsApp
Telegram
Pinterest
Mix

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注