AI是如何学习的
本章要点
在前面四章,我们一直在使用 AI 来帮助我们写代码。你可能会好奇:AI 为什么能理解我们说的话?为什么它能生成看起来像人写的代码?它到底是怎么"学会"这些本领的?
这一章,我们暂时放下手中的项目,来聊聊 AI 背后的那些事儿。别担心,我不会用复杂的数学公式轰炸你——我们的目标是理解原理、建立直觉,而不是成为机器学习专家。读完这一章,你会对 AI 的能力有更清醒的认识,也更清楚它的边界在哪里。
读完这一章,你会获得:
- 理解 AI 学习的基本原理:从数据中发现规律,而不是被人"教"规则
- 了解训练数据的重要性:数据如何塑造 AI 的能力
- 认识模式识别:AI 眼中的世界是什么样子
- 建立对 AI 能力的正确预期:什么能做、什么不能做
从一个简单的问题开始
让我们先做一个思想实验。
假设你想教一个从没见过猫的孩子认识猫。你会怎么做?
方法一:你可能会给孩子列出猫的特征——"有四条腿、有尾巴、会喵喵叫、耳朵尖尖的……"。但这个方法有个问题:猫的形态千奇百怪,有的没尾巴,有的腿短,有的不怎么叫。你列举再多特征,也难免遗漏或出错。
方法二:你带孩子看了几百张猫的照片,指着每张说"这是猫"。渐渐的,孩子自己就会总结出什么是猫。即使面对一只从未见过的猫,孩子也能认出来。
人类的这种学习能力非常神奇——我们不需要明确的规则,只要看足够多的例子,就能学会识别事物。而 AI 的学习方式,恰恰就是模仿这种"从例子中学习"的能力。
AI 学习的本质:模式识别
AI 学习的核心,可以用一句话概括:从大量数据中发现规律,然后用这些规律来预测新事物。
这个过程,在技术领域有个专门的术语,叫做"模式识别"(Pattern Recognition)。听起来很高深,但原理其实很简单。
什么是模式?
模式,就是事物中反复出现的规律。
在语言中,模式无处不在。"苹果"这个词后面经常跟着"好吃"或"红色";"因为"后面通常跟着"所以";写代码时,"if" 后面几乎总是跟着括号里的条件。这些都是语言的规律,也就是模式。
在图像中,猫的耳朵形状、眼睛的位置、毛发的纹理,这些特征组合起来,形成了一种"猫的模式"。当我们看一张照片时,大脑会自动匹配这种模式,告诉我们"这里有只猫"。
AI 要做的,就是从海量的数据中找到这些模式,把它们"记住",然后在遇到新数据时,判断新数据符合哪种模式。
AI 怎么发现模式?
让我们用一个更具体的例子来说明。
想象你是一个 AI,正在学习预测句子中的下一个词。我给你看这样几句话:
- "今天天气真__" → 好
- "这道菜味道真__" → 好
- "这部电影真__" → 好
看多了这样的句子,你可能会发现一个规律:当"真"出现在句尾时,后面经常会跟"好"。这就是一个模式。
但如果你看到了更多句子:
- "今天天气真__" → 糟糕
- "这道菜味道真__" → 难吃
- "这部电影真__" → 无聊
你又会发现:原来"真"后面不总是"好",还要看前面的内容是什么。"天气真"后面可能是"好"或"糟糕";"味道真"后面可能是"好"或"难吃"。于是你学会了更复杂的模式:要根据上下文来判断。
这就是 AI 学习的过程:看越来越多的例子,发现越来越复杂的模式。当你看了上万亿个词的文本后,你积累的模式就会非常丰富,足以应对各种各样的情况。
为什么需要"大量"数据?
你可能会问:AI 为什么需要那么多数据?人看几十只猫就能认识猫,AI 看几千张图片还不够吗?
原因在于,人类天生就有一套认知系统,我们的大脑经过亿万年的进化,已经预装了很多理解世界的能力。当我们看到猫时,我们的大脑会自动关注耳朵的形状、眼睛的位置、毛发的质感——这些是我们与生俱来的"关注点"。
但 AI 没有这个预装系统。它不知道该关注什么,只能从头开始,在数据中自己摸索。对于 AI 来说,一张图片最初只是一堆数字,它不知道什么是"耳朵",什么是"尾巴",只能通过大量的数据,自己找出哪些数字组合代表"猫的特征"。
这就像是让你识别一种外星生物。你没有关于它的任何先验知识,不知道该看它的触角还是皮肤纹理,只能看大量的样本,自己总结规律。这种情况下,你也需要很多样本才能学会。
训练:AI 学习的过程
AI 学习的具体过程,被称为"训练"(Training)。这个词很形象——就像训练运动员一样,需要反复练习,才能掌握技能。
训练是怎么进行的?
让我们用"预测下一个词"这个任务来解释训练过程。
假设 AI 正在学习处理这句话:"人工智能正在改变__"。
第一步:AI 做出预测。
AI 根据目前学到的知识,猜测下一个词可能是"世界"、"生活"、"编程"、"未来"等等,并为每个词给出一个概率。比如:
- "世界":30%
- "生活":25%
- "编程":20%
- "未来":15%
- 其他词:10%
第二步:与正确答案对比。
假设训练数据中,原句是"人工智能正在改变世界"。那么正确答案是"世界"。AI 把自己预测的概率与正确答案对比,计算"误差"——预测越偏离正确答案,误差越大。
第三步:调整内部参数。
根据误差,AI 调整自己内部的参数(你可以理解为调整它的"记忆"),让下次遇到类似情况时,更可能预测出"世界"。
这个过程,叫做"反向传播"(Backpropagation)。虽然名字听起来很技术化,但原理就像学生做错题后纠正自己的理解——知道自己错了,就调整思路,下次更可能答对。
第四步:重复,重复,再重复。
这个过程重复几百万、几亿次,AI 的预测就会越来越准确。最终,它学会了在各种上下文中,哪些词更可能出现在下一个位置。
训练需要多长时间?
现代大语言模型的训练是一个庞大的工程。以 2025 年的主流大模型为例:
- 数据量:训练数据包含数万亿个词,相当于数百万本书的内容
- 计算资源:需要数千张专业显卡并行工作
- 时间:即使有这么多计算资源,训练也需要数周到数月
- 成本:一次完整训练的电费和计算资源费用,可能高达数百万甚至上千万美元
这也是为什么只有少数大型科技公司和研究机构能够训练出真正强大的大模型。当你使用 AI 时,你使用的是别人已经花费巨资训练好的模型。
神经网络:AI 的"大脑"
你可能听说过"神经网络"这个词。它是现代 AI 的核心技术,也是大语言模型的基础架构。
什么是神经网络?
神经网络是一种模仿人脑结构的计算模型。人脑由大约 1000 亿个神经元组成,每个神经元与其他神经元相连,形成复杂的网络。当我们思考时,信号在这个网络中传递,某些连接变强,某些变弱——这就是学习和记忆的基础。
人工神经网络的结构与之类似。它由大量的"人工神经元"组成,这些神经元分层排列:
输入层 → 隐藏层(可能有很多层) → 输出层
- 输入层:接收数据,比如一段文字
- 隐藏层:进行复杂的计算和模式提取(深度学习之所以"深",就是指隐藏层很多)
- 输出层:给出结果,比如预测的下一个词
为什么叫"深度学习"?
当神经网络有很多隐藏层时,就叫做"深度神经网络",用这种方法训练模型的技术叫做"深度学习"(Deep Learning)。
"深度"的意义在于,每一层可以学习不同层次的特征。比如在图像识别中:
- 浅层的神经元可能学习识别简单的边缘和线条
- 中层的神经元可能学习识别形状和纹理
- 深层的神经元可能学习识别完整的物体
这种层层递进的学习方式,让 AI 能够理解非常复杂的概念。
模型的"参数"是什么?
你经常听到"这个模型有 700 亿参数"这样的说法。参数是什么?
参数就是神经网络中神经元之间的"连接强度"。你可以把它理解为 AI 的"记忆"。每个参数都是一个数字,存储着 AI 从训练数据中学到的一点知识。
参数越多,模型能存储的知识就越多,理论上也就越"聪明"。但参数多也意味着:
- 需要更多的训练数据
- 需要更多的计算资源
- 运行时需要更多的内存
所以,参数数量是衡量模型规模的重要指标,但不是唯一指标——模型的架构、训练数据的质量同样重要。
训练数据:塑造 AI 能力的"食粮"
如果说神经网络是 AI 的"大脑",那么训练数据就是喂养这个大脑的"食粮"。AI 学到什么,很大程度上取决于它"吃"了什么。
训练数据从哪里来?
大语言模型的训练数据来源非常广泛:
- 网页文本:包括新闻网站、博客、论坛帖子等,这是最大的数据来源
- 书籍:各种类型的电子书,涵盖文学、科技、历史等领域
- 代码仓库:GitHub 等平台上的公开代码,这也是为什么 AI 能写代码
- 学术论文:arXiv 等平台的论文,提供专业知识
- 百科全书:维基百科等结构化的知识库
- 对话数据:社交媒体、问答网站上的对话
这些数据经过清洗、去重、筛选,最终形成用于训练的数据集。
数据质量比数据量更重要
早期,人们认为训练数据越多越好。但实践证明,数据质量往往比数据量更重要。
什么是高质量数据?
- 准确性:内容正确,没有错误信息
- 多样性:涵盖不同领域、不同风格、不同观点
- 时效性:对于某些领域,最新的信息更重要
- 规范性:语言表达清晰、结构完整
如果训练数据中充满错误信息、偏见言论或低质量内容,AI 也会学到这些缺陷。这就是为什么 AI 有时会"一本正经地胡说八道"——它可能只是在复述训练数据中的错误信息。
数据如何影响 AI 的能力?
训练数据决定了 AI 的知识边界:
- 如果训练数据中没有某领域的专业知识,AI 在该领域就会表现不佳
- 如果训练数据中某类内容占比过高,AI 可能会过度偏向这类内容
- 如果训练数据截止于某个时间点,AI 就不会知道之后发生的事情
这解释了为什么不同的 AI 模型有不同的"性格"和擅长领域——它们的训练数据不同,学到的东西也就不同。
从学习到应用:AI 如何回答你的问题
理解了训练过程,我们再来看看:当你向 AI 提问时,它内部发生了什么?
AI 并不是在"思考"
首先要澄清一个常见的误解:AI 并不是像人类一样在"思考"。
当你问 AI 一个问题时,它不会像人一样先理解问题、再搜索记忆、最后组织语言。它做的事情其实非常简单:根据你输入的内容,预测下一个最可能出现的词。
比如你问:"Python 中如何读取文件?"
AI 并不理解你在问什么。它只是看到这串文字,然后基于训练时学到的模式,预测接下来可能出现的内容。它可能在训练数据中见过无数类似的问题和回答,所以知道这类问题后面通常会跟着什么样的回答。
这个过程不断重复:预测下一个词 → 把这个词加到输入中 → 预测再下一个词 → ……直到生成完整的回答。
为什么 AI 能生成连贯的回答?
既然 AI 只是在预测下一个词,为什么它能生成看起来有逻辑、有条理的回答?
答案是:当训练数据足够多、模型足够大时,预测下一个词的能力会产生"涌现"效果。
想象一下,如果你阅读了人类历史上几乎所有的书籍和文章,你对语言的规律就会了如指掌。你知道什么样的问题应该配什么样的回答,你知道怎样组织语言才通顺,你知道什么样的回答是有帮助的。
AI 之所以能生成连贯的回答,是因为它从海量数据中学到了这些规律。它知道"首先……其次……最后……"是介绍步骤的常用结构,知道"总结一下"后面通常跟着简要的归纳,知道代码示例应该配解释说明。
这些都不是 AI 被"教"的规则,而是它自己从数据中发现的模式。
调控"创意"的旋钮:API 采样参数
既然 AI 的每一步都是在预测下一个词,那你有没有想过:它是如何决定选哪个词的?是永远选概率最高的那个吗?
如果真是这样,AI 的回答就会变得非常机械——每次问同一个问题,永远得到一模一样的答案。这不像一个"聪明"的助手,更像是一台查字典的机器。
实际上,AI 在每一步预测时,会从"概率靠前的几个词"中进行随机采样——有时选概率最高的,有时也会"冒险"选概率稍低但同样合理的词。正是这种随机性,让 AI 的回答每次都略有不同,也让它能生成更富变化、更有创意的内容。
而这种随机性的"程度",是可以调节的。当你通过 API 调用 AI 时,会发现有几个参数能精确控制 AI 的这种行为。
**Temperature(温度)**是最常见的参数。这个名字借用了物理学中的热力学概念——高温代表粒子运动活跃,低温代表粒子安静稳定。在 AI 中,温度越高,随机性越大,AI 会更大胆地选择概率较低的词,输出更富创意、更出人意料的内容;温度越低,AI 越保守,倾向于选择概率最高的词,输出更准确、更稳定。通常取值在 0 到 2 之间,默认值大多是 1。
想象你在用 AI 写一首诗和一份合同。写诗时,你希望它充满创意,可以把温度调高到 1.5;写合同时,你需要准确和一致,就把温度调低到 0.2。同一个模型,因为这个参数的不同,会呈现出截然不同的"个性"。
Top-p(也叫 Nucleus Sampling,核采样)是另一种控制随机性的方式。它的思路是:每次预测时,不是从所有词中采样,而是只从"累积概率恰好达到 p 的那些词"中选择。比如 top-p 设为 0.9,AI 就会把概率从高到低的词依次累加,直到总概率超过 90%,然后只在这个范围内随机选择。
这个参数有个微妙的优势:它能动态调整候选词的数量。当某个词的概率非常突出时,候选范围会自动缩小;当多个词概率相近时,候选范围会自动扩大。相比之下,Top-k 则更直接——每次只从概率最高的 k 个词中选择,比如 top-k 设为 40,AI 每次就只在概率最高的 40 个词里做选择。这是一种更简单粗暴、但也更易于理解的控制方式。
在实际使用中,top-p 和 top-k 通常二选一,或者直接用默认值。而 temperature 是你最值得理解和主动调整的参数。
此外还有一个常见参数:Max Tokens(最大 Token 数),用于限制 AI 回答的最大长度。Token 是 AI 的基本处理单位,我们会在后面的章节详细解释它——现在只需要知道,这个参数就像给 AI 的回答设了一个"字数上限"。设得太小,回答会被截断;不设上限,AI 会一直生成到它认为"说完了"为止。
这些参数听起来可能有些抽象,但当你开始真正用 API 调用 AI 时,会发现理解它们非常有价值。不同的任务需要不同的配置:创意写作需要高温度,代码生成需要低温度;简短的问答需要限制 token 数,长篇分析则需要放宽限制。这也是使用 AI 的一门艺术——模型只是基础,参数的调配才决定了你真正能召唤出什么。
AI 的局限:它不能做什么
理解了 AI 的学习原理,我们也就能更好地理解它的局限。
它没有真正的理解
AI 学到的是模式,而不是概念。当 AI 说"猫是一种动物"时,它并不真正理解什么是"猫"、什么是"动物"。它只是在复述训练数据中经常一起出现的词语组合。
这意味着:
- AI 可能会对概念做出错误的推理,因为它不理解概念的本质
- AI 可能会被表面相似但本质不同的问题迷惑
- AI 无法像人一样进行真正的创新,它只能组合已有的知识
它没有真正的记忆
当你和 AI 对话时,它并不是在"记住"你之前说的话。每次你发送新消息时,整个对话历史都会作为输入一起发送给 AI。AI 只是看到了更长的上下文,然后基于这个上下文预测回答。
这就带来了限制:
- 对话历史越长,AI 处理的负担越重
- 当对话历史超过模型的"上下文窗口"限制时,早期的内容会被截断
- AI 没有长期的记忆,无法在不同的对话之间保持连贯
它没有真正的判断力
AI 无法判断自己生成的内容是否正确。它只是在基于模式生成"看起来合理"的回答。如果训练数据中有错误信息,或者模式匹配出错,AI 就会生成错误的内容——而且通常还会非常自信地表达出来。
这就是为什么:
- 你不能完全信任 AI 给出的事实性信息
- AI 生成的代码需要你自己测试和验证
- 对于关键决策,人类的判断仍然不可替代
正确看待 AI 的能力
理解了 AI 的学习原理,我们应该如何看待它的能力?
把 AI 当作知识检索和组合的工具
AI 阅读了人类的大量知识,并且擅长把这些知识组合起来。当你需要:
- 快速了解某个领域的基础知识
- 获取某个问题的多种可能的解决方案
- 把不同来源的信息整合成连贯的回答
AI 都能做得很好。它就像一个读了很多书、善于总结的助手。
保持人类的判断力
AI 生成的内容,需要你的判断:
- 信息是否正确?需要验证。
- 建议是否适合你的场景?需要考量。
- 代码是否能工作?需要测试。
不要因为 AI 说得头头是道就盲目信任。记住,它只是在预测下一个词,而不是在思考问题。
利用 AI 的优势,弥补它的不足
AI 的优势在于:
- 速度:几秒钟就能生成大量内容
- 广度:几乎涉及所有知识领域
- 不知疲倦:可以反复修改、生成
人类的优势在于:
- 理解:真正理解概念和上下文
- 判断:分辨对错、权衡取舍
- 创造:提出新的想法和方向
最好的工作方式,是让 AI 做它擅长的事(快速生成、广泛检索),让人做人擅长的事(判断、决策、创新)。
小结
这一章,我们深入探讨了 AI 是如何学习的。让我们回顾一下核心内容:
AI 学习的本质是模式识别——从大量数据中发现规律,然后用这些规律来预测新事物。这个过程不需要人类告诉 AI 具体的规则,AI 自己就能从数据中学会。
AI 的学习过程叫做训练。在训练中,AI 不断预测、对比正确答案、调整内部参数,经过亿万次重复,逐渐学会各种模式。
神经网络是 AI 的"大脑结构",由大量的人工神经元组成。参数是神经元之间的连接强度,可以理解为 AI 的"记忆"。
训练数据是塑造 AI 能力的"食粮"。数据的来源、质量和多样性,决定了 AI 知识的广度和深度。
AI 并没有真正的"思考"或"理解"。它做的是基于模式预测下一个词。但海量的训练数据和庞大的模型规模,让这种预测产生了惊人的效果。
理解这些原理,能帮助我们:
- 知道 AI 为什么能做到某些事——因为它见过足够的例子
- 知道 AI 为什么会犯错——因为模式匹配可能出错,训练数据可能有误
- 知道如何更好地使用 AI——发挥它的优势,保持人类的判断
下一章,我们会更深入地了解大语言模型——目前最强大的 AI 形态之一,也是你每天都在使用的 AI 的核心技术。
练习
思考题 1:从例子中学习
找一个人工智能应用(比如人脸识别、语音助手、推荐系统),思考:
- 它需要什么样的训练数据?
- 它要识别什么样的模式?
- 它的局限可能是什么?
思考题 2:模式识别的边界
假设你要教 AI 识别"讽刺"的语气。你觉得:
- 需要什么样的训练数据?
- 有哪些模式可能帮助识别讽刺?
- 为什么这对 AI 来说是一个困难的任务?
实践题 3:观察 AI 的预测
找一个 AI 对话工具,尝试以下实验:
- 输入一个不完整的问题,比如"Python 最常用的数据结构是",看 AI 如何补全
- 故意输入一些语法错误或奇怪的表述,观察 AI 的反应
- 给 AI 一些矛盾的信息,看它如何处理
这些实验能帮你理解 AI 是如何基于模式工作的。
讨论题 4:数据与偏见
AI 的训练数据来自互联网,而互联网上的内容存在各种偏见。比如:
- 某些群体的声音被过度代表,某些群体被忽视
- 某些观点被广泛传播,某些观点被压制
- 历史上的偏见被记录在文字中
如果 AI 从这样的数据中学习,它可能会表现出什么样的偏见?你认为应该如何解决这个问题?