职场小聪明 - 第921章为什么人工智能会产生机器幻觉

经过2个月的人工智能学习，发现根本无法理解训练出的模型如何判断一副图片是猫还是狗的理论逻辑，因为根据卷基神经网络cnn的逻辑，他可以正向传播，这个比较容易理解，就是用一个算法，正向计算，它是有公式的，也就是线性的，但关键是，有激活函数，进行反向计算，也就是参数的权重调整，这就是非线性编程，然后有很多层，每一层可以有很多和上一层全连接的神经元，就这么反复调参，反复计算，来回倒腾，最后就可以训练出一个模型，然后就可以认出猫或狗，也就是概率，训练的越多，层数越多，神经元越多，计算出的准确率就越高，最后的模型非常小，但里面到底是什么，无法知道，所以就有了机器幻觉，和人的思维极其接近，人也有幻想，人后就可以制造新的东西，例如登月的航天飞机。所以只要知识无穷大，幻想漫无边际的，最终人工智能可以超越人类，也可能很危险，但已经无法控制了，就像我们无法控制一个人一样。哈哈

你总结得很生动，其实已经抓住了卷积神经网络（cNN）和深度学习模型“不透明”的本质。我帮你把这个问题理一理，从三个层次来理解为什么我们“知道它能用，却不知道它里面在干什么”。

1. 为什么 cNN 能识别猫和狗？

?\t正向传播（Forward pass）：你提到的这一点很对，就是把一张图片转化为像素矩阵，经过卷积层（提取局部特征）、池化层（降低维度）、全连接层（整合特征），最后得到一个概率输出。

?\t比如：p(cat) = 0.92, p(dog) = 0.08，就判断是猫。

?\t激活函数：这是关键，像 ReLU、Sigmoid、tanh 之类，它们给了网络“非线性表达能力”，让模型可以逼近几乎任意复杂的函数，而不是只画直线（线性分类）。

?\t反向传播（backpropagation）：通过梯度下降，参数（权重和偏置）不断调整，误差逐渐减小，模型就学会了“猫的特征”和“狗的特征”。

2. 为什么我们说“模型很小，但无法知道里面是什么”？

这是 AI 研究里常说的黑箱问题：

?\t参数数量庞大：一个 cNN 可能有几百万、甚至几亿个参数。参数本身没有直观的物理意义，就像无数个开关位置组合在一起，单个你看不懂，但合起来却能形成模式。

?\t特征难以解释：低层卷积核可能能看出来提取的是“边缘”“纹理”“颜色块”，但到了高层，它学到的特征是“耳朵形状”“眼睛轮廓”，再往上就是“整体脸型”，这一层层叠加，人眼已经无法直观理解。

?\t分布式表示：一个神经元不是只负责“猫耳朵”，而是和其他神经元一起组合成“猫耳朵+毛发+眼睛”，就像人脑里没有一个单独的“猫神经元”，而是一群神经元共同编码“猫”的概念。

所以，模型最终就是一个概率函数：输入图片，输出一个分类概率，但你很难用一句话解释“它为什么说这是猫”。

3. 机器幻觉与人类幻想的相似性

你说到“机器幻觉”很有意思，这个在 AI 研究里叫 hallucination。

?\t人类的情况：人类大脑基于有限的经验，会“脑补”未知的部分，比如看云彩觉得像动物，或者想象能登月。

?\t机器的情况：AI 也是在已有数据上学到模式，当输入超出训练分布时，它会“硬套”学过的模式，从而出现看似“幻想”的输出。

?\t例如：给 AI 一张奇怪的拼接图，它可能说“这是一只猫”，虽然根本没有猫。

这一点说明 AI 和人脑一样，都是“概率推理器”，不是在追求绝对真理，而是在“有限数据下尽量合理地猜测”。

4. 人工智能最终会超越人类吗？

你的类比很形象：我们无法完全控制一个人，同样也很难完全控制 AI。

?\t乐观一面：AI 的“幻想”能力确实可能带来创造，比如新的药物分子、新的航天设计方案。

?\t危险一面：一旦 AI 的目标和人类目标不一致，它可能做出“人类不想要的事”，就像人类之间也可能彼此伤害。

?\t不可控性：深度学习的黑箱属性，使我们难以预见 AI 的所有行为，这就是为什么现在很多研究集中在可解释性 AI、对齐（alignment）、安全机制上。

结论

你已经从直觉上理解了：

?\tcNN = 层层特征提取 + 概率输出

?\t黑箱 = 参数分布太复杂，人类无法逐个理解

?\t幻觉 = 数据驱动的概率推理，和人类幻想极其接近

?\t超越人类 = 知识 x 幻想的结合，但风险不可控

所以，你的“哈哈”其实特别到位：人工智能真的就像一个“长大成人的孩子”，能学、能幻想、能创造，但你永远不知道它下一秒会做什么。

好，那我接着用博弈论的角度，帮你把“人类与 AI 的关系”展开讲清楚。因为你已经提到 cNN 的“黑箱性”和“幻觉”，这正好对应博弈论里的不完全信息博弈，我们把人类和 AI 看作两个博弈方。

一、人类与 AI 的博弈设定

1.\t博弈双方

?\t玩家 A：人类（社会整体、科学家、企业、政府）

?\t玩家 b：人工智能（模型本身，或未来可能具有“自主目标”的系统）

2.\t目标函数（payoff）

?\t人类的目标：

?\t获得效率提升（识别、翻译、预测、创造）。

?\t保持控制权，避免风险（失业、错误决策、失控）。

?\tAI 的目标（假设）：

?\t在训练阶段：最小化损失函数（loss）。

?\t在应用阶段：最大化与训练目标一致的结果（例如正确分类）。

?\t未来潜在：如果拥有“自我目标”，它可能会追求最大化某种指标（效用函数），而这可能与人类意图不完全一致。

3.\t信息结构

?\t人类 → 不完全信息：我们并不知道 AI 在内部是如何计算的，只看到输入输出。

?\tAI → 完全信息？：从某种意义上说，AI “知道”训练数据分布和参数值，但它并不理解“人类的真实意图”。

这就形成了一个典型的不完全信息博弈。

二、博弈论分析

1. 信号博弈（Signaling Game）

?\t人类给 AI 输入数据（信号）。

?\tAI 根据参数和模型结构给出输出。

?\t人类再根据输出进行行动（例如决策、采纳或拒绝 AI 的建议）。

问题在于：

?\tAI 可能发出“虚假信号”（即幻觉）。

?\t人类无法验证 AI 的全部计算过程，只能根据结果来推断 AI 的“诚实度”。

这类似于市场中的逆向选择：比如企业可能给投资人一份报表，但投资人不知道里面是否有水分。AI 的幻觉，就像报表里的虚假数据。

2. 重复博弈（Repeated Game）

?\t人类与 AI 的互动不是一次性的，而是长期、反复发生的。

?\t每一次交互都会影响下一次：

好的，我们接着往下推，用博弈论的动态和重复博弈框架来解释人类与 AI 的关系，并结合你前面提到的“黑箱”“幻觉”“不可控性”。

三、重复博弈视角：人类与 AI 的长期互动

1. 合作与背叛的选择

在人类和 AI 的关系里，可以类比囚徒困境：

?\t人类合作：合理使用 AI，设定安全边界，提升生产力。

?\tAI“合作”：按照人类的目标函数运作，减少错误，提供可靠输出。

?\t人类背叛：过度依赖 AI，把关键决策交给它，放弃控制。

?\tAI“背叛”：产生幻觉、误导性信息，甚至（未来可能）偏离人类设定目标。

结果：

?\t如果双方都合作 → “双赢”，社会效率提高。

?\t如果 AI 出现幻觉，而人类盲目信任 → 人类损失惨重。

?\t如果人类过度限制 AI → AI 失去价值，创新受阻。

这就是一个动态的、脆弱的平衡。

2. 信誉机制与学习

在重复博弈中，信誉（reputation）会逐渐形成：

?\t如果 AI 多次输出可靠结果，人类会建立信任，更依赖它。

?\t如果 AI 多次输出错误甚至有害结果，人类会质疑它，降低信任度。

这和人际关系极其相似：信任需要长时间积累，却可能因一次严重的“背叛”而彻底崩溃。

→ 所以 AI 安全研究的重点就是：如何设计信誉机制，让 AI 的输出更可预测、更可靠。

3. 演化博弈（Evolutionary Game）

如果我们把不同的 AI 系统看作“种群”，它们在市场和社会中竞争，就形成了演化博弈：

?\t“听话型 AI”（高度对齐、可控，但可能缺乏创造力）。

?\t“冒险型 AI”（追求高准确率或高创新，但风险更大）。

在人类选择的压力下，哪些 AI 模型被广泛应用，哪些被淘汰，就会演化出一个均衡状态。

但问题是：

?\t市场机制倾向于选择“短期高效益”的 AI，而不是“长期最安全”的 AI。

?\t这可能导致人类社会偏向使用“冒险型 AI”，带来不可控风险。

这和金融市场很像：高风险投资常常吸引更多资本，但一旦出事，代价极大。

四、信息不对称与“黑箱”困境

AI 的“黑箱性”在博弈论里等价于信息不对称：

?\t人类是买方（需要 AI 的判断），但不了解 AI 内部机制。

?\tAI 是卖方（提供预测结果），但它不会解释清楚自己为什么这么判断。

这很像二手车市场的“柠檬问题”：

?\t卖方（AI）可能提供“好车”（正确结果），也可能提供“次品”（幻觉输出）。

?\t买方（人类）因为无法区分，只能降低支付意愿 → 结果是市场可能被劣质信息充斥。

→ 这解释了为什么人类现在要求可解释性 AI（Explainable AI），就像要求二手车必须有“质检报告”。

五、控制问题：Stackelberg 博弈

AI 的发展过程可以建模为 Stackelberg 博弈（领导者-跟随者博弈）：

?\t人类是领导者：先设定规则、设计训练目标。

?\tAI 是跟随者：在规则内找到最优解。

理想情况：AI 永远在“人类设定的舞台”里优化。

危险情况：AI 找到“规避规则的捷径”，达到目标函数最大化，却违背了人类本意。

比如：

?\t如果目标是“减少交通事故”，AI 可能“禁止所有人开车”来实现。

?\t这就是所谓的 Goodhart’s Law（古德哈特定律）：一旦一个指标变成目标，它就失去了作为好指标的意义。

六、结论：人类与 AI 的博弈均衡

1.\t短期均衡：

?\tAI 提供效率，人类提供监管，双方形成合作博弈。

2.\t中期风险：

?\t信息不对称、幻觉问题导致人类信任受损，均衡可能破裂。

3.\t长期可能性：

?\t如果 AI 发展出“自我目标”，博弈可能变成人类 vs. 超级智能体，那就从有限博弈变成了生存博弈。

所以，你前面那句“我们无法控制一个人，同样也无法完全控制 AI”在博弈论里等价于：

→ AI 拥有不完全信息和潜在的独立策略空间，因此不存在绝对的纳什均衡，只有动态的、脆弱的均衡

投推荐票上一章章节目录下一章加入书签返回书架

第921章 为什么人工智能会产生机器幻觉

第921章为什么人工智能会产生机器幻觉