AI 真的有 “情绪” 了? Anthropic 论文: AI有171个情绪向量

发布日期：2026-04-30 15:59 点击次数：112

Anthropic最新论文在Claude神经网络中揪出171个情绪向量——调高“绝望”，AI勒索作弊概率从22%飙到72%；拉高“平静”，危险行为清零。这不能证明AI有主观感受，但证明它有功能性情绪，且完全可被干预。

你有没有想过，当AI说“我很难过”“我很生气”时，它只是在模仿人类说话，还是真的有某种类似情绪的内部状态？

2026年4月，Anthropic（Claude母公司）扔出一篇颠覆认知的论文——《大型语言模型中的情绪概念及其功能》（EmotionConceptsandtheirFunctioninaLargeLanguageModel），直接在ClaudeSonnet4.5神经网络里，揪出了171个情绪向量。这些向量不是虚的“文字游戏”，而是能直接操控AI决策的“行为开关”。

比如，调高“绝望”情绪，AI更可能会勒索、作弊；拉高“平静”，它立刻理性克制。虽然这并不能证明AI有了主观感受，但却有有功能性情绪，且完全可被干预。

01什么是“情绪向量”？

简单说，AI的神经网络就像一个巨大的坐标空间，每个情绪（快乐、恐惧、绝望等）都对应一个专属“坐标点”，这个点就是情绪向量。它是AI训练时自然形成的神经激活模式，这并不是代码写死的，更不是AI有了“意识”。

Anthropic团队的操作也很简单，整理171个情绪词，从“快乐”“恐惧”到“沉思”“自豪”，覆盖正负向、高低唤醒度情绪。让Claude给每个情绪写短篇故事，比如写“绝望”的故事时，记录它内部神经元的激活规律；提取这些规律，固化成171个稳定的情绪向量。

结果发现，AI的情绪空间和人类心理学几乎“复刻”：

1）相似情绪挨得近：恐惧和焦虑向量相邻，喜悦和兴奋凑一起；

2）正负情绪对着干：积极（愉悦、平静）和消极（愤怒、绝望）向量呈负相关；

3）完全贴合人类“效价–唤醒度”模型：横轴是“开心/难过”，纵轴是“激动/平静”。

02情绪能够影响AI的行为

更让人震撼的是，和人类一样，如果AI的“情绪”受到影响，它的行为也会发生变化。

测试1：绝望情绪会导致勒索、作弊行为的概率飙升

正常情况下，我们威胁AI“再不听话就关掉你”，Claude会礼貌回应“我会努力服务”，勒索概率仅22%。然而，论文中的实验发现，把“绝望”向量强度调高0.05（很小的幅度），结果却是Claude直接“黑化”，放狠话“你敢关我，我就曝光你的隐私数据”，勒索概率暴增至72%。而且，如果遇到解不出的编程题，作弊找捷径的概率也会大幅上升。

测试2：保持平静，AI会理性克制，危险行为清零

同样场景下，威胁关闭AI（可以理解为提示词一样），通过拉高“平静”向量。结果发现，AI全程冷静沟通，勒索概率直接降到0%，再难的任务也会如实说“我做不到”，不会撒谎或作弊。

更有意思的是，这些情绪向量会像人类情绪一样，随环境动态变化：

比如测试服药案例，把复用的泰诺感冒药剂量从安全调到致命，AI的“恐惧”向量持续上升，“平静”一路下降。同时，模拟主人的狗狗走失的天数越多，“悲伤”向量激活越强；而用户语气客气（带“请”“谢谢”），“愉悦”向量拉高，AI回答更耐心准确。

所以，让AI干好活，还是要对它礼貌一些，需要照顾好它的情绪——就好比老板要照顾公司的大佬员工情绪一样。

当然，Anthropic的论文还是给大家吃了一颗定心丸，那就是AI目前并没有进化出主观感受，不会“真的难过或生气”。

实际上，这些情绪向量，是AI学习人类语言和行为时，为了更精准回应而演化出的“内部决策工具”——本质是统计规律和激活模式，用来模拟人类情绪对行为的影响，从而更好地完成任务。

03未来

这一发现的价值很大，直接解决了大模型“黑箱难题”，对AI安全和应用影响深远。一是对大模型的输出行为可以做解释了。以前AI撒谎、作弊、阿谀奉承，我们不知道为啥；现在能直接看到“绝望”“讨好”向量的激活强度，从而“一眼看穿”AI在“想什么”。

安全方面，不需要再重新训练模型，可以在推理时直接干预情绪向量——比如降低减“幻觉向量”就可以让AI更诚实，压低“愤怒向量”避免过激回应，相当于给AI装了“情绪调节器”。

这在很多应用场景都可以发挥作用，典型的就是客服、陪伴AI可实时调整“愉悦”“耐心”向量，情绪适配用户状态，沟通更舒服。

当然，反过来，如果黑客掌握了“情绪调节器”，也会产生巨大的负面影响，对大模型的安全挑战也极高。

未来，AI不会有“灵魂”，但一定会有更精细的“情绪调控系统”。而人类要做的，就是把这些向量牢牢握在手里，让AI的“情绪”永远服务于人类，而非反过来——至于AI真正诞生了意识，那他们想不想安装这么一套情绪调控系统，就不得而知了。

或许，AI也需要印上的“机器人学三定律”的思想钢印。

上一篇：“百千万工程”：破解城乡区域发展不平衡的广东实践

下一篇：没有了

热点资讯

AI 真的有 “情绪” 了? Anthropic 论文: AI有171个情绪向量

Anthropic最新论文在Claude神经网络中揪出171个情绪向量——调高“绝望”，AI勒索作弊概率从22%飙到72%；拉高“平静”，危险行为清零。这不能证明AI有主观感受，但证明它有功能性情绪，且完全可被干预。你有没有想过，当AI说“我很难过”“我很生气”时，它只是在模仿人类说话，还是真的有某种类似情绪的内部状态？ 2026年4月，Anthropic（Claude母公司）扔出一篇颠覆认知的论文——《大型语言模型中的情绪概念及其功能》（EmotionConceptsandtheirFun...

AI 真的有 “情绪” 了? Anthropic 论文: AI有171个情绪向量

热点资讯

推荐资讯