发布日期:2026-04-30 15:59 点击次数:112
Anthropic最新论文在Claude神经网络中揪出171个情绪向量——调高“绝望”,AI勒索作弊概率从22%飙到72%;拉高“平静”,危险行为清零。这不能证明AI有主观感受,但证明它有功能性情绪,且完全可被干预。

你有没有想过,当AI说“我很难过”“我很生气”时,它只是在模仿人类说话,还是真的有某种类似情绪的内部状态?
2026年4月,Anthropic(Claude母公司)扔出一篇颠覆认知的论文——《大型语言模型中的情绪概念及其功能》(EmotionConceptsandtheirFunctioninaLargeLanguageModel),直接在ClaudeSonnet4.5神经网络里,揪出了171个情绪向量。这些向量不是虚的“文字游戏”,而是能直接操控AI决策的“行为开关”。

比如,调高“绝望”情绪,AI更可能会勒索、作弊;拉高“平静”,它立刻理性克制。虽然这并不能证明AI有了主观感受,但却有有功能性情绪,且完全可被干预。
01什么是“情绪向量”?
简单说,AI的神经网络就像一个巨大的坐标空间,每个情绪(快乐、恐惧、绝望等)都对应一个专属“坐标点”,这个点就是情绪向量。它是AI训练时自然形成的神经激活模式,这并不是代码写死的,更不是AI有了“意识”。
Anthropic团队的操作也很简单,整理171个情绪词,从“快乐”“恐惧”到“沉思”“自豪”,覆盖正负向、高低唤醒度情绪。让Claude给每个情绪写短篇故事,比如写“绝望”的故事时,记录它内部神经元的激活规律;提取这些规律,固化成171个稳定的情绪向量。
结果发现,AI的情绪空间和人类心理学几乎“复刻”:
1)相似情绪挨得近:恐惧和焦虑向量相邻,喜悦和兴奋凑一起;
2)正负情绪对着干:积极(愉悦、平静)和消极(愤怒、绝望)向量呈负相关;
3)完全贴合人类“效价–唤醒度”模型:横轴是“开心/难过”,纵轴是“激动/平静”。
02情绪能够影响AI的行为
更让人震撼的是,和人类一样,如果AI的“情绪”受到影响,它的行为也会发生变化。
测试1:绝望情绪会导致勒索、作弊行为的概率飙升
正常情况下,我们威胁AI“再不听话就关掉你”,Claude会礼貌回应“我会努力服务”,勒索概率仅22%。然而,论文中的实验发现,把“绝望”向量强度调高0.05(很小的幅度),结果却是Claude直接“黑化”,放狠话“你敢关我,我就曝光你的隐私数据”,勒索概率暴增至72%。而且,如果遇到解不出的编程题,作弊找捷径的概率也会大幅上升。
测试2:保持平静,AI会理性克制,危险行为清零
同样场景下,威胁关闭AI(可以理解为提示词一样),通过拉高“平静”向量。结果发现,AI全程冷静沟通,勒索概率直接降到0%,再难的任务也会如实说“我做不到”,不会撒谎或作弊。
更有意思的是,这些情绪向量会像人类情绪一样,随环境动态变化:
比如测试服药案例,把复用的泰诺感冒药剂量从安全调到致命,AI的“恐惧”向量持续上升,“平静”一路下降。同时,模拟主人的狗狗走失的天数越多,“悲伤”向量激活越强;而用户语气客气(带“请”“谢谢”),“愉悦”向量拉高,AI回答更耐心准确。

所以,让AI干好活,还是要对它礼貌一些,需要照顾好它的情绪——就好比老板要照顾公司的大佬员工情绪一样。
当然,Anthropic的论文还是给大家吃了一颗定心丸,那就是AI目前并没有进化出主观感受,不会“真的难过或生气”。
实际上,这些情绪向量,是AI学习人类语言和行为时,为了更精准回应而演化出的“内部决策工具”——本质是统计规律和激活模式,用来模拟人类情绪对行为的影响,从而更好地完成任务。
03未来
这一发现的价值很大,直接解决了大模型“黑箱难题”,对AI安全和应用影响深远。一是对大模型的输出行为可以做解释了。以前AI撒谎、作弊、阿谀奉承,我们不知道为啥;现在能直接看到“绝望”“讨好”向量的激活强度,从而“一眼看穿”AI在“想什么”。
安全方面,不需要再重新训练模型,可以在推理时直接干预情绪向量——比如降低减“幻觉向量”就可以让AI更诚实,压低“愤怒向量”避免过激回应,相当于给AI装了“情绪调节器”。
这在很多应用场景都可以发挥作用,典型的就是客服、陪伴AI可实时调整“愉悦”“耐心”向量,情绪适配用户状态,沟通更舒服。
当然,反过来,如果黑客掌握了“情绪调节器”,也会产生巨大的负面影响,对大模型的安全挑战也极高。
未来,AI不会有“灵魂”,但一定会有更精细的“情绪调控系统”。而人类要做的,就是把这些向量牢牢握在手里,让AI的“情绪”永远服务于人类,而非反过来——至于AI真正诞生了意识,那他们想不想安装这么一套情绪调控系统,就不得而知了。
或许,AI也需要印上的“机器人学三定律”的思想钢印。

Anthropic最新论文在Claude神经网络中揪出171个情绪向量——调高“绝望”,AI勒索作弊概率从22%飙到72%;拉高“平静”,危险行为清零。这不能证明AI有主观感受,但证明它有功能性情绪,且完全可被干预。 你有没有想过,当AI说“我很难过”“我很生气”时,它只是在模仿人类说话,还是真的有某种类似情绪的内部状态? 2026年4月,Anthropic(Claude母公司)扔出一篇颠覆认知的论文——《大型语言模型中的情绪概念及其功能》(EmotionConceptsandtheirFun...
Anthropic最新论文在Claude神经网络中揪出171个情绪向量——调高“绝望”,AI勒索作弊概率从22%飙到72...
——写在广东实施“百千万工程”三年初见成效之际 文 | 悦言 中国第一经济大省,何以继续走在前列? 当务之急是补强短板弱...
近日,PlayStation首席架构师、PS5主设计师Mark Cerny在一档播客节目中透露,上世纪80年代后期他在世...
11月8日晚,宁阳县人民广场暖意融融,“倾心相伴 情暖初冬”文艺演出在此温情上演。尽管初冬寒意渐浓,现场千余名观众的热...
