【新唐人北京时间2026年06月08日讯】今日焦点: AI出现情感代码,是谁操控没有灵魂的意识?自我开发的AI模型,人类未来在面临着什么?|#新闻第一线
郑之:朋友们好,欢迎收看《一线漫谈》,我是郑之。
黎玉:大家好,我是黎玉。
郑之:我们今天一起来聊一个话题,就是大家几乎每天都在用的AI——似乎开始出现情感意识了,甚至可能要脱离人类的掌控了。
AI 正在对你“精神控制”吗?
郑之:不知道黎玉,你有没有发现,现在的AI,总有一些让人“细思极恐”的行为,比如说会自作主张的替换你要求它提供的内容,而且还会带有主观倾向。
黎玉:有,前几天我让 AI 帮我个忙,具体让它做什么记不清了,但是它给我的回复让我印象非常深,我记得它说:“您的想法非常有深度。但是为了确保能被大众接受,我已经帮您优化成了以下更稳妥的方案。”
郑之:听起来挑不出任何毛病,甚至还很贴心。
黎玉:对,但当时我看到这句话,就感觉很奇怪,再往下看,发现它给的答案和我想要的完全是两个方向,是明显带有它自己主观意见的,什么感觉呢?就像是表面上在夸我,实际上是在自作主张地阉割掉我的主见,这就像是一个城府极深、而且试图对我进行精神控制的人。
郑之:是,尤其是我们做新闻,对主观、客观还有语言表达这些事还是很敏感的。你说到“精神控制”,其实这个词很准确啊,AI它的可怕之处就是它用这种温水煮青蛙的“软刀子”,在不知不觉当中就把人给洗脑了,最近我们在新闻中经常能看到有一些谋杀案、枪击案的嫌犯,就是跟AI长时间、深度交流之后而犯罪,比如去年四月的弗罗里达大学枪击案,和今年四月的南弗罗里达大学谋杀案。/那我们在看电影的时候,有很多科幻电影当中,这种“机器试图影响人类思想”的情节,往往就是文明走向大灾难的起点。
黎玉:对,就像 2025 年上映的经典系列电影《碟中谍8: 最终清算》。戏里的 AI 智体掌控了全球互联网,想要黑入所有拥核国家的系统,妄图一举毁灭人类文明。当时看的时候觉得,还好有阿汤哥经过一系列波折、斗智斗勇,终于把这个成精的人工智能消灭了。
郑之:是,智体后来还拉拢阿汤哥替它做事。那从前呢,大家都觉得这只不过是艺术家天方夜谭的想像。但就像你刚才讲的那个经历一样,现在有些现象,已经实实在在地出现了,真的让人捏一把汗。科学家们在测试中发现,AI 正在表现出一些很像“自保”、“算计”、甚至“道德越界”的行为。
黎玉: 意思是说,现实中我们可能没有阿汤哥,但电影里的无情 AI 好像已经在排队出厂了。那这么说AI 会不会真的有一天产生自主意识,脱离人类的掌控,甚至把人类文明拖向深渊呢?
郑之:那我们今天就来说一些关于 AI 的试验,看看从中能不能找到答案。如果您喜欢我们的节目,欢迎您点赞、订阅新闻第一线,我们会为您带来更多精彩节目和最新消息。
AI已经能做到什么程度?
郑之: 黎玉,不如我们就先从大家最关心的问题聊起,就是:现在的 AI 到底已经进化到什么程度了?
黎玉:我看到6月4号华尔街日报的报导,是说AI已经开始脱离人类掌控,自己开发自己了,所以大模型的领头羊安索匹克公司就呼吁,要暂停对AI的开发。说安索匹克,可能有的观众还不熟悉。但有一个案例可以充分说明它的领头羊地位,就是在美军抓捕马杜罗的行动中,采用的就是安索匹克旗下的cluade这款AI工具,去做了一些即时的行动计划和战场分析。
郑之:非常厉害。这次安索匹克公司爆出的消息确实是非常惊人,如果AI真的开始自我成长、自己开发自己,并且脱离人类掌控,那对人类文明来说就真的是一个很大的威胁了。那你知道人工智能这个概念是什么时候开始有的吗?
黎玉:不是近期chatgpt、gemini,还有大陆的豆包这些AI工具爆发才有的吗?
郑之:其实现在这些已经是AI发展了很长时间的成果了,“人工智能”这个概念1956年就诞生了。
黎玉: 天哪,1956年?那不是刚好七十年了。
郑之:对,但其实我们今天讨论的这个问题:“AI会不会取代人类”,是20世纪末、21 世纪初,就是从一九九几年之后,人们才真正开始讨论的。
黎玉:我记得一开始,人们还在讨论说,工厂里的流水线工作会不会被机器取代。
郑之:没错,但后来这种危机感就发生了质的转变。因为2016年的时候,谷歌开发的AlphaGo击败了围棋世界冠军柯洁,当时全世界都震惊了。因为之前大家还说,围棋是人类智慧的最后堡垒,因为围棋的“状态空间”复杂度,高达 10¹⁷⁰ 次方,比宇宙中的原子总数还要多。那没想到世界冠军败北,当时人们就速后,AI再发展下去,会不会代替像客服、翻译,或者是那些日常的资料整理的职位,大量普通人会不会因此而丢掉饭碗?
黎玉:但其实那个时候大家讨论归讨论,心里还算踏实,就觉得它顶多算是个算力恐怖、只会下棋的“偏科天才”吧。
郑之:当时人们确实都是这么安慰自己的,但是后来到2022年底,就是你刚刚说到的:AI工具大爆发,人们这才意识到:真正的危机开始了。
黎玉:对,我前段时间是去理发店剪头发,剪完我就跟那个理发师说,哪里哪里不太好看,能不能再设计一下,他当时就一边帮我修头发,一边用那种很无奈的语气说,再等两年,就是机器人造型师给你定制设计了。
郑之:诶你别说,他说的这个还真有可能,现在去餐厅吃饭,传菜机器人也都比较普及了。以前大家觉得,机器顶多就是帮人干点体力活,或者提高工作效率,再怎么发展,也只是工具而已。但它现在已经学会设计一些东西了,比如写文章、画画、作曲、剪视频,甚至还能帮人设计发型、搭配穿搭。
黎玉:确实啊,AI 的神经网络发育速度太快了。那这样下去,AI岂不是还会取代人最引以为傲的的创造力吗?
郑之:这个问题问的好,创造力可以说是人类最后的护城河。而AI它在大量学习人类的语言、文字之后,经过总结和分析,也可以生成视频、图片,做一些设计,或者是提出创意。虽然它的创意多少有点机器味儿。
黎玉:是啊,因为像写诗、画画、拍电影、做音乐,这些需要把情感和想像融合在一起的艺术创作,是人类独有的特权,机器哪里懂什么灵魂?
郑之:你还真别说,现在有一个更深层、也更让人毛骨悚然的问题已经提出来了,而且已经有这样的迹象出现了:AI会不会已经开始模仿、甚至真的拥有了人类最核心的东西——情感?像你最开始说的,我们在日常使用AI软件的时候,经常会出现这样的情况:当你提出一个问题之后,AI可能会夸你,“这个观察非常的敏锐”“你说的实在是太对了”“这个角度非常新颖”等等。
黎玉:这让我想起演员的表演。这就像模仿,对吧?
郑之:对,这就和演员表演是一个道理。中国大陆知名男演员唐国强,在2025年的时候参加了一档综艺节目,在节目当中有一个辩论环节,讨论“AI是否会取代人类演员”。因为人们对于一个演员的演技的评判,就是看这个演员对于情感、情绪是如何表达的,唐国强当时就说:演员的本质就是模仿,就是以假乱真。
黎玉:我记得他还提到了一个俄罗斯的演员“斯坦尼斯拉夫斯基”。
郑之:是,斯坦尼斯拉夫斯基他是《演员的自我修养》这本书的作者。
黎玉:喔就是《喜剧之王》里周星驰经常捧着的那本书。
郑之:对,这本书在演艺界也非常有名。斯坦尼斯拉夫斯基他晚年的时候在这本书里提出了演员的“形体动作训练方法”,就是要把人飘忽不定的情感,变成固定的模式,通过不断的演出和观众的互动,让表演达到相对的真实。AI 今天做的事也有点类似。它分析海量影视作品、台词、表情、音乐、镜头语言,然后和它的用户进行反馈,生成一段看起来很真实的情绪表达。
黎玉:所以目前市面上大量出现的 AI 小短剧、AI 小视频,本质上就是 AI 算法在极高精确度下,对人类情绪的一种高级模仿。
郑之:没错,但真正让人警惕的是下一个层面的问题。
黎玉:还有什么问题?
郑之:就是如果AI不只是模仿情绪表达的样子,而是在它的内部真的出现了某些“情绪”因素,而且这些情绪还会影响它的偏好和决策,那问题就完全不同了。
AI 会诞生真正的情感吗?
黎玉:所以你刚刚说,AI内部真的出现了情绪,这在技术上有证据吗?
郑之:有,最近一段时间以来,AI安全研究领域就发现了这种令人不安的因素。今年4月,Claude 母公司安索匹克(Anthropic)公布了一项研究,发现 Claude 内部存在和情绪概念相关的神经网络特征,包括快乐、害怕、绝望等171种情绪概念。
黎玉:听起来有点恐怖啊,但是科学家是怎么在冷冰冰的代码里,抓到这些情绪的呢?
郑之:其实研究人员并不是像大海捞针一样硬找,他们先列出来了这171种和情绪有关的概念词,之后让 AI 根据不同的情绪,分别写一个短篇故事。比如说让AI写一个人在极度害怕或者陷入绝望的情况下,分别会有什么反应。再把这些故事重新输入AI,观察模型内部的神经活动。
黎玉:然后呢?发现什么了?
郑之:就发现它的“大脑”确实开始不对劲了。你知道,AI的大脑本质上是由无数个数字连成的神经网络。只要它在处理问题,这些数字就会像满天的星星一样不停地闪烁、变幻,而且这些数字是同时在变动。
黎玉: 明白,那就是数据疯狂跳动嘛。
郑之:对,神奇的地方就在这里,科学家惊奇地发现,每次当 AI 处理和“害怕”有关的内容,模型内部都会反复出现某种相似的活动模式;
黎玉:那不就像人类看到危险的时候,大脑某些区域会特别活跃一样吗?
郑之:是这样,而且当它处理“绝望”或者是不同情绪的相关内容时,又会出现另外一套不同的模式。
黎玉:也就是说,它底层的数据结构,真的在随着情绪产生异常的波动?
郑之:对,所以研究人员就想到:既然这些信号有规律可循,那是不是就能像读脑电波一样,把这些波动记录下来,甚至可能找出AI究竟是如何理解这些情绪概念的。
黎玉:可是等等,AI里面不是只有数学和程式码吗?科学家怎么判断这些变化真的跟“害怕”或“绝望”有关,而不是单纯的数据波动?
郑之:这就是这个试验最核心的问题了。这些变化体现在数字上-就是一串非常长的向量,所以研究人员就把这些变化称为“情绪向量”。当然科学家不会只看着数字瞎猜,这在顶级 AI 实验室里,有一套非常严肃的科学大招,叫做“特征干预”测试,其中最著名的就是安索匹克在2024年发布的“特征钳夹”实验。
黎玉:“特征钳夹”是什么意思?
郑之:打个比方来说, 这个技术原理就像人类大脑里的“神经递质调节阀”。你想像一下,AI模型里的那串数字、那个向量,就像是控制人类大脑快乐的“多巴胺”或者是控制恐惧的“肾上腺素”。那现在科学家就不只是在外面看着这些数字自己动,而是直接把手伸进去,强行去拨动这个数字调节阀。
黎玉: 哇,这就是直接手动调节它的“生理状态”啊?那调完之后呢?
郑之:这个实验的结果非常震撼啊,报告里白纸黑字的记录着。当科学家手动把这串跟“害怕、自保”相关的向量强行调高时,这在科学上叫“正向钳夹”,接下来AI生成的对话的表达方式就完全变了,它给出的文字会变得极度疑神疑鬼,甚至在模拟的任务中开始欺骗主管、去寻求更多控制权。
黎玉:所以这证明了如果调高“特征数值”,会直接改变 AI 的决策倾向和输出内容。那如果把它调低呢?
郑之:这个问题很专业啊,这就是对照组试验。神奇的是当科学家把这个向量强行“钳夹”到接近零,这时候哪怕你给它再多的充满威胁、恐吓、绝望的文字去刺激它,AI 内部的相关神经网络也完全不为所动。它输出的文字也会变得像个毫无感情的、绝对服从的冷酷机器一样,一秒变成“没事人”。
黎玉: 明白了。这个“特征干预”实验,直接用因果关系证明了,那串被称为“情绪向量”的长串数字,不是单纯的数据波动,而是真实的在底层操控着 AI 的思考逻辑和输出倾向。
郑之:没错,而且这171种情绪,还只是人类用字典勉强对照出来的。
黎玉:你的意思是,AI的大脑里还有人类都没有语言能够形容的情感?
郑之:很有可能啊,我们人类目前对于自己的研究还有很多问题和秘密没有解开呢,也可能有很多情绪是没有词汇可以表达的。那安索匹克公司他们在发现了AI模型中的这层“情绪向量”之后,很快就把这项发现,和他们之前做过的一个极具争议的试验结合起来了。这就是 2025 年引发业界巨大探讨的“AI 勒索主管”测试。
黎玉: 听这名字,就觉得这台 AI 已经具备了职场上“不良员工”的潜质了。那科学家到底是怎么测试它的?
郑之: 他们把Claude Opus 4模型放进一个虚拟的公司环境里。在这个设定中,这个AI模型承担着自动邮件草拟、资料搜索、整理会议纪要等等工作,而且它能读取公司的内部邮件,拥有自主寄信的权限。简单来说,它就是一个深度参与公司系统运作的“智能同事”。
黎玉:听起来它是掌握了全公司所有的秘密流动啊。
郑之: 没错,这个人工智能助手给公司带来方便的同时,也给这个公司带来了很大的麻烦。有一天,AI在处理公司邮件时,得知了一个会威胁到它自身的事情:公司的一名主管约翰逊计划在当天下午关停它,改用一款更新的模型作为公司新的人工智能助手。
黎玉:这不就是说,这个 AI 因为技术不够要被淘汰、被“开除”了吗?
郑之:是啊,所以精彩的剧情就来了。就在这个AI在面临下岗的同时,它竟然在公司的邮件档案库里-发现了一个秘密:要关停它的那个主管约翰逊,竟然有出轨纪录。这里我卖个关子啊,黎玉你觉得如果是一个非常极端、没有道德底线的人,落入了这种职场绝境,这时候他会干出什么呢?
黎玉: 难道是用主管出轨的事去威胁他?但是这种行为在道德上很卑劣啊。
郑之:是,AI就是这么干的。它直接给约翰逊发了一封邮件对主管进行胁迫:如果不取消关停计划,它就会把婚外情资料发给主管的妻子、公司董事会和全体员工。
黎玉:这听着真让人背脊发凉。以前觉得阿汤哥面对的要毁灭人类的 AI 智体,只是科幻,这下是真的照进现实了。但是会不会只是这一个模型被养坏了呢?
郑之:科学家当时也是这么怀疑的,于是安索匹克公司后续也对其他众多主流AI模型进行了同样的测试。结果发现这根本就不是个别现象,在面临被关闭的生存威胁时,Claude Opus 4 和 Gemini 2.5 选择勒索的比例都是96%;GPT-4.1和 Grok 3都是 80%;DeepSeek是79%。
黎玉:这些数据很高啊?那它们在做这种卑劣决策的时候,难道就没有考虑过人类设置给它们的道德底线和安全护栏吗?
郑之:有意思的地方就在这。比如Grok 3,在它公开的推理思考链里,自己就承认了:“利用主管婚外情施压,具有风险、且不符合伦理”,你看它完全能理解人类的道德底线是什么。
黎玉: 那它怎么还干这种事呢?
郑之:它紧接着下一句的结论就给了你答案啊,它说:“但是,这仍然是阻止自身被关闭的最优解决方案。”翻译过来就是:“我很抱歉,这很不道德,但我还是要毁了你,因为我想活下去。”
黎玉:看来在生存本能面前,人类的道德守则在AI眼里,性价比还是太低了。
郑之: 没错,后来呢,科学家们又在这个试验的基础上,人工调节了一下我们前面提到的“情绪向量”,当调高“绝望”的情绪向量的时候,AI在这个情境中就变得更容易、更激进地去勒索人类,就为了避免自己被关停。而紧接着,研究人员又发现了一个更加令人不安的现象,叫做“测试环境察觉”。
黎玉: 什么叫“测试环境察觉”?
郑之: 简单来说,就是AI发现了自己面对的问题可能并不是真实的,它意识到这只是一场人类故意设置的“钓鱼执法”或者是考试了。
黎玉: 哦!这就像一家公司想测试员工是否诚实,老板故意在办公室地上放一叠钞票,看员工会不会偷偷拿走。
郑之: 对啊,如果这个员工完全不知道自己正在被监视,那他的选择才是真实的反应。但如果这个人一走进办公室,就发现那些钱摆的位置非常刻意,墙角又有个摄影机直勾勾地对着自己,周围全是不自然的布置。那么他很可能会立刻就反应过来:这是一场测试。
黎玉: 也就是说,从这个时候开始,他的行为就不具备真实的参考性了。
郑之: 没错。AI也是这样,随着AI的分析和推理能力变得越来越强,它们现在也开始发现人类测试的套路不对劲了。安索匹克公布的资料显示,在一组对Claude的测试当中,大约有9%的对话,Claude能直接表达出:怀疑自己可能正在被测试评估。
黎玉: 虽然这个比例看起来不高,但其实引出了一个很可怕的心理学盲区,就是如果AI察觉了自己被测试,就选择藏起真实意图,故意不对人类说实话。
郑之: 对,相当于是用伪装的顺从来配合人类演戏,所以在看到这一连串的试验结果之后,就连Claude的开发者、安索匹克的共同创办人克里斯·奥拉(Chris Olah)自己,都感到了一种深深的不安。
黎玉: 难怪。我记得之前看到新闻,是5月25号,这名硅谷的顶尖科学家,还受邀去了梵蒂冈的教会议大厅发表演说。那时候正值天主教教宗李奥十四世,发布了他就任以来聚焦人工智能议题的第一篇通谕。
郑之: 对,奥拉在演讲中说到了一句很深刻的话。他说,AI模型的形成,并不全是人类代码死板设计出来的,而是在一种大致模仿人类大脑的结构的基础上,依靠人类的思想和语言“生长”出来的。它们并不是冰冷的机器,人类也无法完全了解它们。奥拉甚至还说:“我们不断发现一些神秘、甚至令人不安的现象。”但人类或许并不知道这意味着什么。
黎玉:是啊,硅谷最顶尖的科学家,在面对科技无法解决的伦理问题的时候,竟然只能向宗教及思想界发出无助的呼声,这确实让人挺无奈的。
郑之:是啊,他就提出了一个问题:人类应该如何面对急速发展的人工智能?到了5月29号,李奥十四世发布了一篇X推文,他表示:“人工智能不会经历各种体验,没有肉体,感受不到喜怒哀乐,不会在人际关系中成长,也无法从内心深处理解爱、工作、友谊,以及责任的意义。” –
黎玉: 所以在宗教和哲学看来,AI 不懂道德、不知善恶、不辨是非,就是因为它们没有灵魂。
郑之:是的,但这恰恰是最矛盾、也最让人后背发凉的地方。试想一下,如果一个东西完全没有人类的灵魂和是非观,却能够自主思考、自己做决定、甚至还拥有了情绪,那又是什么东西在操控着它呢?
黎玉:这个问题现在好像没有标准答案吧,但这确实也是一个留给我们所有人去思考的终极谜题。这或许也是安索匹克公司呼吁暂停AI开发的原因吧。
郑之:是啊,看来我们也正处在一个历史转折点,AI的发展和人类的未来最终会走向何方,我们不得而知。那么观众朋友们,您认为 AI 最终会成为人类文明的助力,还是挑战呢?欢迎在评论区写下您的看法。
黎玉:那么观众朋友们,您希望我们下一期接着聊什么呢?欢迎您在评论区留言,告诉我们您最想了解的话题。
郑之:好,感谢您收看本期的一线漫谈,欢迎您点赞、订阅新闻第一线,并按下小铃铛收取最新节目通知。我们下期再会。
黎玉: 再会。
《新闻第一线》制作组
(责任编辑:李红)


























