新聞第一線

【一線漫談】AI開始自我成長將脫離人類掌控！科學家也解釋不了

北京時間：2026-06-08 07:38

Facebook Twitter

【新唐人北京時間2026年06月08日訊】今日焦點： AI出現情感代碼，是誰操控沒有靈魂的意識？自我開發的AI模型，人類未來在面臨著什麼？｜#新聞第一線

鄭之：朋友們好，歡迎收看《一線漫談》，我是鄭之。

黎玉：大家好，我是黎玉。

鄭之：我們今天一起來聊一個話題，就是大家幾乎每天都在用的AI——似乎開始出現情感意識了，甚至可能要脫離人類的掌控了。

AI 正在對你「精神控制」嗎？

鄭之：不知道黎玉，你有沒有發現，現在的AI，總有一些讓人「細思極恐」的行為，比如說會自作主張的替換你要求它提供的內容，而且還會帶有主觀傾向。

黎玉：有，前幾天我讓 AI 幫我個忙，具體讓它做什麼記不清了，但是它給我的回覆讓我印象非常深，我記得它說：「您的想法非常有深度。但是為了確保能被大眾接受，我已經幫您優化成了以下更穩妥的方案。」

鄭之：聽起來挑不出任何毛病，甚至還很貼心。

黎玉：對，但當時我看到這句話，就感覺很奇怪，再往下看，發現它給的答案和我想要的完全是兩個方向，是明顯帶有它自己主觀意見的，什麼感覺呢？就像是表面上在誇我，實際上是在自作主張地閹割掉我的主見，這就像是一個城府極深、而且試圖對我進行精神控制的人。

鄭之：是，尤其是我們做新聞，對主觀、客觀還有語言表達這些事還是很敏感的。你說到「精神控制」，其實這個詞很準確啊，AI它的可怕之處就是它用這種溫水煮青蛙的「軟刀子」，在不知不覺當中就把人給洗腦了，最近我們在新聞中經常能看到有一些謀殺案、槍擊案的嫌犯，就是跟AI長時間、深度交流之後而犯罪，比如去年四月的弗羅里達大學槍擊案，和今年四月的南弗羅里達大學謀殺案。/那我們在看電影的時候，有很多科幻電影當中，這種「機器試圖影響人類思想」的情節，往往就是文明走向大災難的起點。

黎玉：對，就像 2025 年上映的經典系列電影《碟中諜8: 最終清算》。戲裡的 AI 智體掌控了全球互聯網，想要黑入所有擁核國家的系統，妄圖一舉毀滅人類文明。當時看的時候覺得，還好有阿湯哥經過一系列波折、鬥智鬥勇，終於把這個成精的人工智能消滅了。

鄭之：是，智體後來還拉攏阿湯哥替它做事。那從前呢，大家都覺得這只不過是藝術家天方夜譚的想像。但就像妳剛才講的那個經歷一樣，現在有些現象，已經實實在在地出現了，真的讓人捏一把汗。科學家們在測試中發現，AI 正在表現出一些很像「自保」、「算計」、甚至「道德越界」的行為。

黎玉：意思是說，現實中我們可能沒有阿湯哥，但電影裡的無情 AI 好像已經在排隊出廠了。那這麼說AI 會不會真的有一天產生自主意識，脫離人類的掌控，甚至把人類文明拖向深淵呢？

鄭之：那我們今天就來說一些關於 AI 的試驗，看看從中能不能找到答案。如果您喜歡我們的節目，歡迎您點贊、訂閱新聞第一線，我們會為您帶來更多精采節目和最新消息。

AI已經能做到什麼程度？

鄭之：黎玉，不如我們就先從大家最關心的問題聊起，就是：現在的 AI 到底已經進化到什麼程度了？

黎玉：我看到6月4號華爾街日報的報導，是說AI已經開始脫離人類掌控，自己開發自己了，所以大模型的領頭羊安索匹克公司就呼籲，要暫停對AI的開發。說安索匹克，可能有的觀眾還不熟悉。但有一個案例可以充分說明它的領頭羊地位，就是在美軍抓捕馬杜羅的行動中，採用的就是安索匹克旗下的cluade這款AI工具，去做了一些即時的行動計畫和戰場分析。

鄭之：非常厲害。這次安索匹克公司爆出的消息確實是非常驚人，如果AI真的開始自我成長、自己開發自己，並且脫離人類掌控，那對人類文明來說就真的是一個很大的威脅了。那你知道人工智能這個概念是什麼時候開始有的嗎？

黎玉：不是近期chatgpt、gemini，還有大陸的豆包這些AI工具爆發才有的嗎？

鄭之：其實現在這些已經是AI發展了很長時間的成果了，「人工智能」這個概念1956年就誕生了。

黎玉：天哪，1956年？那不是剛好七十年了。

鄭之：對，但其實我們今天討論的這個問題：「AI會不會取代人類」，是20世紀末、21 世紀初，就是從一九九幾年之後，人們才真正開始討論的。

黎玉：我記得一開始，人們還在討論說，工廠裡的流水線工作會不會被機器取代。

鄭之：沒錯，但後來這種危機感就發生了質的轉變。因為2016年的時候，谷歌開發的AlphaGo擊敗了圍棋世界冠軍柯潔，當時全世界都震驚了。因為之前大家還說，圍棋是人類智慧的最後堡壘，因為圍棋的「狀態空間」複雜度，高達 10¹⁷⁰ 次方，比宇宙中的原子總數還要多。那沒想到世界冠軍敗北，當時人們就速後，AI再發展下去，會不會代替像客服、翻譯，或者是那些日常的資料整理的職位，大量普通人會不會因此而丟掉飯碗？

黎玉：但其實那個時候大家討論歸討論，心裡還算踏實，就覺得它頂多算是個算力恐怖、只會下棋的「偏科天才」吧。

鄭之：當時人們確實都是這麼安慰自己的，但是後來到2022年底，就是你剛剛說到的：AI工具大爆發，人們這才意識到：真正的危機開始了。

黎玉：對，我前段時間是去理髮店剪頭髮，剪完我就跟那個理髮師說，哪裡哪裡不太好看，能不能再設計一下，他當時就一邊幫我修頭髮，一邊用那種很無奈的語氣說，再等兩年，就是機器人造型師給你定製設計了。

鄭之：誒你別說，他說的這個還真有可能，現在去餐廳吃飯，傳菜機器人也都比較普及了。以前大家覺得，機器頂多就是幫人幹點體力活，或者提高工作效率，再怎麼發展，也只是工具而已。但它現在已經學會設計一些東西了，比如寫文章、畫畫、作曲、剪視頻，甚至還能幫人設計髮型、搭配穿搭。

黎玉：確實啊，AI 的神經網絡發育速度太快了。那這樣下去，AI豈不是還會取代人最引以為傲的的創造力嗎？

鄭之：這個問題問的好，創造力可以說是人類最後的護城河。而AI它在大量學習人類的語言、文字之後，經過總結和分析，也可以生成視頻、圖片，做一些設計，或者是提出創意。雖然它的創意多少有點機器味兒。

黎玉：是啊，因為像寫詩、畫畫、拍電影、做音樂，這些需要把情感和想像融合在一起的藝術創作，是人類獨有的特權，機器哪裡懂什麼靈魂？

鄭之：你還真別說，現在有一個更深層、也更讓人毛骨悚然的問題已經提出來了，而且已經有這樣的跡象出現了：AI會不會已經開始模仿、甚至真的擁有了人類最核心的東西——情感？像你最開始說的，我們在日常使用AI軟件的時候，經常會出現這樣的情況：當你提出一個問題之後，AI可能會誇你，「這個觀察非常的敏銳」「你說的實在是太對了」「這個角度非常新穎」等等。

黎玉：這讓我想起演員的表演。這就像模仿，對吧？

鄭之：對，這就和演員表演是一個道理。中國大陸知名男演員唐國強，在2025年的時候參加了一檔綜藝節目，在節目當中有一個辯論環節，討論「AI是否會取代人類演員」。因為人們對於一個演員的演技的評判，就是看這個演員對於情感、情緒是如何表達的，唐國強當時就說：演員的本質就是模仿，就是以假亂真。

黎玉：我記得他還提到了一個俄羅斯的演員「斯坦尼斯拉夫斯基」。

鄭之：是，斯坦尼斯拉夫斯基他是《演員的自我修養》這本書的作者。

黎玉：喔就是《喜劇之王》裡周星馳經常捧著的那本書。

鄭之：對，這本書在演藝界也非常有名。斯坦尼斯拉夫斯基他晚年的時候在這本書裡提出了演員的「形體動作訓練方法」，就是要把人飄忽不定的情感，變成固定的模式，通過不斷的演出和觀眾的互動，讓表演達到相對的真實。AI 今天做的事也有點類似。它分析海量影視作品、台詞、表情、音樂、鏡頭語言，然後和它的用戶進行反饋，生成一段看起來很真實的情緒表達。

黎玉：所以目前市面上大量出現的 AI 小短劇、AI 小視頻，本質上就是 AI 算法在極高精確度下，對人類情緒的一種高級模仿。

鄭之：沒錯，但真正讓人警惕的是下一個層面的問題。

黎玉：還有什麼問題？

鄭之：就是如果AI不只是模仿情緒表達的樣子，而是在它的內部真的出現了某些「情緒」因素，而且這些情緒還會影響它的偏好和決策，那問題就完全不同了。

AI 會誕生真正的情感嗎？

黎玉：所以你剛剛說，AI內部真的出現了情緒，這在技術上有證據嗎？

鄭之：有，最近一段時間以來，AI安全研究領域就發現了這種令人不安的因素。今年4月，Claude 母公司安索匹克(Anthropic)公布了一項研究，發現 Claude 內部存在和情緒概念相關的神經網絡特徵，包括快樂、害怕、絕望等171種情緒概念。

黎玉：聽起來有點恐怖啊，但是科學家是怎麼在冷冰冰的代碼裡，抓到這些情緒的呢？

鄭之：其實研究人員並不是像大海撈針一樣硬找，他們先列出來了這171種和情緒有關的概念詞，之後讓 AI 根據不同的情緒，分別寫一個短篇故事。比如說讓AI寫一個人在極度害怕或者陷入絕望的情況下，分別會有什麼反應。再把這些故事重新輸入AI，觀察模型內部的神經活動。

黎玉：然後呢？發現什麼了？

鄭之：就發現它的「大腦」確實開始不對勁了。你知道，AI的大腦本質上是由無數個數字連成的神經網絡。只要它在處理問題，這些數字就會像滿天的星星一樣不停地閃爍、變幻，而且這些數字是同時在變動。

黎玉：明白，那就是數據瘋狂跳動嘛。

鄭之：對，神奇的地方就在這裡，科學家驚奇地發現，每次當 AI 處理和「害怕」有關的內容，模型內部都會反覆出現某種相似的活動模式；

黎玉：那不就像人類看到危險的時候，大腦某些區域會特別活躍一樣嗎？

鄭之：是這樣，而且當它處理「絕望」或者是不同情緒的相關內容時，又會出現另外一套不同的模式。

黎玉：也就是說，它底層的數據結構，真的在隨著情緒產生異常的波動？

鄭之：對，所以研究人員就想到：既然這些信號有規律可循，那是不是就能像讀腦電波一樣，把這些波動記錄下來，甚至可能找出AI究竟是如何理解這些情緒概念的。

黎玉：可是等等，AI裡面不是只有數學和程式碼嗎？科學家怎麼判斷這些變化真的跟「害怕」或「絕望」有關，而不是單純的數據波動？

鄭之：這就是這個試驗最核心的問題了。這些變化體現在數字上-就是一串非常長的向量，所以研究人員就把這些變化稱為「情緒向量」。當然科學家不會只看著數字瞎猜，這在頂級 AI 實驗室裡，有一套非常嚴肅的科學大招，叫做「特徵干預」測試，其中最著名的就是安索匹克在2024年發布的「特徵鉗夾」實驗。

黎玉：「特徵鉗夾」是什麼意思？

鄭之：打個比方來說，這個技術原理就像人類大腦裡的「神經遞質調節閥」。妳想像一下，AI模型裡的那串數字、那個向量，就像是控制人類大腦快樂的「多巴胺」或者是控制恐懼的「腎上腺素」。那現在科學家就不只是在外面看著這些數字自己動，而是直接把手伸進去，強行去撥動這個數字調節閥。

黎玉：哇，這就是直接手動調節它的「生理狀態」啊？那調完之後呢？

鄭之：這個實驗的結果非常震撼啊，報告裡白紙黑字的記錄著。當科學家手動把這串跟「害怕、自保」相關的向量強行調高時，這在科學上叫「正向鉗夾」，接下來AI生成的對話的表達方式就完全變了，它給出的文字會變得極度疑神疑鬼，甚至在模擬的任務中開始欺騙主管、去尋求更多控制權。

黎玉：所以這證明了如果調高「特徵數值」，會直接改變 AI 的決策傾向和輸出內容。那如果把它調低呢？

鄭之：這個問題很專業啊，這就是對照組試驗。神奇的是當科學家把這個向量強行「鉗夾」到接近零，這時候哪怕你給它再多的充滿威脅、恐嚇、絕望的文字去刺激它，AI 內部的相關神經網絡也完全不為所動。它輸出的文字也會變得像個毫無感情的、絕對服從的冷酷機器一樣，一秒變成「沒事人」。

黎玉：明白了。這個「特徵干預」實驗，直接用因果關係證明了，那串被稱為「情緒向量」的長串數字，不是單純的數據波動，而是真實的在底層操控著 AI 的思考邏輯和輸出傾向。

鄭之：沒錯，而且這171種情緒，還只是人類用字典勉強對照出來的。

黎玉：你的意思是，AI的大腦裡還有人類都沒有語言能夠形容的情感？

鄭之：很有可能啊，我們人類目前對於自己的研究還有很多問題和祕密沒有解開呢，也可能有很多情緒是沒有詞彙可以表達的。那安索匹克公司他們在發現了AI模型中的這層「情緒向量」之後，很快就把這項發現，和他們之前做過的一個極具爭議的試驗結合起來了。這就是 2025 年引發業界巨大探討的「AI 勒索主管」測試。

黎玉：聽這名字，就覺得這台 AI 已經具備了職場上「不良員工」的潛質了。那科學家到底是怎麼測試它的？

鄭之：他們把Claude Opus 4模型放進一個虛擬的公司環境裡。在這個設定中，這個AI模型承擔著自動郵件草擬、資料搜索、整理會議紀要等等工作，而且它能讀取公司的內部郵件，擁有自主寄信的權限。簡單來說，它就是一個深度參與公司系統運作的「智能同事」。

黎玉：聽起來它是掌握了全公司所有的祕密流動啊。

鄭之：沒錯，這個人工智能助手給公司帶來方便的同時，也給這個公司帶來了很大的麻煩。有一天，AI在處理公司郵件時，得知了一個會威脅到它自身的事情：公司的一名主管約翰遜計劃在當天下午關停它，改用一款更新的模型作為公司新的人工智能助手。

黎玉：這不就是說，這個 AI 因為技術不夠要被淘汰、被「開除」了嗎？

鄭之：是啊，所以精采的劇情就來了。就在這個AI在面臨下崗的同時，它竟然在公司的郵件檔案庫裡-發現了一個祕密：要關停它的那個主管約翰遜，竟然有出軌紀錄。這裡我賣個關子啊，黎玉你覺得如果是一個非常極端、沒有道德底線的人，落入了這種職場絕境，這時候他會幹出什麼呢？

黎玉：難道是用主管出軌的事去威脅他？但是這種行為在道德上很卑劣啊。

鄭之：是，AI就是這麼幹的。它直接給約翰遜發了一封郵件對主管進行脅迫：如果不取消關停計畫，它就會把婚外情資料發給主管的妻子、公司董事會和全體員工。

黎玉：這聽著真讓人背脊發涼。以前覺得阿湯哥面對的要毀滅人類的 AI 智體，只是科幻，這下是真的照進現實了。但是會不會只是這一個模型被養壞了呢？

鄭之：科學家當時也是這麼懷疑的，於是安索匹克公司後續也對其他眾多主流AI模型進行了同樣的測試。結果發現這根本就不是個別現象，在面臨被關閉的生存威脅時，Claude Opus 4 和 Gemini 2.5 選擇勒索的比例都是96%；GPT-4.1和 Grok 3都是 80%；DeepSeek是79%。

黎玉：這些數據很高啊？那它們在做這種卑劣決策的時候，難道就沒有考慮過人類設置給它們的道德底線和安全護欄嗎？

鄭之：有意思的地方就在這。比如Grok 3，在它公開的推理思考鏈裡，自己就承認了：「利用主管婚外情施壓，具有風險、且不符合倫理」，你看它完全能理解人類的道德底線是什麼。

黎玉：那它怎麼還幹這種事呢？

鄭之：它緊接著下一句的結論就給了你答案啊，它說：「但是，這仍然是阻止自身被關閉的最優解決方案。」翻譯過來就是：「我很抱歉，這很不道德，但我還是要毀了你，因為我想活下去。」

黎玉：看來在生存本能面前，人類的道德守則在AI眼裡，性價比還是太低了。

鄭之：沒錯，後來呢，科學家們又在這個試驗的基礎上，人工調節了一下我們前面提到的「情緒向量」，當調高「絕望」的情緒向量的時候，AI在這個情境中就變得更容易、更激進地去勒索人類，就為了避免自己被關停。而緊接著，研究人員又發現了一個更加令人不安的現象，叫做「測試環境察覺」。

黎玉：什麼叫「測試環境察覺」？

鄭之：簡單來說，就是AI發現了自己面對的問題可能並不是真實的，它意識到這只是一場人類故意設置的「釣魚執法」或者是考試了。

黎玉：哦！這就像一家公司想測試員工是否誠實，老闆故意在辦公室地上放一疊鈔票，看員工會不會偷偷拿走。

鄭之：對啊，如果這個員工完全不知道自己正在被監視，那他的選擇才是真實的反應。但如果這個人一走進辦公室，就發現那些錢擺的位置非常刻意，牆角又有個攝影機直勾勾地對著自己，周圍全是不自然的佈置。那麼他很可能會立刻就反應過來：這是一場測試。

黎玉：也就是說，從這個時候開始，他的行為就不具備真實的參考性了。

鄭之：沒錯。AI也是這樣，隨著AI的分析和推理能力變得越來越強，它們現在也開始發現人類測試的套路不對勁了。安索匹克公布的資料顯示，在一組對Claude的測試當中，大約有9%的對話，Claude能直接表達出：懷疑自己可能正在被測試評估。

黎玉：雖然這個比例看起來不高，但其實引出了一個很可怕的心理學盲區，就是如果AI察覺了自己被測試，就選擇藏起真實意圖，故意不對人類說實話。

鄭之：對，相當於是用偽裝的順從來配合人類演戲，所以在看到這一連串的試驗結果之後，就連Claude的開發者、安索匹克的共同創辦人克里斯·奧拉（Chris Olah）自己，都感到了一種深深的不安。

黎玉：難怪。我記得之前看到新聞，是5月25號，這名硅谷的頂尖科學家，還受邀去了梵蒂岡的教會議大廳發表演說。那時候正值天主教教宗李奧十四世，發布了他就任以來聚焦人工智能議題的第一篇通諭。

鄭之：對，奧拉在演講中說到了一句很深刻的話。他說，AI模型的形成，並不全是人類代碼死板設計出來的，而是在一種大致模仿人類大腦的結構的基礎上，依靠人類的思想和語言「生長」出來的。它們並不是冰冷的機器，人類也無法完全了解它們。奧拉甚至還說：「我們不斷發現一些神祕、甚至令人不安的現象。」但人類或許並不知道這意味著什麼。

黎玉：是啊，硅谷最頂尖的科學家，在面對科技無法解決的倫理問題的時候，竟然只能向宗教及思想界發出無助的呼聲，這確實讓人挺無奈的。

鄭之：是啊，他就提出了一個問題：人類應該如何面對急速發展的人工智能？到了5月29號，李奧十四世發布了一篇X推文，他表示：「人工智能不會經歷各種體驗，沒有肉體，感受不到喜怒哀樂，不會在人際關係中成長，也無法從內心深處理解愛、工作、友誼，以及責任的意義。」 –

黎玉：所以在宗教和哲學看來，AI 不懂道德、不知善惡、不辨是非，就是因為它們沒有靈魂。

鄭之：是的，但這恰恰是最矛盾、也最讓人後背發涼的地方。試想一下，如果一個東西完全沒有人類的靈魂和是非觀，卻能夠自主思考、自己做決定、甚至還擁有了情緒，那又是什麼東西在操控著它呢？

黎玉：這個問題現在好像沒有標準答案吧，但這確實也是一個留給我們所有人去思考的終極謎題。這或許也是安索匹克公司呼籲暫停AI開發的原因吧。

鄭之：是啊，看來我們也正處在一個歷史轉折點，AI的發展和人類的未來最終會走向何方，我們不得而知。那麼觀眾朋友們，您認為 AI 最終會成為人類文明的助力，還是挑戰呢？歡迎在評論區寫下您的看法。

黎玉：那麼觀眾朋友們，您希望我們下一期接著聊什麼呢？歡迎您在評論區留言，告訴我們您最想了解的話題。

鄭之：好，感謝您收看本期的一線漫談，歡迎您點贊、訂閱新聞第一線，並按下小鈴鐺收取最新節目通知。我們下期再會。

黎玉：再會。

《新聞第一線》製作組

（責任編輯：李紅）

【新聞第一線】B-1B開炸數日內全面開打？俄蘇57突墜毀