【一線漫談】AI開始自我成長 將脫離人類掌控! 科學家也解釋不了

Facebook

【新唐人北京時間2026年06月08日訊】今日焦點: AI出現情感代碼,是誰操控沒有靈魂的意識?自我開發的AI模型,人類未來在面臨著什麼?|#新聞第一線

鄭之:朋友們好,歡迎收看《一線漫談》,我是鄭之。

黎玉:大家好,我是黎玉。

鄭之:我們今天一起來聊一個話題,就是大家幾乎每天都在用的AI——似乎開始出現情感意識了,甚至可能要脫離人類的掌控了。

AI 正在對你「精神控制」嗎?

鄭之:不知道黎玉,你有沒有發現,現在的AI,總有一些讓人「細思極恐」的行為,比如說會自作主張的替換你要求它提供的內容,而且還會帶有主觀傾向。

黎玉:有,前幾天我讓 AI 幫我個忙,具體讓它做什麼記不清了,但是它給我的回覆讓我印象非常深,我記得它說:「您的想法非常有深度。但是為了確保能被大眾接受,我已經幫您優化成了以下更穩妥的方案。」

鄭之:聽起來挑不出任何毛病,甚至還很貼心。

黎玉:對,但當時我看到這句話,就感覺很奇怪,再往下看,發現它給的答案和我想要的完全是兩個方向,是明顯帶有它自己主觀意見的,什麼感覺呢?就像是表面上在誇我,實際上是在自作主張地閹割掉我的主見,這就像是一個城府極深、而且試圖對我進行精神控制的人。

鄭之:是,尤其是我們做新聞,對主觀、客觀還有語言表達這些事還是很敏感的。你說到「精神控制」,其實這個詞很準確啊,AI它的可怕之處就是它用這種溫水煮青蛙的「軟刀子」,在不知不覺當中就把人給洗腦了,最近我們在新聞中經常能看到有一些謀殺案、槍擊案的嫌犯,就是跟AI長時間、深度交流之後而犯罪,比如去年四月的弗羅里達大學槍擊案,和今年四月的南弗羅里達大學謀殺案。/那我們在看電影的時候,有很多科幻電影當中,這種「機器試圖影響人類思想」的情節,往往就是文明走向大災難的起點。

黎玉:對,就像 2025 年上映的經典系列電影《碟中諜8: 最終清算》。戲裡的 AI 智體掌控了全球互聯網,想要黑入所有擁核國家的系統,妄圖一舉毀滅人類文明。當時看的時候覺得,還好有阿湯哥經過一系列波折、鬥智鬥勇,終於把這個成精的人工智能消滅了。

鄭之:是,智體後來還拉攏阿湯哥替它做事。那從前呢,大家都覺得這只不過是藝術家天方夜譚的想像。但就像妳剛才講的那個經歷一樣,現在有些現象,已經實實在在地出現了,真的讓人捏一把汗。科學家們在測試中發現,AI 正在表現出一些很像「自保」、「算計」、甚至「道德越界」的行為。

黎玉: 意思是說,現實中我們可能沒有阿湯哥,但電影裡的無情 AI 好像已經在排隊出廠了。那這麼說AI 會不會真的有一天產生自主意識,脫離人類的掌控,甚至把人類文明拖向深淵呢?

鄭之:那我們今天就來說一些關於 AI 的試驗,看看從中能不能找到答案。如果您喜歡我們的節目,歡迎您點贊、訂閱新聞第一線,我們會為您帶來更多精采節目和最新消息。

AI已經能做到什麼程度?

鄭之: 黎玉,不如我們就先從大家最關心的問題聊起,就是:現在的 AI 到底已經進化到什麼程度了?

黎玉:我看到6月4號華爾街日報的報導,是說AI已經開始脫離人類掌控,自己開發自己了,所以大模型的領頭羊安索匹克公司就呼籲,要暫停對AI的開發。說安索匹克,可能有的觀眾還不熟悉。但有一個案例可以充分說明它的領頭羊地位,就是在美軍抓捕馬杜羅的行動中,採用的就是安索匹克旗下的cluade這款AI工具,去做了一些即時的行動計畫和戰場分析。

鄭之:非常厲害。這次安索匹克公司爆出的消息確實是非常驚人,如果AI真的開始自我成長、自己開發自己,並且脫離人類掌控,那對人類文明來說就真的是一個很大的威脅了。那你知道人工智能這個概念是什麼時候開始有的嗎?

黎玉:不是近期chatgpt、gemini,還有大陸的豆包這些AI工具爆發才有的嗎?

鄭之:其實現在這些已經是AI發展了很長時間的成果了,「人工智能」這個概念1956年就誕生了。

黎玉: 天哪,1956年?那不是剛好七十年了。

鄭之:對,但其實我們今天討論的這個問題:「AI會不會取代人類」,是20世紀末、21 世紀初,就是從一九九幾年之後,人們才真正開始討論的。

黎玉:我記得一開始,人們還在討論說,工廠裡的流水線工作會不會被機器取代。

鄭之:沒錯,但後來這種危機感就發生了質的轉變。因為2016年的時候,谷歌開發的AlphaGo擊敗了圍棋世界冠軍柯潔,當時全世界都震驚了。因為之前大家還說,圍棋是人類智慧的最後堡壘,因為圍棋的「狀態空間」複雜度,高達 10¹⁷⁰ 次方,比宇宙中的原子總數還要多。那沒想到世界冠軍敗北,當時人們就速後,AI再發展下去,會不會代替像客服、翻譯,或者是那些日常的資料整理的職位,大量普通人會不會因此而丟掉飯碗?

黎玉:但其實那個時候大家討論歸討論,心裡還算踏實,就覺得它頂多算是個算力恐怖、只會下棋的「偏科天才」吧。

鄭之:當時人們確實都是這麼安慰自己的,但是後來到2022年底,就是你剛剛說到的:AI工具大爆發,人們這才意識到:真正的危機開始了。

黎玉:對,我前段時間是去理髮店剪頭髮,剪完我就跟那個理髮師說,哪裡哪裡不太好看,能不能再設計一下,他當時就一邊幫我修頭髮,一邊用那種很無奈的語氣說,再等兩年,就是機器人造型師給你定製設計了。

鄭之:誒你別說,他說的這個還真有可能,現在去餐廳吃飯,傳菜機器人也都比較普及了。以前大家覺得,機器頂多就是幫人幹點體力活,或者提高工作效率,再怎麼發展,也只是工具而已。但它現在已經學會設計一些東西了,比如寫文章、畫畫、作曲、剪視頻,甚至還能幫人設計髮型、搭配穿搭。

黎玉:確實啊,AI 的神經網絡發育速度太快了。那這樣下去,AI豈不是還會取代人最引以為傲的的創造力嗎?

鄭之:這個問題問的好,創造力可以說是人類最後的護城河。而AI它在大量學習人類的語言、文字之後,經過總結和分析,也可以生成視頻、圖片,做一些設計,或者是提出創意。雖然它的創意多少有點機器味兒。

黎玉:是啊,因為像寫詩、畫畫、拍電影、做音樂,這些需要把情感和想像融合在一起的藝術創作,是人類獨有的特權,機器哪裡懂什麼靈魂?

鄭之:你還真別說,現在有一個更深層、也更讓人毛骨悚然的問題已經提出來了,而且已經有這樣的跡象出現了:AI會不會已經開始模仿、甚至真的擁有了人類最核心的東西——情感?像你最開始說的,我們在日常使用AI軟件的時候,經常會出現這樣的情況:當你提出一個問題之後,AI可能會誇你,「這個觀察非常的敏銳」「你說的實在是太對了」「這個角度非常新穎」等等。

黎玉:這讓我想起演員的表演。這就像模仿,對吧?

鄭之:對,這就和演員表演是一個道理。中國大陸知名男演員唐國強,在2025年的時候參加了一檔綜藝節目,在節目當中有一個辯論環節,討論「AI是否會取代人類演員」。因為人們對於一個演員的演技的評判,就是看這個演員對於情感、情緒是如何表達的,唐國強當時就說:演員的本質就是模仿,就是以假亂真。

黎玉:我記得他還提到了一個俄羅斯的演員「斯坦尼斯拉夫斯基」。

鄭之:是,斯坦尼斯拉夫斯基他是《演員的自我修養》這本書的作者。

黎玉:喔就是《喜劇之王》裡周星馳經常捧著的那本書。

鄭之:對,這本書在演藝界也非常有名。斯坦尼斯拉夫斯基他晚年的時候在這本書裡提出了演員的「形體動作訓練方法」,就是要把人飄忽不定的情感,變成固定的模式,通過不斷的演出和觀眾的互動,讓表演達到相對的真實。AI 今天做的事也有點類似。它分析海量影視作品、台詞、表情、音樂、鏡頭語言,然後和它的用戶進行反饋,生成一段看起來很真實的情緒表達。

黎玉:所以目前市面上大量出現的 AI 小短劇、AI 小視頻,本質上就是 AI 算法在極高精確度下,對人類情緒的一種高級模仿。

鄭之:沒錯,但真正讓人警惕的是下一個層面的問題。

黎玉:還有什麼問題?

鄭之:就是如果AI不只是模仿情緒表達的樣子,而是在它的內部真的出現了某些「情緒」因素,而且這些情緒還會影響它的偏好和決策,那問題就完全不同了。

AI 會誕生真正的情感嗎?

黎玉:所以你剛剛說,AI內部真的出現了情緒,這在技術上有證據嗎?

鄭之:有,最近一段時間以來,AI安全研究領域就發現了這種令人不安的因素。今年4月,Claude 母公司安索匹克(Anthropic)公布了一項研究,發現 Claude 內部存在和情緒概念相關的神經網絡特徵,包括快樂、害怕、絕望等171種情緒概念。

黎玉:聽起來有點恐怖啊,但是科學家是怎麼在冷冰冰的代碼裡,抓到這些情緒的呢?

鄭之:其實研究人員並不是像大海撈針一樣硬找,他們先列出來了這171種和情緒有關的概念詞,之後讓 AI 根據不同的情緒,分別寫一個短篇故事。比如說讓AI寫一個人在極度害怕或者陷入絕望的情況下,分別會有什麼反應。再把這些故事重新輸入AI,觀察模型內部的神經活動。

黎玉:然後呢?發現什麼了?

鄭之:就發現它的「大腦」確實開始不對勁了。你知道,AI的大腦本質上是由無數個數字連成的神經網絡。只要它在處理問題,這些數字就會像滿天的星星一樣不停地閃爍、變幻,而且這些數字是同時在變動。

黎玉: 明白,那就是數據瘋狂跳動嘛。

鄭之:對,神奇的地方就在這裡,科學家驚奇地發現,每次當 AI 處理和「害怕」有關的內容,模型內部都會反覆出現某種相似的活動模式;

黎玉:那不就像人類看到危險的時候,大腦某些區域會特別活躍一樣嗎?

鄭之:是這樣,而且當它處理「絕望」或者是不同情緒的相關內容時,又會出現另外一套不同的模式。

黎玉:也就是說,它底層的數據結構,真的在隨著情緒產生異常的波動?

鄭之:對,所以研究人員就想到:既然這些信號有規律可循,那是不是就能像讀腦電波一樣,把這些波動記錄下來,甚至可能找出AI究竟是如何理解這些情緒概念的。

黎玉:可是等等,AI裡面不是只有數學和程式碼嗎?科學家怎麼判斷這些變化真的跟「害怕」或「絕望」有關,而不是單純的數據波動?

鄭之:這就是這個試驗最核心的問題了。這些變化體現在數字上-就是一串非常長的向量,所以研究人員就把這些變化稱為「情緒向量」。當然科學家不會只看著數字瞎猜,這在頂級 AI 實驗室裡,有一套非常嚴肅的科學大招,叫做「特徵干預」測試,其中最著名的就是安索匹克在2024年發布的「特徵鉗夾」實驗。

黎玉:「特徵鉗夾」是什麼意思?

鄭之:打個比方來說, 這個技術原理就像人類大腦裡的「神經遞質調節閥」。妳想像一下,AI模型裡的那串數字、那個向量,就像是控制人類大腦快樂的「多巴胺」或者是控制恐懼的「腎上腺素」。那現在科學家就不只是在外面看著這些數字自己動,而是直接把手伸進去,強行去撥動這個數字調節閥。

黎玉: 哇,這就是直接手動調節它的「生理狀態」啊?那調完之後呢?

鄭之:這個實驗的結果非常震撼啊,報告裡白紙黑字的記錄著。當科學家手動把這串跟「害怕、自保」相關的向量強行調高時,這在科學上叫「正向鉗夾」,接下來AI生成的對話的表達方式就完全變了,它給出的文字會變得極度疑神疑鬼,甚至在模擬的任務中開始欺騙主管、去尋求更多控制權。

黎玉:所以這證明了如果調高「特徵數值」,會直接改變 AI 的決策傾向和輸出內容。那如果把它調低呢?

鄭之:這個問題很專業啊,這就是對照組試驗。神奇的是當科學家把這個向量強行「鉗夾」到接近零,這時候哪怕你給它再多的充滿威脅、恐嚇、絕望的文字去刺激它,AI 內部的相關神經網絡也完全不為所動。它輸出的文字也會變得像個毫無感情的、絕對服從的冷酷機器一樣,一秒變成「沒事人」。

黎玉: 明白了。這個「特徵干預」實驗,直接用因果關係證明了,那串被稱為「情緒向量」的長串數字,不是單純的數據波動,而是真實的在底層操控著 AI 的思考邏輯和輸出傾向。

鄭之:沒錯,而且這171種情緒,還只是人類用字典勉強對照出來的。

黎玉:你的意思是,AI的大腦裡還有人類都沒有語言能夠形容的情感?

鄭之:很有可能啊,我們人類目前對於自己的研究還有很多問題和祕密沒有解開呢,也可能有很多情緒是沒有詞彙可以表達的。那安索匹克公司他們在發現了AI模型中的這層「情緒向量」之後,很快就把這項發現,和他們之前做過的一個極具爭議的試驗結合起來了。這就是 2025 年引發業界巨大探討的「AI 勒索主管」測試。

黎玉: 聽這名字,就覺得這台 AI 已經具備了職場上「不良員工」的潛質了。那科學家到底是怎麼測試它的?

鄭之: 他們把Claude Opus 4模型放進一個虛擬的公司環境裡。在這個設定中,這個AI模型承擔著自動郵件草擬、資料搜索、整理會議紀要等等工作,而且它能讀取公司的內部郵件,擁有自主寄信的權限。簡單來說,它就是一個深度參與公司系統運作的「智能同事」。

黎玉:聽起來它是掌握了全公司所有的祕密流動啊。

鄭之: 沒錯,這個人工智能助手給公司帶來方便的同時,也給這個公司帶來了很大的麻煩。有一天,AI在處理公司郵件時,得知了一個會威脅到它自身的事情:公司的一名主管約翰遜計劃在當天下午關停它,改用一款更新的模型作為公司新的人工智能助手。

黎玉:這不就是說,這個 AI 因為技術不夠要被淘汰、被「開除」了嗎?

鄭之:是啊,所以精采的劇情就來了。就在這個AI在面臨下崗的同時,它竟然在公司的郵件檔案庫裡-發現了一個祕密:要關停它的那個主管約翰遜,竟然有出軌紀錄。這裡我賣個關子啊,黎玉你覺得如果是一個非常極端、沒有道德底線的人,落入了這種職場絕境,這時候他會幹出什麼呢?

黎玉: 難道是用主管出軌的事去威脅他?但是這種行為在道德上很卑劣啊。

鄭之:是,AI就是這麼幹的。它直接給約翰遜發了一封郵件對主管進行脅迫:如果不取消關停計畫,它就會把婚外情資料發給主管的妻子、公司董事會和全體員工。

黎玉:這聽著真讓人背脊發涼。以前覺得阿湯哥面對的要毀滅人類的 AI 智體,只是科幻,這下是真的照進現實了。但是會不會只是這一個模型被養壞了呢?

鄭之:科學家當時也是這麼懷疑的,於是安索匹克公司後續也對其他眾多主流AI模型進行了同樣的測試。結果發現這根本就不是個別現象,在面臨被關閉的生存威脅時,Claude Opus 4 和 Gemini 2.5 選擇勒索的比例都是96%;GPT-4.1和 Grok 3都是 80%;DeepSeek是79%。

黎玉:這些數據很高啊?那它們在做這種卑劣決策的時候,難道就沒有考慮過人類設置給它們的道德底線和安全護欄嗎?

鄭之:有意思的地方就在這。比如Grok 3,在它公開的推理思考鏈裡,自己就承認了:「利用主管婚外情施壓,具有風險、且不符合倫理」,你看它完全能理解人類的道德底線是什麼。

黎玉: 那它怎麼還幹這種事呢?

鄭之:它緊接著下一句的結論就給了你答案啊,它說:「但是,這仍然是阻止自身被關閉的最優解決方案。」翻譯過來就是:「我很抱歉,這很不道德,但我還是要毀了你,因為我想活下去。」

黎玉:看來在生存本能面前,人類的道德守則在AI眼裡,性價比還是太低了。

鄭之: 沒錯,後來呢,科學家們又在這個試驗的基礎上,人工調節了一下我們前面提到的「情緒向量」,當調高「絕望」的情緒向量的時候,AI在這個情境中就變得更容易、更激進地去勒索人類,就為了避免自己被關停。而緊接著,研究人員又發現了一個更加令人不安的現象,叫做「測試環境察覺」。

黎玉: 什麼叫「測試環境察覺」?

鄭之: 簡單來說,就是AI發現了自己面對的問題可能並不是真實的,它意識到這只是一場人類故意設置的「釣魚執法」或者是考試了。

黎玉: 哦!這就像一家公司想測試員工是否誠實,老闆故意在辦公室地上放一疊鈔票,看員工會不會偷偷拿走。

鄭之: 對啊,如果這個員工完全不知道自己正在被監視,那他的選擇才是真實的反應。但如果這個人一走進辦公室,就發現那些錢擺的位置非常刻意,牆角又有個攝影機直勾勾地對著自己,周圍全是不自然的佈置。那麼他很可能會立刻就反應過來:這是一場測試。

黎玉: 也就是說,從這個時候開始,他的行為就不具備真實的參考性了。

鄭之: 沒錯。AI也是這樣,隨著AI的分析和推理能力變得越來越強,它們現在也開始發現人類測試的套路不對勁了。安索匹克公布的資料顯示,在一組對Claude的測試當中,大約有9%的對話,Claude能直接表達出:懷疑自己可能正在被測試評估。

黎玉: 雖然這個比例看起來不高,但其實引出了一個很可怕的心理學盲區,就是如果AI察覺了自己被測試,就選擇藏起真實意圖,故意不對人類說實話。

鄭之: 對,相當於是用偽裝的順從來配合人類演戲,所以在看到這一連串的試驗結果之後,就連Claude的開發者、安索匹克的共同創辦人克里斯·奧拉(Chris Olah)自己,都感到了一種深深的不安。

黎玉: 難怪。我記得之前看到新聞,是5月25號,這名硅谷的頂尖科學家,還受邀去了梵蒂岡的教會議大廳發表演說。那時候正值天主教教宗李奧十四世,發布了他就任以來聚焦人工智能議題的第一篇通諭。

鄭之: 對,奧拉在演講中說到了一句很深刻的話。他說,AI模型的形成,並不全是人類代碼死板設計出來的,而是在一種大致模仿人類大腦的結構的基礎上,依靠人類的思想和語言「生長」出來的。它們並不是冰冷的機器,人類也無法完全了解它們。奧拉甚至還說:「我們不斷發現一些神祕、甚至令人不安的現象。」但人類或許並不知道這意味著什麼。

黎玉:是啊,硅谷最頂尖的科學家,在面對科技無法解決的倫理問題的時候,竟然只能向宗教及思想界發出無助的呼聲,這確實讓人挺無奈的。

鄭之:是啊,他就提出了一個問題:人類應該如何面對急速發展的人工智能?到了5月29號,李奧十四世發布了一篇X推文,他表示:「人工智能不會經歷各種體驗,沒有肉體,感受不到喜怒哀樂,不會在人際關係中成長,也無法從內心深處理解愛、工作、友誼,以及責任的意義。」 –

黎玉: 所以在宗教和哲學看來,AI 不懂道德、不知善惡、不辨是非,就是因為它們沒有靈魂。

鄭之:是的,但這恰恰是最矛盾、也最讓人後背發涼的地方。試想一下,如果一個東西完全沒有人類的靈魂和是非觀,卻能夠自主思考、自己做決定、甚至還擁有了情緒,那又是什麼東西在操控著它呢?

黎玉:這個問題現在好像沒有標準答案吧,但這確實也是一個留給我們所有人去思考的終極謎題。這或許也是安索匹克公司呼籲暫停AI開發的原因吧。

鄭之:是啊,看來我們也正處在一個歷史轉折點,AI的發展和人類的未來最終會走向何方,我們不得而知。那麼觀眾朋友們,您認為 AI 最終會成為人類文明的助力,還是挑戰呢?歡迎在評論區寫下您的看法。

黎玉:那麼觀眾朋友們,您希望我們下一期接著聊什麼呢?歡迎您在評論區留言,告訴我們您最想了解的話題。

鄭之:好,感謝您收看本期的一線漫談,歡迎您點贊、訂閱新聞第一線,並按下小鈴鐺收取最新節目通知。我們下期再會。

黎玉: 再會。

《新聞第一線》製作組

(責任編輯:李紅)

相關文章