【新唐人北京時間2026年05月20日訊】華爾街日報稱,上週,《自然》雜誌發布一篇研究論文。其中顯示,美國多所大學的研究人員,首次發表了經過同行評審的證據,顯示中共官方控制的媒體內容,已經大量進入全球主流人工智能聊天機器人的訓練數據。
這項研究由俄勒岡大學、普渡大學、紐約大學、普林斯頓大學等機構的學者共同完成。研究發現,包括新華社、《人民日報》以及「學習強國」等中共官方內容,如今已經明確存在於ChatGPT等AI系統的記憶中。
研究人員分析了目前全球最大的中文開源資料庫之一「CulturaX」。這個資料庫包含大約1.89億份從中文網抓取的文檔,被許多AI實驗室用於訓練模型。
從整體來看,其中有1.64%的內容與中共官方媒體重疊。這個比例看上去似乎不高,但如果涉及習近平、中共黨代會等主題,中共官方媒體的內容佔比會飆升到接近四分之一。
更引發關注的是,研究人員測試多個主流AI聊天機器人後發現,同樣的問題,用中文回答比英文回答更偏向北京立場。
研究團隊找來9名不知情的評估者來參與實驗,結果顯示,在75%以上的案例中,中文回答比英文更「親北京」。
論文還點名,包括OpenAI的GPT、Google的Gemini、Anthropic的Claude,以及馬斯克旗下的Grok,都存在類似現象。
而中國本土AI模型DeepSeek則不同,無論用中英文回答,其立場都明顯偏向於北京。
最值得警惕的是,這個過程並不需要中共進行秘密操作。因為這些宣傳內容本來就公開存在於互聯網上,以普通HTML頁面形式免費開放,任何AI公司的網絡爬蟲都可以輕易抓取。
相比之下,許多西方獨立媒體因為採用付費訂閱模式,反而更難進入AI訓練系統。
研究還發現,這種現象並不僅限於中國。在新聞自由度較低的國家,比如俄羅斯和朝鮮,AI系統更容易生成偏向於當地政府的內容。
有學者警告,未來真正值得擔憂的,不只是宣傳內容進入AI,而是AI回答往往不會標注信息來源。用戶很難知道,這些觀點究竟來自於獨立信息,還是獨裁政府的宣傳。
《新聞直擊》製作組
(責任編輯:劉明)









