Chatbot正加速華語文明崩解

洪子偉 2023年05月03日 07:00:00
在牆內,大量符合北京意識形態的文本被用來訓練Chatbot,成為十億網民的知識來源。(美聯社)

在牆內,大量符合北京意識形態的文本被用來訓練Chatbot,成為十億網民的知識來源。(美聯社)

中國長期箝制言論,卻又壟斷了全球華語出版市場。在牆內,大量符合北京意識形態的文本被用來訓練Chatbot,成為十億網民的知識來源,而網民貼文復成機器學習的素材,形成劣質資訊的惡性循環,加速華語知識封閉化與極端化。牆外,用華文訓練ChatGPT也出現偏誤,易使全球華語人受北京政治狗哨影響。由於語言會限制知識取得管道與內容詮釋,台灣應加速「英語與母語」雙語教育,以維護開放多元之民主價值。

 

大型語言模型的軍備競賽

 

近來ChatGPT, Google Bard, Meta Llama等大型語言模型的軍備競賽在商業著作權、教育學術倫理、政治宣傳、選舉干預、社會平等上引發疑慮。過去以Twitter訓練的Microsoft Tay 在24小時內學會厭女與種族歧視。Meta BlenderBot 3 花一週學到反猶太、川普式極端言論。ChatGPT 則指出白人男性才能成為優秀科學家。史丹佛大學教授也示警 Chatbot會衝擊人與人的信任關係。重之以安全疑慮日增,矽谷業界更公呼籲開暫停超過GTP-4技術之模型開發6個月,以免競賽失控。

 

相較英語,華語訓練模型爭議更大:華語資料多樣性低且品質堪慮。許多標記的原始資料皆為審查過的文本。(美聯社)

 

然而相較英語,華語訓練模型爭議更大:華語資料多樣性低且品質堪慮。許多標記的原始資料皆為審查過的文本。美國之音報導,用華語詢問天安門事件時,ChatGPT回覆「中國政府沒有發布相關信息,所以我們不能切實了解情況」。自由亞洲電台詢問ChatGPT有關達賴喇嘛、白紙運動時發現偏北京敘事觀點。路透社更指出,百度Ernie bot拒絕評論涉及習近平的提問。中國言論審查,已降低華語知識原創與多元。這些文本訓練的AI無可避免反映中共意識形態與偏誤,造成「垃圾進,垃圾出」。在「理想狀況」下,阿里巴巴的通義千問、百度文心一言會被訓練產生如新華社般官宣內容。但現實是,機器學習總有意外結果,常複製或極端化既有之偏誤。

 

華語文明先天不足、後天失調

 

華語文明先天不足,幾千年歷史卻從未發展出「民主」與「科學」。蔡元培認為,科舉制度比罷黜百家更有效箝制思想,將知識份子全吸引到科舉這座「獨木橋」來。科舉看似擇優取才,但因試題以儒家經典為主,使實際篩選到的人都是最符合君王意識型態者。陳獨秀與魯迅更批判儒家與封建皇權的共生關係。正因語言和思想密不可分,故胡適倡議文化革新「全盤西化」的首件大事,就是改革語言推動「白話文運動」。

 

華語文明更後天失調。中共長期鉗制言論自由,大量文本受官方與作者自我審查以符共黨思想。即便2008年國力日盛,仍難容劉曉波等人《零八憲章》倡議。「習總加速師」上台後,華語審查與政治宣傳變本加厲,壓制獨立思考與批判言論,致使中國科技發達,科學精神闕如。2020年李文亮根據醫學證據示警卻被官方強迫簽悔過書,無異於十七世紀宗教法庭令伽利略寫懺悔書。紐約時報更指出,中國年輕一代正失去表達自我的能力。中國華語知識的創新與多元,較之百年前五四運動不進反退。德先生與賽先生依舊被拒於牆外。

 

惡性循環的人機互動

 

不幸的是Chatbot的出現,使華語先天不足後天失調的困境更加嚴峻。人在訓練機器,但機器也在訓練人。數位極權下人工智慧內容生成(AICG)的人機互動,惡性循環乃無可避免:大量經審查文本被餵給AI,AI的輸出則成為十億網民的知識來源,網民的意見內容復成機器學習素材。長此以往,使牆內的知識循環囚困在封閉迴路,漸如死水。加速華語文明崩解。擁有全球12億活躍用戶的微信,更透過演算推薦系統,讓客製化的洗腦與大內宣投放更精準有效。作為第二大語言,華語的知識單調化與極端化對人類文明非好事。

 

封閉知識對民主多元的戕害

 

語言預設世界觀,人類也不斷將文化價值編碼進語言。華語過去受封建儒教影響,當代則受中共價值主導。全球14億華語人口以繁體書寫者約佔2%,不受思想審查者僅1.7%。在美國,簡體中文圖書在校園佔壓倒性多數。這些文本影響了五百多萬華裔美人的鄉愁認同與知識來源。單一化的價值論述除加深刻板印象,易使華人受習近平的政治狗哨與「中華民族偉大復興」號召。例如澳洲全國63%民眾認為中國是安全威脅,但澳洲華人卻僅28%贊同。中共也將言論審查擴展至海外,除邀請台灣教科書出版社訪華、誘捕出版社總編輯,更用手機apps監控美國華人言論。近日聯邦調查局(FBI)以華語呼籲在WeChat上受到網路跟踪與騷擾威脅的華美人報案,積極打擊中國跨國鎮壓與海外警察,以維美國國家安全。

 

中國以social bot操弄台灣輿論與選舉對立。而牆內雖看不到維基百科,北京卻積極修改繁體中文詞條以滲透學生與年輕人的知識學習。(美聯社)

 

習近平壟斷華語知識的全球戰略,亦是台灣嚴峻挑戰。牛津大學期刊的認知戰研究指出,中國以social bot操弄台灣輿論與選舉對立。而牆內雖看不到維基百科,北京卻積極修改繁體中文詞條以滲透學生與年輕人的知識學習。在台灣,只懂華語者的網路搜尋與可參閱書籍等知識來源,遠較懂英語者少。對華文媒體的外電譯文亦無查證能力。在大量簡轉繁的內容農場入侵下,信念與價值判斷易受單一語言操弄。蔡政府2030年雙語政策之優點,是將英語提升為通用語以擴展知識開放多元。惟其盲點在未檢討蔣介石殖民時期的華語地位,不利台灣各母語之復振與公平性,無法避免過去以華語為母語之族群的語言特權重演。

 

廢除華語之通用語地位乃大勢所趨

 

台灣本不通行華語。1915年國勢調查,台語是全島82%總人口的母語和87%的通用語(2020年主計處統計,台語仍是86%民眾的次要或主要語言)。戰後白色恐怖將全島變成再教育營,台人被改造成中國人,被迫說華語。「山地語」、「閩南語」等歧視稱呼也開始流傳,蔣家黨禁報禁,較之中共文字獄不遑多讓。但台灣民主化後,華語即國語的不義遺緒卻未曾檢討,使部分民眾仍陷威權時期華語僵化的思考窠臼,不利民主的價值多元與知識開放。中國數位極權崛起後,更將原本知識溝通與情感交流的語言媒介,轉化成假新聞與仇恨動員的武器,逐步侵蝕民主社會賴以運作的互信基礎。

 

因此,與其和中國在AICG與華語知識體系進行軍備競賽,台灣應從根本做起,以語言改革鞏固民主價值。在政府文書、各級學校教材、軍隊加速以英語為主要語言。利用國際貿易、學術合作、美軍協訓等契機,逐步廢除華語的「通用語」地位。使華語和台語、客語、各原住民語、新住民越語等一樣同享平等地位。讓台灣民眾的資訊網路連上更寬廣的全球知識體系,以提高知識經濟的競爭力與對資訊戰的免疫力。同時善用諸如史丹佛Alpaca 7B等開源輕量模型來復振各母語。在可預見未來,方能維護多元創新與包容批判之民主價值。

 

※作者為中研院歐美所副研究員、美國史丹佛大學行為科學高等研究中心研究員

 

關鍵字: Chatbots



 

 

【上報徵稿】

 

上報歡迎各界投書,來稿請寄至editor@upmedia.mg,並請附上真實姓名、聯絡方式與職業身分簡介。

上報現在有其它社群囉,一起加入新聞不漏接!社群連結

 



回頂端