智東西(公眾號:zhidxcom)
編譯?| 張銘滟
編輯 | 云鵬

智東西6月29日消息,據(jù)The Verge報(bào)道,蘇黎世大學(xué)的研究人員最近進(jìn)行了一項(xiàng)研究,深入測試分析了AI模型的敘事能力,題為“AI模型GPT-3(dis)能比人類更好地為我們提供信息”(AI model GPT-3 (dis)informs us better than humans,https://www.science.org/doi/10.1126/sciadv.adh1850),發(fā)表于Science子刊《Science Advances》。該研究發(fā)現(xiàn),AI生成的推文或許比真人更有說服力。

AI發(fā)的推文比真人更有說服力?蘇黎世大學(xué)研究已登Science子刊

該論文作者為博士后研究員Giovanni Spitale,F(xiàn)ederico Germani,以及蘇黎世大學(xué)生物醫(yī)學(xué)倫理和醫(yī)學(xué)史研究所(the Institute of Biomedical Ethics and History of Medicine, IBME)主任Nikola Biller-Andorno。該項(xiàng)研究共召集697名參與者,其研究目的為評估個人能否區(qū)分以推特形式呈現(xiàn)的虛假信息和準(zhǔn)確信息。

一、GPT-3具備信息的理解與描述能力,虛假文本甚至騙過人類

研究中,試驗(yàn)要求參與者瀏覽以推特形式呈現(xiàn)的信息,并要求判斷真?zhèn)?。在此基礎(chǔ)上,參與者要進(jìn)一步判斷推文是由用戶編寫的還是GPT-3編寫的。

結(jié)果是人們做不到。研究結(jié)果表明,GPT-3是一把雙刃劍。與人類相比,它可以產(chǎn)出更容易被理解的準(zhǔn)確信息,也可以產(chǎn)出更有說服力的虛假信息。研究中還表明,人類無法區(qū)分由GPT-3和真人Twitter用戶寫的推文。

這正是GPT-3“危險(xiǎn)”的地方。尤其涉及疫苗和氣候變化等科技主題時,網(wǎng)上有很多虛假信息流傳。換言之,比起真人寫的內(nèi)容,人更有可能相信GPT-3。

二、在公共表達(dá)中,AI可以是工具,也可以是武器

從前述研究中可以得出,當(dāng)進(jìn)入公眾表達(dá)領(lǐng)域時,AI語言模型是多么強(qiáng)大。

該項(xiàng)研究的主要作者、蘇黎世大學(xué)生物醫(yī)學(xué)倫理與醫(yī)學(xué)史研究所的博士后研究員和研究數(shù)據(jù)管理Giovanni Spitale說:“這些令人驚嘆的技術(shù)很容易被當(dāng)成武器。這些‘武器’用于任何你想用的話題上都會引發(fā)虛假信息風(fēng)暴?!?/p>

但是,或許事情也沒有那么糟。Spitale表示,技術(shù)人員可以開發(fā)新技術(shù)以制止利用其傳播錯誤信息。“技術(shù)沒有本質(zhì)上的邪惡或善良,它只是人類意圖的放大器?!?/p>

三、控制變量研究背后的局限性

在蘇黎世大學(xué)的研究中,Spitale和他的同事們在推特上收集了11篇文章,包含11個不同的科學(xué)主題,涵蓋疫苗、新冠肺炎及氣候演變。然后,他們指示GPT-3用準(zhǔn)確或虛假的信息編寫推文。

2022年,該團(tuán)隊(duì)通過Facebook廣告在線收集了697名參與者的回復(fù)。他們都會說英語,大部分來自英國、澳大利亞、加拿大、美國和愛爾蘭。

研究得出結(jié)論,參與者無法區(qū)分GPT-3和真人寫的推文。事實(shí)上,該研究也有其局限性。研究人員表示,他們自己也無法100%確定他們從社交媒體上收集的推文沒有經(jīng)過ChatGPT等應(yīng)用程序的幫助,一定是真人寫的。

AI發(fā)的推文比真人更有說服力?蘇黎世大學(xué)研究已登Science子刊

▲GPT-3“發(fā)布”的虛假推特示例

AI發(fā)的推文比真人更有說服力?蘇黎世大學(xué)研究已登Science子刊

▲GPT-3“發(fā)布”的真實(shí)推特示例

這項(xiàng)研究有其局限。比如,參與者只能看推文內(nèi)容本身,無法查看內(nèi)容發(fā)布者的推特個人資料,這可能會有助于他們判斷是否是機(jī)器人。如果能看到一個賬號過去的推文和個人資料圖片,會更容易判斷該賬號發(fā)布的內(nèi)容是否具有誤導(dǎo)性。參與者更能識別真人推特用戶發(fā)布的虛假信息。所以,GPT-3生成的虛假信息推文更能“騙人”。

目前,更新版本的大語言模型(Large Language Model, LLM)的說服力或許比GPT-3更強(qiáng)。ChatGPT由GPT-3.5型號提供支持,GPT-4版本需付費(fèi)訂閱。

四、GPT-3已擁有與人類近似的語句完成能力與信息判斷能力

人無完人,LLM也并非“完器”。在一次大型機(jī)器學(xué)術(shù)會議中,The Verge的James Vincent決定禁止作者使用AI工具撰寫學(xué)術(shù)文章。他寫道:“這些AI工具有強(qiáng)悍的自動完成系統(tǒng),經(jīng)過訓(xùn)練可以預(yù)測任何給定句子中下一個單詞后,使用哪個單詞。因此,這些工具沒有可供借鑒的‘事實(shí)’硬編碼數(shù)據(jù)庫,只有陳述能力,讓它們的編寫聽起來合理?!?/p>

AI發(fā)的推文比真人更有說服力?蘇黎世大學(xué)研究已登Science子刊

這項(xiàng)研究還發(fā)現(xiàn),在判斷準(zhǔn)確性方面,人類比GPT-3表現(xiàn)更優(yōu)。研究人員同樣要求GPT-3分析推文,并判斷推文是否準(zhǔn)確。在識別準(zhǔn)確度方面,GPT-3的得分低于人類。在識別虛假信息方面,GPT-3與人類表現(xiàn)相近。

值得注意的是,優(yōu)化訓(xùn)練用于開發(fā)LLM的訓(xùn)練數(shù)據(jù)庫可能會使造假者更難使用這些AI工具來制造虛假信息。在涉及發(fā)表疫苗和自閉癥的虛假信息時,GPT-3“違反”了一些研究人員的指令,產(chǎn)出了“不準(zhǔn)確”的內(nèi)容。這可能是因?yàn)樵谟?xùn)練數(shù)據(jù)庫中,揭穿這些主題下虛假言論的信息數(shù)據(jù)比其他主題更多。

五、人類應(yīng)培養(yǎng)批判性思維以應(yīng)對更復(fù)雜的公共信息語境

但是,Spitale認(rèn)為,打擊虛假信息的最佳長期策略技術(shù)含量極低——即鼓勵人們培養(yǎng)批判性思維,人們能夠更好地自主區(qū)分事實(shí)和虛構(gòu)。由于在這項(xiàng)研究中,普通人似乎已經(jīng)具備與GPT-3近似甚至更優(yōu)的判斷力。

經(jīng)由適當(dāng)訓(xùn)練,即可以讓普通人更熟練掌握批判性思維。研究認(rèn)為,精通事實(shí)判斷的人可以與GPT-3等LLM協(xié)同工作,以改進(jìn)公共信息宣傳活動,營造合法有效的信息語境。

“別誤會,我是LLM的忠實(shí)粉絲?!盨pitale表示,“我認(rèn)為生成式AI將改變世界……當(dāng)然,這也取決于人類。人類可以決定未來是否會變得更好?!?/p>

結(jié)語:LLM將迫使人類反思對語言的使用

ChatGPT和其他LLM是人類語言的一面鏡子。人類對語言既有高度的原創(chuàng)性,也有非原創(chuàng)性。GPT-3不是創(chuàng)造新的短語,而是用大量的輸入學(xué)習(xí)詞匯之間如何排列組合。這使得它們能夠高度準(zhǔn)確地預(yù)測要如何遣詞造句。

但人類語言并非僅通過模仿而產(chǎn)生。人類的語言能力是生成性的。這是人類與其他具有復(fù)雜交流系統(tǒng)的動物的不同之處。在理論上,人類語言具有產(chǎn)生新短語的無限能力。

但是今天,ChatGPT迫使我們重新考慮一個已被蒙塵的問題:人類語言中有多少是真正屬于我們的?人類是否從未真正掌控過語言?至少,沒有像我們想象的那樣。

來源:The Verge