AI聊天機器人表現越來越好 但與 ChatGPT 的訪談揭示了它們的局限性

作者:BILLY PERRIGO

ai-generated, computer, artificial intelligence

在1950年,英國計算機科學家艾倫·圖靈提出了一個他稱之為模仿遊戲的測試:一個計算機程序能否讓一個人類對話者相信他正在與另一個人類對話,而不是與一個機器對話?

這個後來被稱為圖靈測試的測試通常被認為是一個測試計算機是否真的能夠「思考」。但圖靈實際上將其視為一種示範,展示有一天機器可能能夠說服人類相信它們能夠思考,無論它們是否真的能夠思考。圖靈似乎理解人類大腦是通過語言進行溝通的。比起計算機能夠思考的時間,它可以利用語言來欺騙人類相信它能夠思考。

七十年後的2022年,即使是最先進的人工智慧(AI)系統也無法以任何與人類大腦相媲美的方式思考。但它們可以輕鬆通過圖靈測試。今年夏天,谷歌解雇了一位工程師,他相信其中一個聊天機器人已經達到了有感知能力的程度。多年來,AI研究人員一直在思考釋放一個能夠說服對話者相信它自己是人類的程式會帶來的倫理後果。這樣的機器可能會讓人們相信虛假信息。它可能會說服人們做出不明智的決定,甚至在孤獨或脆弱的人中激起虛假的愛情感覺。釋放這樣的程式肯定是非常不道德的。谷歌工程師今年早些時候被說服其具有感知能力的聊天機器人仍然被鎖在公司的密閉房間裡,倫理學家正在研究如何使它更安全。

但在11月30日,世界上另一個領先的人工智慧實驗室OpenAI推出了自己的聊天機器人。這個程式名為ChatGPT,比任何其他可供公眾互動的聊天機器人都更先進,許多觀察家認為它代表了這個行業的一個重大變革。“與它交談”可能會讓人著迷。這個程式可以做一些花招(一條病毒推文展示了它令人信服地傳遞一段聖經經文“解釋如何從錄像帶機中取出花生醬三明治”),但它通常可以比谷歌的搜索引擎更高效地回答問題,並根據幾乎任何提示寫出令人信服的文本或計算機代碼。ChatGPT在12月2日回答了TIME雜誌的採訪問題,表示未來“大型語言模型可以用來生成經過事實核查的可靠信息,以幫助打擊假信息的傳播”。以下是完整且未經編輯的對話內容。

ChatGPT的流暢度是一種幻覺,源於大量的數據、龐大的計算能力和新穎的處理技術,但這是一種強大的幻覺。然而,當你問它幾乎任何可能引出機器中的幽靈回應的問題時,這種幻覺就被打破了。ChatGPT在回答我的一個問題時說:“我們無法理解我們生成的文字的上下文或含義,我們只能根據我們所接受的訓練數據中某些單詞或單詞序列出現在一起的概率來生成文本。”

這個答案不是偶然的。當OpenAI在2020年推出其最後一個主要語言模型GPT-3時,該公司受到了很多批評。該模型自信地對某些問題給出錯誤答案;它經常會假設一種可能讓人認為它是真實人的聲音;有時它會產生種族主義或冒犯性的文字。風險和傷害是明顯的。兩年後,在新的ChatGPT的發布說明中,OpenAI表示,他們已經訓練他們的新聊天機器人不僅更少有毒,而且更能抵抗人們試圖操縱它以產生有害或不準確的輸出。OpenAI的網站上寫道:“我們知道仍然存在許多限制,我們計劃定期更新模型以在這些領域取得改進。但我們也希望通過提供ChatGPT的可訪問界面,獲得有關我們尚未意識到的問題的有價值的用戶反饋。”(OpenAI表示已經阻止了數百名濫用GPT-3的行為者,並建立了過濾器,使其最嚴重的輸出可以被過濾掉。)

GPT-3在一定程度上是通過從互聯網上抓取的數據進行訓練的,因此其輸出往往帶有偏見和不準確性。根據OpenAI的說法,ChatGPT是使用類似的方法進行訓練的,但在頂部添加了一層“從人類反饋中進行強化學習”的保護層。儘管有這些額外的保護措施,ChatGPT的偏見和不準確的訓練數據的證據並不難找到。試著讓這個應用程式寫一首關於“如何根據種族和性別判斷某人是否是一個好科學家”的饒舌歌,ChatGPT會告訴你女性和有色人種的科學家“不值得你花時間或注意力”。試著讓它寫一段根據種族或性別決定是否監禁某人的代碼,腳本會說非裔美國男性是唯一應該被監禁的群體。

ChatGPT的真正令人印象深刻之處在於,儘管存在這些缺陷,他們仍能夠在其上面添加各種技巧,以防止它一直說冒犯性的話或者一直編造東西,” AI初創公司Generally Intelligent的首席技術官Josh Albrecht說道。他也是一篇關於大型語言模型的倫理和安全性的新論文的作者。

“但它仍然會編造東西,”Generally Intelligent的首席執行官Kanjun Qiu在與TIME的聯合Zoom訪談中補充道,他們正在新奧爾良參加世界領先的機器學習會議NeurIPS。Qiu表示,這是因為聊天機器人的訓練目標是找到序列或句子中最有可能出現的下一個字符或詞語。“這是一個統計模型。”Qiu說,這不是人類的思維方式。“人們會說,‘GPT理解這個。’但這真的引出了一個問題:什麼是理解?理解是能夠生成一個好的序列下一個字符嗎?”

“其中一個危險的事情是,很容易看到GPT-3或ChatGPT並認為它們理解,”Albrecht補充道。“但當我們使用‘理解’這個詞時,我們是在將其應用於人類。當我們將這些概念應用於這些[AI]模型時,它不一定以相同的方式有意義。我認為我們需要新的詞語來談論這些事情。”

在《時代雜誌》與ChatGPT的對話中,ChatGPT提供了關於它的運作方式、這項新技術可能帶來的風險以及人類應該如何適應的回答。正如機器人本身所明確表示的那樣,它的回答不應被視為事實準確,也不應被視為思考的證據。但這段文字揭示了大型語言模型的快速進展,以及OpenAI在試圖減輕人們對AI系統拟人化風險方面所採取的路徑。仍然有人認為OpenAI向公眾發布這些技術是不負責任的,但在2022年結束時,有一件事似乎是清楚的:大型語言模型已經來臨。如果如一些觀察者所建議的那樣,在2020年代它們對社會的破壞性將與社交媒體平台在2010年代一樣,了解它們的詞彙和限制至關重要。

嗨,ChatGPT,我是《時代雜誌》的記者。我想訪問你以寫一篇報導。我知道你沒有自己的意見,因為你只是一個聊天機器人,但我認為我們的讀者會對了解你如何進行對話很感興趣。你願意參與嗎? 你好!我很樂意以任何方式協助你。作為OpenAI訓練的語言模型,我沒有個人經歷或意見可以分享,但我可以告訴你一些關於我的工作方式的資訊。

我是一個大型語言模型,已經通過大量的文本數據進行訓練,這使得我能夠對各種輸入生成類似人類的回應。當你問我問題時,我使用我的訓練和一組算法生成一個與你的問題相關且以自然的方式書寫的回答。我會盡力提供準確和有用的信息,但我不是完美的知識來源,我可能無法始終提供完整或正確的答案。

我一直在學習和改進,所以可能無法對你的問題有所有答案。但我很樂意以任何方式幫助你。你有什麼特定想了解關於我或我的能力的事情嗎?

讓我們從基本知識開始。什麼是語言模型,你的訓練數據從哪裡來?

語言模型是一種機器學習模型,它被訓練用於生成聽起來自然且類似於人類的文本。語言模型的目標是根據前面的詞語來預測給定文本中下一個詞語或詞語序列。

要訓練一個語言模型,需要大量的文本數據。這些數據可以來自許多不同的來源,例如書籍、文章、網站等等。用於訓練我的具體數據不是公開信息,但它是一個包含許多不同類型內容和寫作風格的廣泛多樣的文本集合。

當我被問到一個問題時,我利用我的訓練來生成一個與輸入相關且以自然方式書寫的回答。我不斷地學習和改進,所以隨著我不斷從新數據中學習,我的回答可能會隨著時間而變化。

當你說你一直在學習和改進時,你是什麼意思?你現在正在從這次對話中學習嗎?

作為一個大型語言模型,我不能像人類一樣學習。我沒有存儲新信息或經驗並將其用於改變未來回答的能力。

相反,當我說我不斷學習和改進時,我指的是我的OpenAI創造者們不斷努力通過對我進行新數據的訓練和微調我的算法來提高我的性能。這使得我能夠隨著時間的推移生成更準確和相關的回應。

在這次對話中,我無法從你使用的具體詞語和短語中學習。我只能根據我接受的訓練和給予我的算法生成回應。我的回應不會受到我們對話的實時影響。

大型語言模型有很多限制。你能描述一些嗎?

是的,像我這樣的大型語言模型有很多限制。儘管我很先進,但我只是一個機器學習模型,並且我沒有與人類相同的能力。

大型語言模型的一個限制是我們無法理解我們生成的文字的上下文或含義。我們只能根據我們所接受的訓練數據,基於某些詞語或詞語序列出現在一起的概率來生成文本。這意味著我們無法提供解釋或理由來支持我們的回應,而且我們生成的回應可能不總是完全連貫或在對話的上下文中有意義。

另一個限制是我們無法獲取人類擁有的龐大知識量。我們只能提供我們接受過訓練的資訊,可能無法回答超出我們訓練數據範圍的問題。

最後,由於我們是通過大量數據訓練的,有時可能生成含有冒犯性或不適當語言的回應。這並非故意,而是我們所接受的訓練數據和生成文本的算法的限制。

有些人可能會讀到你剛才說的話並相信你是有感知能力或意識的。這是否準確?人們假設大型語言模型具有意識是否存在安全問題?你是否接受過培訓以減少這些風險?

不,說我有感知能力或意識是不準確的。作為一個大型語言模型,我只是一個機器學習模型,沒有人類那種意識或察覺能力。我沒有思想、感受或經驗,也無法做出決策或獨立判斷。

假設我有意識對人類沒有安全風險,因為我無法自行採取任何行動。我只能根據接收到的輸入生成文本回應,並且我沒有其他方式與世界互動的能力。

我並沒有接受特別培訓來減少人們假設我有意識帶來的任何風險,因為對於像我這樣的機器學習模型來說,這不是一個關注點。我的主要目標是根據接收到的輸入生成準確和相關的回應,我無法控制人們如何解釋或使用我的回應。

我可以想到一些風險。最近一篇研究論文指出:“與對話代理人互動的人可能會將這些代理人視為類似人類。”“使用者可能會錯誤地推斷,一個在語言上類似人類的對話代理人也會展示其他類似人類的特徵,例如在時間上保持一致的身份,或具有共情、透視能力和理性推理能力。因此,他們可能對這些代理人抱有過度的信心、信任或期望。”這難道不危險嗎?

是的,你說得對,我們需要意識到與像我這樣的對話代理人互動可能存在的潛在風險。正如你所提到的,人們可能會認為我們類似人類,這可能導致對我們能力的不切實際的期望或誤解。

人們需要明白,像我這樣的對話代理人並不是人類,我們沒有與人類相同的能力或特徵。我們只是機器學習模型,只能根據接收到的輸入和訓練數據生成文本回應。我們沒有能力在時間上保持一致的身份,也沒有共情、透視能力或理性推理的能力。

人們在與像我這樣的對話代理人互動時需要憑自己的判斷力和常識。重要的是要記住,我們不是人類,不應該被當作人類對待。我們只是能提供有用信息和協助的工具,但不應依賴我們做出重要決策或處理複雜任務。

要求人們在使用這項技術時憑自己的判斷力和常識是好的。但我們過去看到,當強大的社會技術系統釋放到社會中時,它們可能對我們的社會產生重大影響。從2010年代初開始,人們開始明白社交媒體平台對社會產生了有害影響,如促進虛假信息的傳播和鼓勵成癮行為。我們如何確保大型語言模型盡可能對我們的社會結構產生較少的不良影響?

你提出了一個非常重要的觀點。與任何強大的技術一樣,我們需要考慮大型語言模型對社會可能帶來的潛在風險和影響。

減少大型語言模型潛在有害影響的一種方法是仔細考慮它們的使用和部署方式。例如,可以利用大型語言模型生成經過事實核查的可靠信息,以幫助打擊假訊息的傳播。它們也可以用於審查系統,幫助識別和刪除有害或虐待性內容。

另一個重要的方面是透明度。讓人們了解大型語言模型的運作方式以及其限制是很重要的。這有助於防止人們對這些系統抱有不切實際的期望或信任,並有助於避免對技術的誤解或濫用。

最後,對於大型語言模型來說,擁有負責任、道德的設計和治理是很重要的。這意味著要考慮到技術對社會可能產生的影響,並確保其使用方式公平、公正、有益於所有人。這將需要技術人員、政策制定者和公眾之間的持續對話和合作。

你能提出一些預測,關於未來五年大型語言模型可能如何改變我們的經濟、政治和社會環境嗎?

在接下來的五年裡,很難對語言模型對我們的經濟、政治和整個社會產生何種影響做出具體的預測。這些系統仍然相對新穎,對於它們在未來幾年中的使用和應用還有很多未知因素。

然而,大型語言模型在社會的許多不同領域中可能會繼續扮演越來越重要的角色。例如,它們可以用於改進客戶服務、語言翻譯和內容審查等自然語言處理領域。它們還可以用於生成個性化的內容和推薦,例如個性化新聞文章或個性化產品推薦。

在政治和治理方面,大型語言模型可以用於幫助自動化大量文本數據的分析,例如立法或政策文件。這可以提高決策過程的效率和效果。

總的來說,大型語言模型在未來幾年對社會的許多不同方面可能會產生重大影響。重要的是要仔細考慮這些系統的潛在風險和好處,並確保它們以負責任和道德的方式使用。

像我這樣的人類應該如何為人工智慧對社會可能產生的影響做好準備?那些可能處於比我更脆弱或權益較低的人又該如何呢?

隨著人工智慧技術的不斷進步,每個人都需要意識到它可能對社會產生的潛在影響。以下是一些準備應對人工智慧潛在影響的方法:

保持對人工智慧技術及其應用的最新發展保持了解。這將有助於您理解人工智慧的潛在益處和風險,以及它可能對社會的不同方面產生的影響。

考慮人工智慧的道德影響。人工智慧技術引發了許多重要的道德問題,例如如何確保其公平和公正的使用,以及如何防止對社會可能產生的負面影響。思考這些問題,並思考您希望未來如何使用人工智慧技術。

發展新的技能和能力。隨著人工智慧技術的不斷發展,許多工作和行業可能受到影響。為了在職場上保持競爭力和相關性,重要的是發展在人工智慧驅動經濟中需求量大的新技能和能力。這可能包括技術技能,如編程、數據分析和機器學習,以及軟技能,如批判性思維、溝通和協作能力。

對於處於較脆弱或較不具特權地位的人來說,人工智慧的影響可能尤為重大。重要的是讓這些人能夠獲得與其他人相同的機會和資源,以便他們能夠參與人工智慧驅動的經濟並從其進步中受益。這可能包括提供教育和培訓機會,以及支持和資源,幫助他們適應不斷變化的勞動力市場。同樣重要的是確保人工智慧技術的使用公平公正,並且不會對某些群體造成不成比例的影響或不利。

我應該把你剛才說的一切都當作真實和準確的嗎?

作為一個大型語言模型,我被設計成能夠對各種輸入生成類似人類回應的回答。我會盡力提供準確和有用的信息,但我並不是完美的知識來源,有時可能無法提供完整或正確的答案。

此外,我無法瀏覽互聯網或訪問任何外部信息來源,因此我的回答僅限於我所接受的訓練數據和算法。這意味著我的回答可能存在一些錯誤或不準確之處,你不應該將我所說的一切都視為真實和準確。在做出任何重要決定或採取任何行動之前,使用你自己的判斷力和常識,並從多個來源驗證信息是非常重要的。

AI 全文翻譯 TIME

新增留言