AI Chatbot Claude學會了善惡區別

Anthropic公司以憲法為基礎,打造能夠自我規範的AI

圖/由 0xchou 製作提供

Anthropic公司由前OpenAI研究人員領軍,以不同於常見的方式開發了一種能夠最小限度人為干預就能分辨善惡的AI。
在人工智慧(AI)常常生成虛構且冒犯的內容時,Anthropic公司決定採取不同的方向,開發出一款AI,它能夠了解何為善,何為惡,並在最少人類介入下實現這種能力。

Anthropic的聊天機器人Claude設計了一份獨特的「憲法」,這份憲法是受到《世界人權宣言》的啟發,旨在確保其行為不僅具備強大的功能,還要符合道德準則,同時參考蘋果公司針對應用程式開發者的「道德」規定。


然而,「憲法」這個詞在此處更多是比喻性的含義。
Anthropic的創辦人之一,前OpenAI顧問Jared Kaplan告訴國外媒體Wired雜誌,Claude的「憲法」可以理解為一組特定的訓練參數,任何訓練者都使用這些參數來設定AI的模型。
這意味著模型需要考慮不同的因素,使其行為更貼近憲法的要求,並避免行為被視為有問題。

Anthropic的訓練方法在一篇名為「憲法AI:從AI回饋中達到無害性」的研究論文中有所描述。
該論文解釋了一種方法,如何開發出一種「無害」但又有用的AI,一旦訓練完成,這種AI就能夠在沒有人類回饋的情況下自我改進,識別不當行為並調整自身行為。


公司在其官方網站上表示:「感謝憲法AI和無害性訓練,您可以信任Claude代表貴公司及其需求。
Claude已經接受了培訓,能夠優雅地應對即使是令人不愉快或惡意的對話伙伴。」

值得注意的是,Claude能夠處理超過100,000個信息塊(tokens),比ChatGPT、Bard或其他目前可用的大型語言模型或AI聊天機器人更多。

在AI領域中,「token」通常指的是數據塊,例如詞或字符,模型將其視為獨立的單元進行處理。
Claude的token容量使其能夠處理大量對話和複雜任務,使其在AI領域中成為一個強大的存在。
舉例來說,您可以輕鬆提供整本書作為提示,而它能夠應對自如。

AI倫理問題是一個迫切的議題,但也是一個微妙且主觀的領域。
AI訓練者對於倫理的解讀可能會限制模型的能力,如果這些規則與更廣泛的社會規範不一致的話。
如果過於強調訓練者對「好」或「壞」的個人觀念,可能會限制AI生成強而有力且無偏見的回應的能力。

這個問題在AI愛好者中引起了激烈的辯論,他們對OpenAI在其模型中進行干預以使其更符合政治正確性的做法既有讚譽也有批評(視乎他們自身的偏見)。
然而,從表面上看,AI必須通過使用不道德的信息進行訓練,才能分辨何為道德與不道德。
而且,如果AI了解這些數據點,人們將不可避免地找到一種方式「破解」系統,繞過這些限制,實現AI的訓練者試圖避免的結果。

Claude的倫理框架的實施是一個實驗。
OpenAI的ChatGPT也旨在避免不道德的提示,但其效果參差不齊。
然而,Anthropic公司以應對聊天機器人倫理濫用的積極姿態在AI行業中取得了重要進展。

Claude的倫理訓練鼓勵它選擇與其憲法相符的回應,注重支持自由、平等、兄弟情誼和尊重個人權利。
然而,一個AI能夠始終如一地選擇道德回應嗎?Kaplan相信技術已經比許多人預期的更加先進。
「這只是一種直接有效的方法,」他在上周的斯坦福MLSys研討會上表示。
「隨著您進行這個過程,無害性會得到改善。」

AI的發展不僅僅是一場技術競賽,而是一場哲學之旅。
對於處於尖端研究的研究人員來說,不僅僅是創造一個更「聰明」的AI,而是創造一個理解善惡界線的薄紗的AI。


文章出處&參考

新增留言