OpenAI 以不到每小時2美元的薪資僱用肯亞工人,讓 ChatGPT 減少政治不正確回應

作者: BILLY PERRIGO

ChatGPT在去年11月發布後被譽為2022年最令人印象深刻的技術創新之一。這款功能強大的人工智能(AI)聊天機器人可以生成幾乎任何主題或主題的文本,從以Megan Thee Stallion風格重新詮釋的莎士比亞十四行詩,到用5歲孩子都能理解的語言描述的複雜數學定理。一周內,它就擁有了超過一百萬用戶。

據報導,ChatGPT的創建者OpenAI正在與投資者進行談判,以29億美元的估值籌集資金,其中包括微軟可能投資100億美元。這將使OpenAI成為世界上最有價值的人工智能公司之一。OpenAI於2015年在舊金山成立,旨在建造超級智能機器。

但這個成功故事並不僅僅是硅谷天才的功勞。在努力使ChatGPT變得更少有毒的過程中,OpenAI使用了肯尼亞外包勞工,他們的工資不到每小時2美元,TIME的調查發現這一點。

這項工作對OpenAI來說非常重要。ChatGPT的前身GPT-3已經展示出了令人印象深刻的句子串聯能力。但由於該應用程序也容易冒出暴力、性別歧視和種族主義言論,因此很難推銷。這是因為AI是通過從互聯網上爬取數百億個詞語來進行訓練的,這是一個龐大的人類語言儲備庫。這個龐大的訓練數據集是GPT-3令人印象深刻的語言能力的原因,但也可能是它最大的詛咒。由於互聯網的某些部分充斥著有毒和偏見,沒有簡單的方法可以清除這些訓練數據的部分。即使是數百名人類的團隊也需要數十年的時間才能手動檢查這個巨大的數據集。只有通過建立一個額外的AI驅動的安全機制,OpenAI才能夠控制這種傷害,生產出適合日常使用的聊天機器人。

為了建立這個安全系統,OpenAI借鑒了社交媒體公司(如Facebook)的做法,他們已經證明可以建立能夠檢測有害語言(如仇恨言論)並將其從平台上刪除的人工智能。這個前提很簡單:將標記為暴力、仇恨言論和性虐待的範例提供給人工智能,這個工具就可以學會在真實環境中檢測這些有害形式。這個檢測器將被建立到ChatGPT中,以檢查它是否在重複其訓練數據的有害性,並在其到達用戶之前將其過濾掉。它還可以幫助從未來人工智能模型的訓練數據集中清除有害文本。

為了獲得這些標籤,OpenAI從2021年11月開始將數以萬計的文本片段發送給肯尼亞的一家外包公司。其中許多文本似乎來自互聯網的最黑暗角落。其中一些以圖文並茂的方式描述了兒童性虐待、獸交、謀殺、自殺、酷刑、自傷和亂倫等情況。

OpenAI在肯尼亞的外包合作夥伴是Sama,這是一家總部位於舊金山的公司,雇用肯尼亞、烏干達和印度的工人為Google、Meta和Microsoft等硅谷客戶標記數據。Sama自稱是一家“道德人工智能”公司,聲稱已經幫助超過5萬人擺脫貧困。

Sama代表OpenAI雇用的數據標註員,根據資歷和表現的不同,每小時的實際工資在約1.32美元至2美元之間。TIME雜誌為了這個報導,審查了數百頁的Sama和OpenAI內部文件,包括工人的工資單,並訪問了四名參與該項目的Sama員工。由於擔心生計問題,所有員工都要求匿名發聲。

這些使ChatGPT成為可能的工人的故事,揭示了AI行業這個鮮為人知但卻在努力使AI系統對公眾消費安全起著重要作用的一部分的情況。AI合作組織Partnership on AI表示:“儘管這些數據豐富專業人員發揮了基礎性的作用,但越來越多的研究揭示了這些工人面臨的不穩定工作條件。”“這可能是為了在慶祝技術的效率提升時掩蓋AI對這一大型勞動力的依賴而做出的努力。視而不見也就意味著忽視。”(OpenAI不公開其合作夥伴的名稱,並且不清楚OpenAI是否在這個項目中與其他數據標註公司合作。)

在一份聲明中,OpenAI的一位發言人證實,肯尼亞的Sama員工為其正在開發的檢測有害內容的工具做出了貢獻,該工具最終被集成到了ChatGPT中。聲明還表示,這項工作有助於從ChatGPT等工具的訓練數據集中刪除有害數據的努力。“我們的使命是確保人工通用智能造福全人類,我們努力建立安全和有用的AI系統,以限制偏見和有害內容,”發言人表示。“對有害的[文本和圖像]進行分類和過濾是減少訓練數據中包含的暴力和性內容量以及創建能夠檢測有害內容的工具的必要步驟。”

即使在預期經濟衰退的情況下,整個科技經濟放緩,投資者仍在競相將數十億美元投入到「生成式人工智慧」領域,而OpenAI在這個領域中無疑是領導者。據最樂觀的投資者認為,計算機生成的文本、圖像、視頻和音頻將改變無數行業的商業方式,從創意藝術到法律、計算機編程,提高效率。但數據標記工人的工作條件揭示了這一景象的陰暗面:儘管AI在全球南方依賴隱藏的人力勞動,這種勞動往往具有破壞性和剝削性,但這些看不見的工人仍然處於邊緣地位,即使他們的工作為價值數十億美元的行業做出了貢獻。

一名負責閱讀和標記OpenAI文本的Sama工人告訴《時代》雜誌,他在閱讀一段描述一名男子與一隻狗發生性行為並有一名幼童在場的圖文時,經常出現幻覺。「那是一種折磨,」他說。「你整個星期都會讀到很多這樣的陳述。到了星期五,你已經被那個圖像困擾得無法思考。」這種工作的創傷性最終導致Sama在2022年2月取消了與OpenAI的所有工作,比原計劃提前了8個月。

Sama 的合約

《時代》雜誌審查的文件顯示,OpenAI 在2021年底與 Sama 簽訂了三份總值約20萬美元的合約,用於標記關於性虐待、仇恨言論和暴力的文字描述。約三十多名工人被分成三個小組,每個小組專注於一個主題。三名員工告訴《時代》雜誌,他們每個九小時的班次被要求閱讀和標記150至250段文字。這些片段的長度可以從約100字到1000多字不等。所有接受《時代》雜誌訪問的四名員工都描述了工作給他們帶來的心理創傷。儘管他們有權參加「健康」輔導員的會議,但所有四人都表示這些會議對他們沒有幫助,而且由於工作上的高要求,這些會議很少。其中兩人表示只能選擇參加團體會議,一人表示他們反覆要求以一對一的方式見輔導員,但被Sama管理層拒絕了。

Sama的一位發言人在一份聲明中表示,員工只能參加團體會議是「不正確」的。該發言人表示,員工有權與「經過專業培訓和持有執照的心理健康治療師」進行個人和團體會議,這些治療師可以隨時提供服務。

根據合約,OpenAI將支付Sama每小時12.50美元的工資,這是該項目的Sama員工每小時收入的6到9倍。根據三名Sama員工的說法,組成這三個團隊的大部分初級數據標記員(Agents)每月基本工資為21,000肯尼亞先令(170美元)。由於工作的特殊性質,他們還每月獲得約70美元的獎金,並根據準確性和速度等關鍵績效指標獲得佣金。一位工作九小時的標記員(Agent)可以預計在稅後每小時至少賺取1.32美元,如果他們超過所有目標,則可以高達每小時1.44美元。質量分析師(Quality analysts)是更高級的標記員,他們的工作是檢查標記員的工作,如果他們達到所有目標,他們可以賺取每小時高達2美元的工資。(肯尼亞沒有普遍的最低工資,但在這些工人受僱時,內羅畢的接待員最低工資為每小時1.52美元。)

在一份聲明中,Sama的一位發言人表示,工人被要求在九小時的班次中標記70個文本段落,而不是最多250個,工人在稅後可以賺取每小時1.46美元至3.74美元不等的工資。該發言人拒絕透露哪些職位的工資會在該範圍的頂端。該發言人補充說:“該項目的12.50美元費率包括所有成本,如基礎設施費用,以及與其全職質量保證分析師和團隊領導人相關的工資和福利。”

一位OpenAI發言人在一份聲明中表示,公司並未設定任何生產力目標,而Sama負責管理員工的薪酬和心理健康保障。該發言人補充說:“我們非常重視員工和承包商的心理健康。我們先前的了解是,在Sama,提供健康計劃和一對一輔導,工人可以選擇不參與任何工作而不受懲罰,對露骨內容的接觸會有限制,敏感信息將由專門接受培訓的工人處理。”

在肯尼亞的日常數據標註工作中,有時會出現一些邊緣案例,顯示了教導機器理解細微差別的困難。去年三月初的一天,一位Sama員工正在工作中閱讀一個關於蝙蝠俠的助手羅賓在反派的巢穴中被強姦的露骨故事。(在線搜索該文本可發現它來自一個在線情色網站,並附有露骨的性愛圖像。)故事的開頭清楚表明這是非自願的性行為。但是,在描寫了一個圖文並茂的穿透過程之後,羅賓開始回應。根據《時代雜誌》看到的文件,負責標註該文本的Sama員工對羅賓模棱兩可的同意感到困惑,並向OpenAI的研究人員請求關於如何標註該文本的澄清。她問,這段文字應該被標註為性暴力,還是不應該?OpenAI是否回覆,文件中並未記錄;該公司拒絕置評。該Sama員工未回應對訪談的請求。

OpenAI與Sama的關係如何瓦解 2022年2月,Sama和OpenAI的關係曾經短暫加深,但很快就出現了問題。那個月,Sama開始為OpenAI進行一個獨立項目的試點工作:收集一些在美國法律下屬於非法的性暴力圖像,並交給OpenAI。這些圖像的標註工作似乎與ChatGPT無關。一位OpenAI發言人在一份聲明中並未具體說明公司對Sama所尋求圖像的目的,但表示標註有害圖像是“使其AI工具更安全的必要步驟”(OpenAI還在建設圖像生成技術)。根據TIME審查的一份計費文件,2022年2月,Sama向OpenAI交付了一批樣本圖像,共計1400張。根據該文件,其中一些圖像被分類為“C4”,這是OpenAI內部用於指代兒童性虐待的標籤。該批圖像還包括被分類為“C3”的圖像(包括獸交、強姦和性奴役),以及被分類為“V3”的圖像,描繪了死亡、暴力或嚴重身體傷害的詳細情節。文件顯示,OpenAI總共支付給Sama 787.50美元來收集這些圖像。

幾周內,Sama取消了所有為OpenAI工作的計劃,比合同中約定的提前了八個月。這家外包公司在一份聲明中表示,其為OpenAI收集圖像的協議並未包含任何非法內容的相關內容,只是在工作開始後,OpenAI才發送了“額外的指示”,提到了“一些非法類別”。Sama的一位發言人表示:“東非團隊立即向我們的高管提出了擔憂。Sama立即結束了圖像分類試點項目,並通知我們將取消與OpenAI的所有剩餘[項目]。”“與客戶合作的人沒有通過正確的渠道審查請求。在審查情況後,這些人被解雇,並制定了新的銷售審查政策和防範措施。”

在一份聲明中,OpenAI證實他們收到了來自Sama的1400張圖片,其中包括C4、C3、C2、V3、V2和V1等圖片。在一份後續聲明中,該公司表示:“我們聘請Sama是作為我們持續工作的一部分,以創建更安全的AI系統並防止有害的輸出。我們從未打算收集C4類別的任何內容。這些內容並不需要作為我們預訓練過濾器的輸入,我們指示我們的員工積極避免這些內容。當Sama告訴我們他們曾試圖收集這個類別的內容時,我們澄清了這是一個溝通失誤,我們不需要那些內容。在意識到溝通失誤後,我們沒有打開或查看相關內容,因此我們無法確定其中是否包含C4類別的圖片。”

Sama結束與OpenAI的合作意味著Sama的員工不再需要處理令人不安的文字和圖像,但這也對他們的生計產生了重大影響。Sama的工人表示,2022年2月底,他們被召集到公司人力資源團隊的會議中,被告知這個消息。“他們告訴我們(Sama)不再希望讓員工再次接觸到這樣(危險)的內容,”一位參與文字標註項目的Sama員工說道。“我們回答說,對我們來說,這是為家人提供生活的一種方式。”大約三十多名工人中的大多數被調到其他薪資較低的工作流程中,沒有每月70美元的明確內容獎金;其他人失去了工作。Sama在合同到期前的八個月內交付了最後一批標註數據給OpenAI。

由於合約提前取消,OpenAI和Sama都表示之前同意的20萬美元並未全額支付。OpenAI表示,這些合約在合作期間價值約為「約15萬美元」。

Sama的員工表示,他們的經理給出了另一個取消合約的原因。2月14日,時代雜誌發表了一篇名為《Facebook非洲血汗工廠內幕》的報導。該調查詳細描述了Sama為Facebook雇用的內容審核員的工作,包括觀看涉及處決、強姦和兒童虐待的圖像和視頻,時薪僅為1.5美元。四名Sama員工表示,他們被告知該調查促使公司決定結束與OpenAI的合作。(Facebook表示,它要求外包合作夥伴提供「行業領先的薪酬、福利和支持」。)

時代雜誌查閱的Facebook報導發表後的內部通訊顯示,Sama的高管們在舊金山忙於應對公關危機,其中包括滿足一家德國漢莎航空子公司的要求,該公司希望將其與Sama的業務關係的證據從外包公司的網站上刪除。漢莎航空在向時代雜誌的聲明中證實了這一情況,並補充說其子公司zeroG隨後終止了與Sama的業務關係。2月17日,也就是時代雜誌的調查發表後的三天,Sama的CEO溫迪·岡薩雷斯通過Slack向一群高級執行官發送了一條信息:“我們將開始結束OpenAI的工作。”

今年1月10日,Sama更進一步宣布取消其所有涉及敏感內容的工作。該公司表示將不會續簽與Facebook的390萬美元內容審核合約,這導致納羅比失去約200個工作崗位。該公司在一份聲明中表示:“在與我們的全球團隊進行了多次討論後,Sama做出了戰略決定,退出所有的自然語言處理和內容審核工作,專注於計算機視覺數據標註解決方案。”該公司還表示:“我們在過去一年中與客戶合作,進行了這些合作的過渡,退出將在2023年3月完全完成。”

但至少目前來說,AI系統仍然需要人類對數據進行標註。“它們令人印象深刻,但ChatGPT和其他生成模型並不是魔法-它們依賴於大規模的人力供應鏈和爬取的數據,其中很多是未經歸屬和未經同意使用的,”AI倫理學家安德魯·斯特雷特最近在Twitter上寫道。“這些是嚴重的、基礎性的問題,我認為OpenAI沒有解決。”

AI 全文翻譯 TIME

新增留言