GPT偵測器可能對非母語英文寫作者存在偏見

AI 全文翻譯 ScienceDaily

日期:2023年7月10日

來源:Cell Press

摘要:研究人員表明,常用於判斷一段文字是否由人工智能寫成的電腦程序往往會錯誤地將非母語使用者撰寫的文章標記為由人工智能生成。研究人員警告不要使用此類人工智能文本檢測器,因其不可靠性可能對個人產生負面影響,包括學生和求職者

在7月10日發表於《Patterns》期刊的同行評審意見文章中,研究人員表明,常用於判斷一段文字是否由人工智能寫成的電腦程序往往會錯誤地將非母語使用者撰寫的文章標記為由人工智能生成。研究人員警告不要使用此類人工智能文本檢測器,因其不可靠性可能對個人產生負面影響,包括學生和求職者。

斯坦福大學的高級作者詹姆斯·鄒表示:“我們目前的建議是,我們應該非常小心,盡量避免使用這些檢測器。”他補充說:“如果這些檢測器用於審查求職申請、大學入學論文或高中作業等事情,可能會產生重大後果。”

OpenAI的ChatGPT聊天機器人等人工智能工具可以撰寫文章、解決科學和數學問題,並生成計算機代碼。美國的教育工作者對於學生作品中使用人工智能的情況越來越擔心,其中許多人已開始使用GPT檢測器來篩選學生的作業。這些檢測器聲稱能夠識別文本是否由人工智能生成,但它們的可靠性和有效性尚未經過測試。

鄒和他的團隊對七個流行的GPT檢測器進行了測試。他們將91篇由非母語英文使用者撰寫的英文論文,即被廣泛認可的英語能力測試TOEFL(Test of English as a Foreign Language)的論文,通過這些檢測器。這些平台將超過一半的論文錯誤地標記為由人工智能生成,其中一個檢測器將近98%的論文標記為由人工智能撰寫。相比之下,這些檢測器能夠正確分類超過90%的美國八年級學生撰寫的論文為人工生成。

鄒解釋說,這些檢測器的算法通過評估文本的困惑度來工作,即文章中選擇詞語的驚奇程度。“如果使用常見的英文詞語,檢測器將給出低的困惑度分數,這意味著我的文章很可能被標記為由人工智能生成。如果使用複雜和更高級的詞語,那麼根據算法,它更有可能被分類為人工撰寫的。”他說。鄒補充說,這是因為像ChatGPT這樣的大型語言模型被訓練成生成困惑度低的文本,以更好地模擬普通人的語言。

因此,非母語英文寫作者採用更簡單的詞語選擇會使他們更容易被標記為使用人工智能。

然後,團隊將人工撰寫的TOEFL論文輸入ChatGPT,並提示其使用更複雜的語言進行編輯,包括用複雜詞彙替換簡單詞語。GPT檢測器將這些經過人工編輯的論文標記為人工撰寫。

鄒表示:“我們應該對在課堂環境中使用任何這些檢測器非常謹慎,因為它們仍然存在許多偏見,並且只需最少量的提示設計就可以輕易欺騙它們。”鄒表示,使用GPT檢測器可能還會對教育以外的領域產生影響。例如,像谷歌這樣的搜索引擎會降低人工智能生成內容的價值,這可能會無意中使非母語英文寫作者的聲音被壓制。

雖然人工智能工具對學生學習可能有積極影響,但在使用之前應該進一步改進和評估GPT檢測器。鄒表示,訓練這些算法使用更多種類的寫作可能是改善這些檢測器的一種方法。

新增留言