麻省理工學院的科學家們建立了一個可以為生物學研究生成人工智能模型的系統

BioAutoMATED是一個開源的自動機器學習平台,旨在幫助實驗室普及人工智能。 是否可能在沒有機器學習專業知識的情況下建立機器學習模型?

作者: Alex OuyangAbdul Latif Jameel Clinic for Machine Learning in Health  來源: MIT News

麻省理工學院生物工程系的Termeer醫學工程和科學教授Jim Collins以及Abdul Latif Jameel健康機器學習診所(Jameel Clinic)的生命科學教職領導,與一些同事一起決定解決這個問題。他們提出的解決方案名為BioAutoMATED,一篇關於該方案的開放訪問論文於6月21日在Cell Systems上發表。

對於科學和工程實驗室來說,招募機器學習研究人員可能是一個耗時且財務成本高昂的過程。即使有機器學習專家,選擇適當的模型、為模型格式化數據集,然後進行微調都可能會大大改變模型的性能,並需要大量的工作。

“在你的機器學習項目中,你通常會花多少時間在數據準備和轉換上?”谷歌2022年的《機器學習基礎》課程問道。提供的兩個選擇是“少於項目時間的一半”或“超過項目時間的一半”。如果你選擇了後者,你是正確的;谷歌表示,格式化數據需要超過80%的項目時間,這還不包括將問題構建成機器學習術語所需的時間。

“對於許多希望使用機器學習或生物學的人來說,找出適合我們數據集的適當模型需要花費數週的努力,這是一個非常困難的步驟,”生物工程學博士生Jacqueline Valeri在Collins實驗室的第一作者在論文中表示。

BioAutoMATED是一個自動機器學習系統,可以為給定的數據集選擇和構建適當的模型,甚至可以處理繁瑣的數據預處理任務,將數月的過程縮短為幾小時。自動機器學習(AutoML)系統目前仍處於相對初級的發展階段,目前主要用於圖像和文本識別,但在生物學的子領域中很少使用,第一作者和Jameel Clinic的博士後研究員Luis Soenksen博士指出。

“生物學的基本語言是基於序列的,”在麻省理工學院機械工程系獲得博士學位的Soenksen解釋道。“生物序列,如DNA、RNA、蛋白質和糖類具有驚人的信息特性,它們本質上是標準化的,就像字母表一樣。許多AutoML工具都是為文本開發的,所以將其擴展到[生物]序列是有道理的。”

此外,大多數AutoML工具只能探索和構建簡化的模型。“但是在項目開始時,你無法確定哪種模型對於你的數據集最好,”Valeri說。“通過將多個工具納入一個統一的工具中,我們實際上允許了比任何單個AutoML工具更大的搜索空間。”

BioAutoMATED的監督式機器學習模型包括三種類型:二元分類模型(將數據分為兩個類別)、多類分類模型(將數據分為多個類別)和回歸模型(擬合連續數值或測量變量之間關係的強度)。BioAutoMATED甚至能夠幫助確定訓練所選模型所需的數據量。

“我們的工具探索了更適合較小、較稀疏的生物數據集以及更複雜的神經網絡模型,” Valeri說道。這對於具有可能適用於機器學習問題的新數據的研究團隊來說是一個優勢。

Soenksen解釋道:“在生物學和機器學習的交叉領域進行新穎且成功的實驗可能需要大量資金。”“目前,生物學為中心的實驗室需要在能夠確定他們的想法是否有望成功之前,投資大量的數字基礎設施和AI-ML訓練有素的人力資源。我們希望降低這些對於生物領域專家的門檻。”通過BioAutoMATED,研究人員可以自由地進行初步實驗,以評估是否值得聘請機器學習專家來建立不同的模型進行進一步實驗。

這個開源代碼是公開可用的,並且,研究人員強調,它很容易運行。“我們希望看到的是人們拿起我們的代碼,改進它,並與更大的社區合作,使其成為一個所有人都可以使用的工具,”Soenksen說。“我們希望為生物研究社區提供基礎,並提高與AutoML技術相關的意識,這是一個比當今更好地將嚴謹的生物實踐與快節奏的AI-ML實踐相結合的有用途徑。”

Collins教授是該論文的高級作者,同時也隸屬於麻省理工學院醫學工程與科學研究所、哈佛-麻省理工學院健康科學與技術計劃、麻省理工學院和哈佛大學的Broad研究所以及Wyss研究所。該論文的其他麻省理工學院貢獻者包括Katherine M. Collins ’21、Nicolaas M. Angenent-Mari博士 ’21、Felix Wong(前生物工程、IMES和Broad研究所的博士後研究員)以及Timothy K. Lu(生物工程和電機工程與計算機科學教授)。

這項工作在一定程度上得到了國防威脅減緩局資助、國防高級研究計劃局SD2計劃、Paul G. Allen Frontiers Group、哈佛大學生物靈感工程Wyss研究所、MIT-Takeda研究生獎學金、Siebel基金會獎學金、CONACyT資助、MIT-TATA中心研究生獎學金、強生公司本科研究獎學金、Barry Goldwater獎學金、馬歇爾獎學金、劍橋信託基金以及美國國家過敏和傳染病研究所的資助。這項工作是Antibiotics-AI項目的一部分,該項目得到了Audacious Project、Flu Lab, LLC、Sea Grape Foundation、Rosamund Zander和Hansjorg Wyss為Wyss基金會以及一位匿名捐助者的支持。

新增留言