簡化學習控制機器人的方法

研究人員開發出一種機器學習技術,可以有效地學習控制機器人,從而在條件迅速變化的動態環境中實現更好的性能

來源:  MIT News

white and gray quadcopter drone

麻省理工學院和史丹福大學的研究人員提出了一種新的機器學習方法,可以更有效地控制機器人,如無人機或自動駕駛車輛,在條件迅速變化的動態環境中使用。

這種技術可以幫助自動駕駛車輛學習如何在滑溜的路面條件下避免打滑,使無人機能夠在強風的影響下緊密跟隨下坡滑雪者,或者使自由飛行器能夠拖曳不同的物體。

研究人員的方法將控制理論的某些結構納入到學習模型的過程中,從而實現了一種有效控制複雜動態的方法,例如風對飛行器軌跡的影響。可以將這種結構看作是一個提示,可以幫助指導如何控制系統。

麻省理工學院機械工程系和數據、系統和社會研究所(IDSS)的Esther和Harold E. Edgerton助理教授兼LIDS實驗室成員Navid Azizan表示:“我們的工作重點是學習系統動態中的內在結構,以便設計更有效的穩定控制器。通過從數據中聯合學習系統的動態和這些獨特的控制導向結構,我們能夠在現實世界中自然地創建更有效的控制器。”

使用這種結構在學習模型中,研究人員的方法可以立即從模型中提取出一個有效的控制器,而不需要額外的步驟來推導或學習控制器,這與其他機器學習方法不同。有了這種結構,他們的方法還能夠使用更少的數據學習一個有效的控制器。這可以幫助他們的基於學習的控制系統在快速變化的環境中更快地實現更好的性能。

史丹福大學的研究生Spencer M. Richards表示:“這項工作試圖在識別系統結構和僅僅從數據中學習模型之間取得平衡。我們的方法受到機器人學家如何使用物理學來推導簡化機器人模型的啟發。對這些模型的物理分析通常可以得出有用的控制結構,而如果你只是嘗試通過數據來適應模型,你可能會錯過這些結構。相反,我們試圖從數據中識別出類似有用的結構,以指示如何實現控制邏輯。”

該研究論文的其他作者是麻省理工學院機械工程系和腦科學系的教授Jean-Jacques Slotine,以及史丹福大學航太學系的副教授Marco Pavone。這項研究將在國際機器學習大會(ICML)上發表。

學習控制器

確定控制機器人以完成特定任務的最佳方法可能是一個困難的問題,即使研究人員知道如何對系統進行建模。

例如,控制器是使無人機按照期望的軌跡飛行的邏輯。這個控制器會告訴無人機如何調整旋翼力來補償風的影響,以避免偏離穩定的路徑,達到目標。

這個無人機是一個動態系統,即一個隨著時間演變的物理系統。在這種情況下,它的位置和速度會隨著飛行環境的變化而改變。如果這樣的系統足夠簡單,工程師可以手動推導出一個控制器。

通過手動建模,可以根據系統的物理特性捕捉到某種結構。例如,如果使用微分方程手動建模機器人,可以捕捉到速度、加速度和力之間的關係。加速度是速度隨時間的變化率,由機器人的質量和施加在機器人上的力決定。

但是,系統往往過於複雜,無法通過手動建模準確地建模。例如,空氣動力學效應,如旋風對飛行器的影響,是非常難以手動推導的,Richards解釋道。研究人員通常會測量無人機的位置、速度和旋翼速度隨時間的變化,並使用機器學習將這個動態系統的模型與數據進行拟合。但是,這些方法通常不會學習到基於控制的結構。這種結構有助於確定如何最佳地設置旋翼速度以控制無人機的運動。

在建模動態系統之後,許多現有方法還使用數據來學習系統的獨立控制器。

Richards表示:“從數據中學習動態和控制器的其他方法在哲學上與我們通常為簡單系統所做的方法有些脫節。我們的方法更像是從物理學中推導模型並將其與控制相關聯的方式。”

識別結構

麻省理工學院和史丹福大學的團隊開發了一種使用機器學習來學習動力學模型的技術,但以一種有用於控制系統的預定結構來建立模型。

通過這種結構,他們可以直接從動力學模型中提取控制器,而不是使用數據來學習完全獨立的控制器模型。

阿齊贊表示:“我們發現,除了學習動力學外,還必須學習支持有效控制器設計的控制導向結構。我們學習動力學的狀態相關係數分解方法在數據效率和跟踪能力方面優於基準方法,證明在有效控制系統軌跡方面取得了成功。”

當他們測試這種方法時,他們的控制器緊密地跟隨期望的軌跡,超越了所有基準方法。從他們學習的模型中提取的控制器幾乎與使用系統的精確動力學建立的真實控制器的性能相匹配。

理查茲補充說:“通過做出更簡單的假設,我們得到了比其他複雜的基準方法更好的結果。”

研究人員還發現,他們的方法具有高效的數據利用率,即使只有少量數據,也能實現高性能。例如,它可以有效地使用僅100個數據點對高度動態的旋轉驅動載具進行建模。使用多個學習組件的方法在數據集較小的情況下性能下降得更快。

這種效率使得他們的技術在無人機或機器人需要在快速變化的條件下快速學習的情況下尤其有用。

此外,他們的方法是通用的,可以應用於許多類型的動態系統,從機械臂到在低重力環境中運行的自由飛行航天器。

未來,研究人員有興趣開發更具物理可解釋性的模型,能夠識別關於動態系統的具體信息。這可能會帶來更好的性能控制器。

未參與此項工作的賓夕法尼亞大學電氣與系統工程系助理教授尼古拉·馬特尼表示:“儘管非線性反饋控制無處不在且至關重要,但它仍然是一門藝術,因此非常適合數據驅動和基於學習的方法。這篇論文通過提出一種共同學習系統動力學、控制器和控制導向結構的方法,在這一領域做出了重要貢獻。我特別激動和有說服力的是將這些組件整合到一個共同的學習算法中,使得控制導向結構在學習過程中起到歸納偏差的作用。結果是一個數據高效的學習過程,輸出具有內在結構的動態模型,實現有效、穩定和強健的控制。儘管論文的技術貢獻本身就很出色,但我認為最令人興奮和重要的是這一概念性貢獻。”

這項研究得到了美國國家太空總署大學領導力計劃和加拿大自然科學和工程研究委員會的部分支持。

新增留言