您現在的位置是:首頁 > 機器人網站首頁機器人

OpenAI的AI動力機器人學會了如何單手解決魔方

  • 機器人
  • 2019-10-16 16:54:00

人工智能研究組織OpenAI在構建通用自學機器人方面取得了新的里程碑。該組織的機器人部門說,Dactyl是去年首次開發的類人機器人手,已經學會了單手解決魔方的問題。OpenAI將這一壯舉視為機器人附件靈巧性及其自己的AI軟件的飛躍,這使Dactyl可以在面臨實際挑戰之前,利用虛擬仿真學習虛擬任務中的新任務。

在演示Dactyl的新才能的演示視頻中,我們可以看到機器人手笨拙而準確地操縱著自己的手,朝著完整的立方體求解的方向摸索。這需要花費幾分鐘,但Dactyl最終能夠解決難題。看到動作實在有些令人不安,這僅僅是因為動作看上去比人的動作明顯少,并且與人類速記員在幾秒鐘內解決多維數據集時所顯示的致盲速度和原始靈巧性相比,動作尤為明顯。

但是對于OpenAI而言,Dactyl的成就使它更接近了更廣泛的AI和機器人行業所追求的目標:可以學習執行各種現實任務的機器人,而無需經過數月至數年的訓練實際時間,而無需進行專門編程。

“大量的機器人可以非常快速地解決Rubik的多維數據集。他們在這里所做的事情與我們在這里所做的事情之間的重要區別在于,這些機器人是專門制造的。” OpenAI的研究科學家兼機器人負責人Peter Welinder說。“顯然,您無法使用相同的機器人或相同的方法來執行其他任務。OpenAI的機器人團隊的野心截然不同。我們正在嘗試構建通用機器人。與人類以及人類的手能做很多事情(不僅是一項特定任務)相似,我們正在嘗試構建一種范圍更廣的東西。”

在過去的幾年中,Welinder引用了一系列機器人,這些機器人使Rubik的多維數據集求解遠遠超出了人類的雙手和思維范圍。2016年,半導體制造商英飛凌開發了一款專門用于以超人的速度解決魔方的機器人,該機器人在不到一秒鐘的時間內就做到了這一點。那打破了當時不到五分之二的人類世界紀錄。兩年后,麻省理工學院開發的機器在不到0.4秒的時間內解決了一個立方體。在2018年末,日本YouTube頻道名為Human Controller甚至使用連接到可編程伺服電機的3D打印核心開發了自己的自解魔方。

多年來,機器已經能夠以超人的速度解決魔方

換句話說,為一個特定任務而構建的機器人,并被編程為盡可能高效地執行該任務通常可以使人類受益,而Rubik的立方體求解是軟件早已掌握的東西。因此,開發一個機器人來解決立方體,甚至是人形機器人,本身并不是那么出色,而且以Dactyl運轉緩慢的速度就更是如此。

但是,OpenAI的Dactyl機器人和為其提供動力的軟件在設計和用途上與專用的立方體求解機有很大不同。正如Welinder所說,OpenAI正在進行的機器人工作并非旨在在狹窄的任務中取得優異的結果,因為這只需要您開發更好的機器人并對其進行相應編程。這可以在沒有現代人工智能的情況下完成。

取而代之的是,Dactyl是一種自學式的機器人手,可以像人類一樣處理新任務。它使用軟件進行培訓,目前該軟件以一種基本的方式嘗試復制數百萬年的演變,幫助我們學習從小就憑本能來使用自己的雙手。OpenAI希望有一天可以幫助人類發展我們只能從科幻小說中了解到的類人機器人,這種機器人可以安全地在社會中運行而不會危害我們,并且可以在城市街道和工廠車間等混亂的環境中執行各種任務。

為了學習如何單手解決魔方,OpenAI并未明確編寫Dactyl來解決玩具。互聯網上的免費軟件可以為您做到這一點。它還選擇不對要執行的手的單個動作進行編程,因為它希望自己識別這些動作。取而代之的是,機器人團隊為手的底層軟件提供了解決混亂的多維數據集的最終目標,并使用了現代化的AI(特別是一種基于激勵的深度學習品牌,稱為強化學習)來幫助其自行解決。培訓AI代理人的相同方法是OpenAI開發其世界一流的Dota 2機器人的方法。

但是直到最近,訓練一個AI代理虛擬地做某事(例如玩計算機游戲)要比訓練它執行真實任務要容易得多。這是因為可以加快在虛擬世界中執行某項任務的培訓軟件的速度,從而得益于成千上萬的高端CPU和超高性能,AI可以在短短幾個月的真實世界中花費數萬年的培訓時間強大的GPU并行工作。

用物理機器人進行相同水平的培訓來執行物理任務是不可行的。這就是為什么OpenAI試圖在模擬環境中代替現實世界中率先采用新的機器人培訓方法的原因,而機器人行業幾乎沒有嘗試過這種方法。這樣,該軟件可以同時在許多不同的計算機上以加速的速度進行廣泛的練習,希望它在開始控制真正的機器人時保留這些知識。

OPENAI的DACTYL機器人手由AI軟件提供動力

由于培訓限制和明顯的安全隱患,當今商業上使用的機器人不再使用AI,而是使用非常具體的指令進行編程。“過去采用這種方法的方式是,您使用非常專門的算法來解決任務,在此您可以對機器人和運行環境進行精確建模,” Welinder說。“對于工廠機器人,您擁有非常精確的模型,并且您確切地知道您正在工作的環境。您確切知道它將如何拾取特定部分。”

這也是為什么當前的機器人比人類的通用性要差得多的原因。對組裝例如汽車或計算機組件的一個特定部分的機器人進行其他操作的機器人進行重新編程需要大量的時間,精力和金錢。提出一個機器人,即使是涉及任何水平的人類敏捷或視覺處理的簡單任務,也都沒有經過適當的培訓,這將導致嚴重的故障。但是,借助現代AI技術,機器人可以像人類一樣建模,以便他們可以使用對世界的直覺理解來完成從開門到煎蛋的一切工作。至少那是夢想。

我們距離這種復雜的水平還差幾十年,而且AI社區在軟件方面取得的飛躍(例如自動駕駛汽車,機器翻譯和圖像識別)還沒有完全轉換為下一代機器人。目前,OpenAI只是試圖模仿人體一個部位的復雜性,并使該機器人模擬物更加自然地運轉。

這就是Dactyl是仿照人手建模的24關節機器人手的原因,而不是您在工廠中看到的爪形或鉗式機器人抓手。對于支持Dactyl來學習如何以人類方式利用所有這些關節的軟件,OpenAI在嘗試解決物理立方體問題之前,已對其進行了數千年的模擬培訓。

“如果您要在現實世界中的機器人上進行訓練,那么顯然,無論您學到的是什么,都在研究您實際想要在其上部署算法的東西。這樣,它就簡單得多。但是當今的算法需要大量數據。訓練一個現實世界的機器人,做任何復雜的事情,都需要多年的經驗。” Welinder說。“即使對于一個人來說,也要花費幾年的時間,并且人類擁有數百萬年的進化才能擁有學習操作手的能力。”

然而,在仿真中,Welinder說可以像在玩游戲和以AI基準為基準的其他任務一樣加速訓練。“這需要數千年的時間來訓練算法。但這只需要幾天時間,因為我們可以并行進行培訓。在訓練這些算法時,您也不必擔心機器人會損壞或傷害某人。”他補充道。但是,過去,研究人員在嘗試進行虛擬訓練以在物理機器人上工作時遇到了相當大的麻煩。OpenAI表示,它是最早真正看到這方面進展的組織之一。

當給它一個真實的立方體時,Dactyl便將其培訓投入使用并自行解決,并且它在從未明確培訓過的各種條件下進行了培訓。這包括用一只手戴著手套的多維數據集解開,用兩只手指將其綁在一起,同時OpenAI成員通過用其他物體戳它并用泡沫和像紙屑一樣的紙屑淋洗來不斷干擾它。

在通過模擬測試其技能之前,OPENAI使用模擬對DACTYL進行了數千年的培訓

“我們發現,在所有這些干擾中,機器人仍然能夠成功旋轉魔方。但這并沒有在訓練中得到解決。” Welinder的OpenAI機器人團隊負責人Matthias Plappert說。“當我們在物理機器人上嘗試此功能時,發現的堅固性令我們感到驚訝。”

這就是為什么OpenAI認為Dactyl的新技能對于機器人硬件和AI培訓的發展同等重要。即使是世界上最先進的機器人,例如行業領導者Boston Dynamics開發的類人機器人和類似狗的機器人,也無法自主運行,并且它們需要進行大量特定于任務的編程并需要頻繁的人工干預才能執行基本動作。

OpenAI表示,Dactyl是邁向這類機器人的一個很小但至關重要的步驟,這種機器人可能有一天可以執行體力勞動或家務勞動,甚至可以與人類一起工作,而不是在封閉的環境中進行操作,而無需任何明確的程序來控制它們的動作。

在對未來的愿景中,機器人學習新任務并適應不斷變化的環境的能力將與AI的靈活性和物理機的健壯性一樣重要。“這些方法真的開始證明它們是解決我們所生活的物理世界的所有內在復雜性和混亂性的解決方案,” Plppert說。

Top 河南22选5尾号走势图