機(jī)器人計(jì)算發(fā)展現(xiàn)狀及展望
中國(guó)網(wǎng)/中國(guó)發(fā)展門戶網(wǎng)訊 在過去幾十年中,計(jì)算行業(yè)已經(jīng)成為全球經(jīng)濟(jì)的關(guān)鍵驅(qū)動(dòng)力,在經(jīng)歷了個(gè)人計(jì)算、移動(dòng)計(jì)算及云計(jì)算等多個(gè)發(fā)展階段后,機(jī)器人計(jì)算逐漸嶄露頭角。本文提出機(jī)器人計(jì)算的擴(kuò)展和成長(zhǎng)有其明確的軌跡,并將成為推動(dòng)世界經(jīng)濟(jì)的新引擎。
機(jī)器人計(jì)算系統(tǒng)的軟件與硬件統(tǒng)稱為機(jī)器人計(jì)算。隨著機(jī)器人計(jì)算的發(fā)展,機(jī)器人在執(zhí)行復(fù)雜任務(wù)和覆蓋廣泛應(yīng)用場(chǎng)景方面的能力進(jìn)一步提升,預(yù)示著生產(chǎn)力的新一輪飛躍。本文基于中國(guó)已形成的機(jī)器人產(chǎn)業(yè)鏈體系,聚焦于機(jī)器人計(jì)算這一核心環(huán)節(jié),以機(jī)器人應(yīng)用軟件增長(zhǎng)為驅(qū)動(dòng)力,分析機(jī)器人產(chǎn)業(yè)增長(zhǎng)點(diǎn);從編程語言、編譯器到硬件架構(gòu),旨在設(shè)計(jì)全面的機(jī)器人計(jì)算系統(tǒng),為中國(guó)機(jī)器人計(jì)算的發(fā)展提供引領(lǐng)性和基礎(chǔ)性參考。
機(jī)器人計(jì)算的發(fā)展現(xiàn)狀及不足
目前,中國(guó)已成為全球機(jī)器人市場(chǎng)的主要參與者之一。截至2022年,全球機(jī)器人市場(chǎng)總值達(dá)到513億美元,2017—2022年的平均年增長(zhǎng)率為14%,而中國(guó)的機(jī)器人市場(chǎng)規(guī)模達(dá)到了174億美元,2017—2022年的平均年增長(zhǎng)率更是高達(dá)22%;預(yù)計(jì)2024年,全球機(jī)器人市場(chǎng)將超過650億美元,其中工業(yè)機(jī)器人、服務(wù)機(jī)器人和特種機(jī)器人的市場(chǎng)都將突破百億美金規(guī)模。伴隨大模型帶來更強(qiáng)大的智能決策和規(guī)劃能力,機(jī)器人計(jì)算將成為未來最重要的計(jì)算范式之一。針對(duì)機(jī)器人產(chǎn)業(yè)定義機(jī)器人計(jì)算范式,將成為未來10年內(nèi)主導(dǎo)該產(chǎn)業(yè)的關(guān)鍵:①機(jī)器人計(jì)算像移動(dòng)計(jì)算和云計(jì)算一樣,將開拓?cái)?shù)以萬億的新市場(chǎng),這一市場(chǎng)的潛力將通過更多智能化應(yīng)用軟件得到激活;②機(jī)器人計(jì)算的迅猛發(fā)展將依賴于研究者對(duì)編程語言和硬件的端到端開發(fā)和創(chuàng)新。
機(jī)器人計(jì)算概述
機(jī)器人通常由本體和計(jì)算系統(tǒng)組成。本體是機(jī)器人與物理世界交互的組件;計(jì)算系統(tǒng)包括機(jī)器人上運(yùn)行的算法與執(zhí)行算法的計(jì)算硬件,是機(jī)器人完成任務(wù)的核心系統(tǒng),計(jì)算系統(tǒng)的智能化決定了機(jī)器人的能力上限。其中,廣義的計(jì)算系統(tǒng)通常由3個(gè)部分組成: 感知模塊,由多種傳感器組成,負(fù)責(zé)采集環(huán)境信息; 計(jì)算模塊,通過感知信息的輸入對(duì)機(jī)器人行動(dòng)進(jìn)行決策; 控制模塊,將計(jì)算模塊的決策輸出到機(jī)器人本體并與環(huán)境進(jìn)行交互。機(jī)器人應(yīng)用軟件在機(jī)器人計(jì)算系統(tǒng)上運(yùn)行,多種多樣的機(jī)器人應(yīng)用軟件構(gòu)成了機(jī)器人生態(tài)。本文主要關(guān)注以計(jì)算模塊為主的機(jī)器人計(jì)算領(lǐng)域,但是感知模塊與控制模塊同樣是機(jī)器人計(jì)算中重要的研究問題,將感知、計(jì)算與控制集成到同一款芯片上,形成“感—算—控”一體的解決方案,也是當(dāng)前的一個(gè)趨勢(shì)。
機(jī)器人計(jì)算的目的在于通過使用多種形態(tài)的機(jī)器人替代人類完成任務(wù)。當(dāng)前,因?yàn)闄C(jī)器人的成本進(jìn)一步降低,各行業(yè)使用機(jī)器人的意愿大大增強(qiáng),機(jī)器人已在汽車制造、電子制造、倉(cāng)儲(chǔ)運(yùn)輸、醫(yī)療康復(fù)等多個(gè)行業(yè)被使用,并逐漸從傳統(tǒng)的單一簡(jiǎn)單固定場(chǎng)景向長(zhǎng)序列復(fù)雜場(chǎng)景進(jìn)行應(yīng)用轉(zhuǎn)換。
算力是機(jī)器人計(jì)算產(chǎn)業(yè)爆發(fā)式增長(zhǎng)的關(guān)鍵
無論是個(gè)人計(jì)算、移動(dòng)計(jì)算或者云計(jì)算的爆發(fā),都起源于算力的增長(zhǎng),而算力的增長(zhǎng)則源于半導(dǎo)體技術(shù)的發(fā)展。半導(dǎo)體技術(shù)的進(jìn)步帶來了更多有趣、有意義的應(yīng)用軟件,再由應(yīng)用軟件拓展出更大的市場(chǎng)。以移動(dòng)計(jì)算為例,盡管移動(dòng)電話在20世紀(jì)初已經(jīng)成為一種商品,但其功能單一,有超過90%的算力都被用于通信相關(guān)的編碼、解碼計(jì)算,可被用于應(yīng)用軟件的算力不足10%,整個(gè)移動(dòng)計(jì)算的市場(chǎng)也僅有100億美元左右;隨著智能手機(jī)的發(fā)展,算力不斷被提升,更充沛的算力得以支持搜索、觀看視頻、游戲等更多應(yīng)用軟件,移動(dòng)計(jì)算生態(tài)系統(tǒng)的市場(chǎng)規(guī)模如今已經(jīng)達(dá)到8 000億美元(圖1)。
一個(gè)計(jì)算范式在步入成熟期之后,其市場(chǎng)規(guī)模遠(yuǎn)超其對(duì)應(yīng)的半導(dǎo)體市場(chǎng)。以移動(dòng)計(jì)算為例,2022年,移動(dòng)端處理器的市場(chǎng)規(guī)模約為350億美元,對(duì)應(yīng)的手機(jī)市場(chǎng)規(guī)模為2 700億美元,而滋生的移動(dòng)計(jì)算市場(chǎng)規(guī)模則達(dá)到了8 000億美元,是移動(dòng)處理器市場(chǎng)的23倍。同理,個(gè)人計(jì)算處理器的市場(chǎng)規(guī)模為550億美元,個(gè)人電腦的市場(chǎng)規(guī)模約為1 500億美元,而個(gè)人計(jì)算生態(tài)系統(tǒng)的市場(chǎng)規(guī)模達(dá)到了9 000億美元,是其對(duì)應(yīng)半導(dǎo)體市場(chǎng)的16倍。
機(jī)器人計(jì)算的發(fā)展遠(yuǎn)遠(yuǎn)沒有達(dá)到上述移動(dòng)計(jì)算和個(gè)人計(jì)算的規(guī)模,而重要瓶頸在于當(dāng)前機(jī)器人計(jì)算系統(tǒng)的絕大部分算力仍被用于基礎(chǔ)功能。據(jù)筆者研究分析,機(jī)器人計(jì)算系統(tǒng)設(shè)計(jì)將機(jī)器人計(jì)算能力的50%用于感知、20%用于定位、25%用于規(guī)劃,僅有5%用于應(yīng)用軟件,這與移動(dòng)計(jì)算時(shí)代初期的移動(dòng)電話情況非常相似。在上述計(jì)算能力分配情況下,機(jī)器人無法執(zhí)行智能任務(wù),即機(jī)器人計(jì)算的生態(tài)系統(tǒng)幾乎不存在。
釋放軟件開發(fā)人員的想象力,形成機(jī)器人應(yīng)用軟件的生態(tài)系統(tǒng)。本文認(rèn)為包括感知、定位和規(guī)劃在內(nèi)的基本操作應(yīng)消耗不到20%的計(jì)算能力,從而將80%的計(jì)算能力留給應(yīng)用軟件,還可定義更多有趣的機(jī)器人應(yīng)用軟件,擴(kuò)展機(jī)器人計(jì)算生態(tài)系統(tǒng)。例如,機(jī)器人計(jì)算的一個(gè)有趣應(yīng)用軟件是自主移動(dòng)診所,它將能夠解決醫(yī)療服務(wù)的獲取和公平問題,根據(jù)病人的指令將醫(yī)療服務(wù)送到病人家門口。
機(jī)器人計(jì)算系統(tǒng)發(fā)展前景
機(jī)器人計(jì)算系統(tǒng)的發(fā)展與機(jī)器人應(yīng)用軟件的豐富程度是相輔相成的。對(duì)比火熱的人工智能應(yīng)用軟件,機(jī)器人計(jì)算系統(tǒng)從編程語言到硬件架構(gòu)都存在極好的發(fā)展?jié)摿?,但?dāng)前機(jī)器人計(jì)算系統(tǒng)的不足也是全棧的、多層次的。
提供開發(fā)者更容易理解與操作的編程語言和框架,允許應(yīng)用軟件層面更靈活開發(fā),解放軟件開發(fā)者的限制,催生更多有趣的應(yīng)用軟件。人工智能應(yīng)用軟件在編程語言層面有著非常成熟且易于使用的框架,例如開源深度學(xué)習(xí)框架Pytorch學(xué)習(xí)成本低且開發(fā)者可以較低成本開發(fā)多種應(yīng)用軟件。而對(duì)于機(jī)器人應(yīng)用軟件而言,尚未出現(xiàn)類似Pytorch的編程語言或框架。對(duì)于開發(fā)者來說,機(jī)器人應(yīng)用軟件的編程難度極高,需要掌握大量關(guān)于機(jī)器人本身的獨(dú)特信息,如傳感器參數(shù)、機(jī)器人物理模型等。促進(jìn)機(jī)器人應(yīng)用軟件的爆發(fā),首先需要一套簡(jiǎn)潔的、可編程的、面向?qū)ο蟮木幊陶Z言或框架,方便開發(fā)者對(duì)機(jī)器人進(jìn)行編程。
促成機(jī)器人產(chǎn)業(yè)爆發(fā)式增長(zhǎng)的關(guān)鍵在于通過機(jī)器人專用架構(gòu)的設(shè)計(jì),提供更多算力。類比通用圖形處理器(GPGPU)、神經(jīng)網(wǎng)絡(luò)處理器(NPU)、張量處理器(TPU)之于人工智能算法,機(jī)器人的專用架構(gòu)尚未被明確定義和提出,絕大多數(shù)機(jī)器人仍在使用通用硬件,導(dǎo)致大量算力被用于提供感知、定位、控制等機(jī)器人基礎(chǔ)計(jì)算上,無法支持高智能化的應(yīng)用軟件。
機(jī)器人編程語言
由于缺乏良好的系統(tǒng)抽象與運(yùn)行時(shí)系統(tǒng)來管理實(shí)時(shí)約束和系統(tǒng)資源分配,程序員必須掌握機(jī)器人應(yīng)用軟件、機(jī)器人算法和計(jì)算系統(tǒng)方面的知識(shí),導(dǎo)致機(jī)器人的編程工作極具挑戰(zhàn)性。為了將程序員從系統(tǒng)細(xì)節(jié)中解放出來,應(yīng)該在已定義的架構(gòu)之上開發(fā)一個(gè)編程和運(yùn)行系統(tǒng)(圖2),讓程序員只需幾行代碼就能開發(fā)出擁有不同功能的機(jī)器人。
目前,機(jī)器人根據(jù)其需要執(zhí)行的各種任務(wù)依賴于大量的專用組件,包括定位和導(dǎo)航、目標(biāo)檢測(cè)和規(guī)避等與外部環(huán)境相關(guān)的(硬)實(shí)時(shí)任務(wù)。每個(gè)任務(wù)都在嚴(yán)格的性能范圍內(nèi)與其他任務(wù)進(jìn)行數(shù)據(jù)通信,但同時(shí)很可能依賴的是截然不同的硬件目標(biāo),如使用中央處理器(CPU)進(jìn)行調(diào)度、使用圖形處理器(GPU)進(jìn)行神經(jīng)網(wǎng)絡(luò)處理、使用現(xiàn)場(chǎng)可編程邏輯門陣列(FPGA)或數(shù)字信號(hào)處理技術(shù)(DSP)芯片進(jìn)行圖像處理等。因此,應(yīng)該有一些具有表現(xiàn)力的“語言”,在高層次上描述每項(xiàng)任務(wù)應(yīng)包含的內(nèi)容、適當(dāng)?shù)模ㄌ囟I(lǐng)域的)語義,同時(shí)描述“語言”之間的接口。
機(jī)器人作為一個(gè)整體,實(shí)時(shí)和運(yùn)行時(shí)上下文可以自由決定在目標(biāo)任務(wù)運(yùn)行過程中的某個(gè)特定時(shí)刻使用底層硬件的哪個(gè)部分來運(yùn)行。為此,設(shè)計(jì)一套新的領(lǐng)域?qū)S谜Z言(DSL)是必要的,但還不足夠。由于這些機(jī)器人至少有部分任務(wù)會(huì)嚴(yán)重依賴機(jī)器學(xué)習(xí)技術(shù),因此還應(yīng)該有一種方法將高級(jí)描述降低到中間表示形式,從而使編譯器能夠?yàn)楫悩?gòu)設(shè)備系列生成代碼。
基于數(shù)據(jù)流圖的機(jī)器人編程語言
傳統(tǒng)機(jī)器人編程語言的設(shè)計(jì),其目的并非為了方便開發(fā)者進(jìn)行開發(fā),而是為了保證通用且方便底層硬件的執(zhí)行。絕大多數(shù)機(jī)器人的定位、控制等模塊都基于傳統(tǒng)的面向過程的語言進(jìn)行開發(fā),較差的封裝性給應(yīng)用軟件開發(fā)者帶來了極高的難度。盡管面向整體機(jī)器人應(yīng)用軟件的編程語言或框架尚不存在,但研究人員已經(jīng)針對(duì)機(jī)器人計(jì)算系統(tǒng)中的不同模塊進(jìn)行了編程語言或框架的開發(fā),典型例子如面向視覺感知模塊中的圖像處理專用語言Halide、面向視覺感知模塊中常用算法深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練與推理的專用框架Pytorch。
為解決機(jī)器人應(yīng)用軟件缺乏一個(gè)編程語言框架問題,研究人員開發(fā)了一種簡(jiǎn)潔精確的高級(jí)語言,用于表示機(jī)器人的計(jì)算圖,即一種原型語言。由于機(jī)器人計(jì)算可以用數(shù)據(jù)流圖來表示,因此函數(shù)式編程范式自然為描述機(jī)器人的行為提供了一種有效的方法,有了函數(shù)式編程,程序員與開發(fā)者只需幾行說明和代碼就能描述應(yīng)用軟件(圖3)。
基于因子圖的機(jī)器人編程框架
研究人員根據(jù)前文描述的原型語言進(jìn)行了實(shí)例化,提出了一個(gè)利用Python等高級(jí)語言形成的基于因子圖的機(jī)器人編程框架。這一編程框架解決了針對(duì)應(yīng)用軟件開發(fā)者通常對(duì)機(jī)器人傳感器的物理模型與參數(shù)了解很少、但編程的時(shí)候常常需要使用的問題。將相機(jī)、激光雷達(dá)、慣性里程計(jì)等傳感器模型使用編程框架進(jìn)行封裝,構(gòu)成不同的因子,開發(fā)者根據(jù)需求對(duì)不同的因子進(jìn)行拼接和組裝,形成因子圖。例如,開發(fā)者希望機(jī)器人使用相機(jī)和激光雷達(dá)進(jìn)行自我定位,那么開發(fā)者只需要通過選取相機(jī)因子和激光雷達(dá)因子構(gòu)建定位的因子圖,即可描述應(yīng)用軟件(圖4)。
無論是面向單一模塊或面向整體機(jī)器人應(yīng)用軟件,研究人員的工作都在嘗試解決機(jī)器人編程難這一問題。目前,機(jī)器人計(jì)算系統(tǒng)研究者的共識(shí)是試圖通過面向?qū)ο蟮木幊炭蚣軐?duì)機(jī)器人編程中常見又難以被開發(fā)者掌握的傳感器模型進(jìn)行封裝,從而大幅降低機(jī)器人編程難度。開發(fā)者使用機(jī)器人專用編程語言和框架可以大幅提高編程效率。然而,當(dāng)前的編程模型仍然與頂層應(yīng)用軟件和算法存在一定的差距,研究人員在目前的研究工作基礎(chǔ)上,對(duì)機(jī)器人編程語言和編輯框架進(jìn)一步完善,降低開發(fā)者在開發(fā)機(jī)器人應(yīng)用軟件時(shí)的難度。
機(jī)器人計(jì)算專用架構(gòu)
賦能機(jī)器人多樣能力的關(guān)鍵在于機(jī)器人芯片算力的提升,而硬件架構(gòu)的專用化則是實(shí)現(xiàn)這一目標(biāo)的手段。以移動(dòng)計(jì)算為例,移動(dòng)手機(jī)的處理器從功能非常簡(jiǎn)單的英國(guó)ARM公司生產(chǎn)的芯片,逐漸進(jìn)步到當(dāng)前功能復(fù)雜的專用計(jì)算片上系統(tǒng),包括了信號(hào)處理專用電路、圖像處理專用電路、視頻編解碼電路、神經(jīng)網(wǎng)絡(luò)推理電路等多種移動(dòng)計(jì)算領(lǐng)域獨(dú)有的定制電路。定制電路是為機(jī)器人設(shè)計(jì)專用化、高算力的片上系統(tǒng)與解決機(jī)器人應(yīng)用算力不足的最好途徑。以下將探索并介紹3種不同的專用架構(gòu)設(shè)計(jì)思路,包括基于數(shù)據(jù)流的加速器架構(gòu),基于因子圖的加速器架構(gòu)和基于學(xué)習(xí)的加速器架構(gòu)。
基于數(shù)據(jù)流的加速器架構(gòu)
基于數(shù)據(jù)流的加速器架構(gòu)的核心思想是摒棄傳統(tǒng)的按照控制流指定的明確順序執(zhí)行指令的傳統(tǒng)架構(gòu)。控制流限制了可以利用指令級(jí)并行性(ILP)的窗口,人為地設(shè)置了性能障礙。在數(shù)據(jù)流架構(gòu)中,指令的執(zhí)行是由數(shù)據(jù)驅(qū)動(dòng)的,原則上只要指令的所有輸入可用,指令就會(huì)執(zhí)行,而不是在控制流到達(dá)指令時(shí)執(zhí)行。
研究人員通常可將傳統(tǒng)程序中的瓶頸與機(jī)器人軟件中的瓶頸進(jìn)行類比,兩者都可以通過數(shù)據(jù)流原理加以解決,這種抽象的關(guān)鍵在于機(jī)器人的軟件棧。例如,將自主車輛計(jì)算圖(圖5)視為宏數(shù)據(jù)流圖(M-DFG),其中每個(gè)節(jié)點(diǎn)代表定位和運(yùn)動(dòng)規(guī)劃等單個(gè)高級(jí)任務(wù)。這種實(shí)現(xiàn)方式催生了數(shù)據(jù)流加速器架構(gòu)(DAA)的概念,在這種架構(gòu)中,加速器通過專用的片上緩沖器直接相互通信,并自主協(xié)調(diào)。這種架構(gòu)模式有2個(gè)優(yōu)勢(shì):提供了更高水平的并行性,只要輸入數(shù)據(jù)準(zhǔn)備就緒,每個(gè)加速器就會(huì)啟動(dòng);通過讓消費(fèi)者更容易獲得操作數(shù)來加快加速器的啟動(dòng)速度,即通過允許生產(chǎn)者和消費(fèi)者使用每個(gè)加速器的片上緩沖區(qū)直接通信而不是通過主存儲(chǔ)器來實(shí)現(xiàn)的。
基于因子圖的加速器架構(gòu)
機(jī)器人專用架構(gòu)設(shè)計(jì)的一大難點(diǎn)在于系統(tǒng)的分散性和多樣性。不同于所有智能手機(jī)都具有的功能類似的通信、編解碼、圖像處理等模塊,機(jī)器人根據(jù)其形態(tài)、作用等方面的區(qū)別,功能模塊差距極大。以定位算法為例,室內(nèi)服務(wù)機(jī)器人與室外的自動(dòng)駕駛汽車的定位算法區(qū)別極大;以定位模塊為例,研究人員提出了大量針對(duì)某一種定位算法的專用加速芯片。因此,設(shè)計(jì)機(jī)器人的專用架構(gòu)設(shè)計(jì)并不缺少點(diǎn)到點(diǎn)的解決方案,而是缺少系統(tǒng)級(jí)的通用設(shè)計(jì)方法。
研究人員探索使用因子圖來對(duì)不同機(jī)器人算法進(jìn)行統(tǒng)一設(shè)計(jì),因子圖是一種表示概率分布函數(shù)因子化的圖形,已被用于定位、跟蹤、規(guī)劃和控制等許多機(jī)器人模塊中。使用因子圖作為一個(gè)通用的抽象模板有3個(gè)優(yōu)勢(shì):①為機(jī)器人優(yōu)化問題提供了簡(jiǎn)潔的表示方法,便于機(jī)器人程序員構(gòu)建程序;②圖結(jié)構(gòu)有利于稀疏數(shù)據(jù)的存儲(chǔ);③機(jī)器人優(yōu)化問題可以根據(jù)歷史信息逐步求解,從而保證高精度和低計(jì)算延遲。
研究人員首先嘗試使用以因子圖為模版對(duì)多個(gè)機(jī)器人的模塊進(jìn)行架構(gòu)設(shè)計(jì),設(shè)計(jì)了定位、規(guī)劃的因子圖加速器結(jié)構(gòu)(圖6),都得到了遠(yuǎn)超于通用架構(gòu)如英特爾(Intel)桌面處理器的性能和能效表現(xiàn)。同時(shí),由于多個(gè)不同應(yīng)用都可以通過因子圖進(jìn)行求解,研究人員也設(shè)計(jì)了一款通用的涵蓋定位、規(guī)劃、控制算法的機(jī)器人專用架構(gòu)。
基于學(xué)習(xí)的加速器架構(gòu)
越來越多的機(jī)器人計(jì)算任務(wù)都是利用基于Transformer模型等的機(jī)器學(xué)習(xí)完成的,機(jī)器人計(jì)算正在從模塊化方法(機(jī)器人計(jì)算1.0)向基于機(jī)器學(xué)習(xí)的端到端方法(機(jī)器人計(jì)算2.0)發(fā)展。機(jī)器人計(jì)算2.0中,任何機(jī)器人都要執(zhí)行感知模塊和行動(dòng)模塊這2項(xiàng)主要任務(wù),這反映了過去和未來的自然對(duì)立:① 感知模塊,通過監(jiān)督學(xué)習(xí)和自我監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,以推斷出世界狀態(tài)的唯一基本事實(shí);② 行動(dòng)模塊,需要從許多可接受的行動(dòng)序列中進(jìn)行搜索和選擇,同時(shí)還要預(yù)測(cè)其他代理的行為,故行動(dòng)模塊利用了強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)和模型預(yù)測(cè)控制等方法。
感知模塊和行動(dòng)模塊在機(jī)器人計(jì)算領(lǐng)域中的實(shí)現(xiàn)越來越趨同。最近,大語言模型(LLM)在理解大量信息以執(zhí)行多個(gè)子任務(wù)方面取得了成功,由于Transformer模型具有泛化能力,因此對(duì)于感知模塊和行動(dòng)模塊都是很好的算法基底,表明這2個(gè)模塊都可以使用基于Transformer模型的類似架構(gòu)來實(shí)現(xiàn):① 在感知方面,Transformer模型能有效地將來自多個(gè)傳感器和多個(gè)時(shí)刻的感知數(shù)據(jù)融為統(tǒng)一的表示,避免稀疏化和模塊序列化造成的信息損失;② 在行動(dòng)方面,變換器的順序性使其非常適合處理和生成時(shí)態(tài)數(shù)據(jù),尤其是對(duì)多種可能的未來路徑進(jìn)行采樣,因此一種常見的架構(gòu)抽象是將重點(diǎn)放在加速變換器的工作負(fù)載上,并將感知和動(dòng)作任務(wù)簡(jiǎn)化為不同形式的變換計(jì)算,從而大大簡(jiǎn)化編程接口。
機(jī)器人計(jì)算技術(shù)展望與發(fā)展建議
隨著半導(dǎo)體技術(shù)的不斷進(jìn)步,機(jī)器人在傳感、計(jì)算和通信方面的能力得到顯著擴(kuò)展,為多種新興應(yīng)用提供支持(圖7)。① 在傳感方面。先進(jìn)的芯片堆疊式圖像傳感器允許在傳感器內(nèi)部直接進(jìn)行高級(jí)計(jì)算,例如深度神經(jīng)網(wǎng)絡(luò)(DNN)處理后有效減少了數(shù)據(jù)傳輸成本,單光子雪崩二極管(SPAD)技術(shù)能捕捉實(shí)時(shí)的三維場(chǎng)景信息從而克服傳統(tǒng)機(jī)械式激光雷達(dá)的諸多局限。② 在計(jì)算領(lǐng)域。設(shè)計(jì)機(jī)器人計(jì)算系統(tǒng)的關(guān)鍵在于處理來自不同類型機(jī)器人的復(fù)雜計(jì)算圖,同時(shí)滿足實(shí)時(shí)性能、成本和能源效率的要求。結(jié)合已定義的機(jī)器人計(jì)算架構(gòu)和多芯片設(shè)計(jì)、異構(gòu)集成、內(nèi)存處理以及“光—?!獢?shù)”協(xié)同設(shè)計(jì)等新興技術(shù),能夠?qū)崿F(xiàn)真正的實(shí)時(shí)機(jī)器人應(yīng)用。③ 在通信方面。未來的機(jī)器人將更多地依賴于機(jī)器人本體、邊緣服務(wù)器和云基礎(chǔ)設(shè)施之間的協(xié)作。合作式機(jī)器人模式的成功,依賴于高效的通信技術(shù)。磷化銦/基銦鎵砷(InP/InGaAs)材料的應(yīng)用可能會(huì)顯著提高通信帶寬,并解決延遲問題。④ 在算法層面。大模型的成功將“具身智能”的實(shí)現(xiàn)變得可能,機(jī)器人的理解能力,長(zhǎng)期規(guī)劃能力都因?yàn)榇竽P投@著增長(zhǎng)。機(jī)器人將可以被用于執(zhí)行更復(fù)雜更高難度的任務(wù),為人類提供更好的服務(wù)。
預(yù)計(jì)在未來10年,機(jī)器人將廣泛滲透到各個(gè)行業(yè),對(duì)全球經(jīng)濟(jì)產(chǎn)生重大影響。① 商業(yè)領(lǐng)域。機(jī)器人已成為商業(yè)領(lǐng)域的重要參與者,帶來創(chuàng)新,提高效率,開拓新的商業(yè)機(jī)遇;智能家居和服務(wù)機(jī)器人在日常生活中扮演關(guān)鍵角色,提高家庭自動(dòng)化水平、輔助家務(wù),為老年人和兒童提供關(guān)懷。② 工業(yè)領(lǐng)域。將繼續(xù)推動(dòng)自動(dòng)化和生產(chǎn)效率的提升,在裝配線、物流和倉(cāng)儲(chǔ)等領(lǐng)域發(fā)揮作用,降低成本、提高產(chǎn)品質(zhì)量、縮短交付周期,提升企業(yè)競(jìng)爭(zhēng)力,為機(jī)器人制造商創(chuàng)造新的商業(yè)機(jī)遇。③ 醫(yī)療保健領(lǐng)域。機(jī)器人在手術(shù)、診斷和康復(fù)方面的應(yīng)用提升手術(shù)精度,縮短患者恢復(fù)時(shí)間,能進(jìn)一步推動(dòng)醫(yī)療創(chuàng)新、改善醫(yī)療服務(wù)、降低醫(yī)療費(fèi)用。④ 農(nóng)業(yè)領(lǐng)域。將提高生產(chǎn)效率,減少人力成本,緩解農(nóng)民的體力勞動(dòng),有助于滿足全球不斷增長(zhǎng)的食品需求,減少食品浪費(fèi)。
機(jī)器人生態(tài)的發(fā)展,就像個(gè)人計(jì)算和移動(dòng)計(jì)算一樣,將依賴于標(biāo)準(zhǔn)化的計(jì)算環(huán)境。如果說英特爾公司1978年推出的16位微處理器x86架構(gòu)及其軟件生態(tài)系統(tǒng)推動(dòng)了個(gè)人計(jì)算時(shí)代的發(fā)展,那么基于精簡(jiǎn)指令集的處理器架構(gòu)(ARM)及其軟件生態(tài)系統(tǒng)則推動(dòng)了移動(dòng)計(jì)算時(shí)代的發(fā)展。因此,現(xiàn)在迫切需要定義一個(gè)全球化的機(jī)器人計(jì)算架構(gòu)及其軟件生態(tài)系統(tǒng),以推動(dòng)機(jī)器人計(jì)算時(shí)代的發(fā)展。筆者認(rèn)為機(jī)器人計(jì)算是賦能智能機(jī)器人的關(guān)鍵,誰定義了這一計(jì)算架構(gòu),在傳感、計(jì)算、通信和算法層面產(chǎn)生新的突破,誰就將在未來10年內(nèi)主導(dǎo)機(jī)器人產(chǎn)業(yè)的重大突破和發(fā)展。
前文曾提到,機(jī)器人計(jì)算發(fā)展的瓶頸在于應(yīng)用層面的突破,而大模型與機(jī)器人有機(jī)結(jié)合的“具身智能”就是一個(gè)可見的應(yīng)用層面的突破。當(dāng)前學(xué)術(shù)界與產(chǎn)業(yè)界都十分關(guān)注“具身智能”這一話題,那么“具身智能”是否就是機(jī)器人計(jì)算,亦或是在傳統(tǒng)的機(jī)器人計(jì)算上產(chǎn)生新的內(nèi)容,這一點(diǎn)還有很大爭(zhēng)論。但可以確定的是,“具身智能”的產(chǎn)生和發(fā)展,不僅離不開本文所述的機(jī)器人計(jì)算的生態(tài)系統(tǒng),更是對(duì)這一生態(tài)系統(tǒng)的反哺,對(duì)其提出了新的需求。在應(yīng)用層面,“具身智能”試圖突破傳統(tǒng)的機(jī)器人應(yīng)用模式,將機(jī)器人融入人類社會(huì),更多地與人類交互,完成更復(fù)雜的任務(wù)。在算力層面,“具身智能”應(yīng)用往往涉及更復(fù)雜的計(jì)算,也因此具有更高的算力需求。具身智能將給機(jī)器人計(jì)算帶來新的發(fā)展點(diǎn)和突破點(diǎn),是機(jī)器人領(lǐng)域、人工智能算法領(lǐng)域、半導(dǎo)體領(lǐng)域都需要關(guān)注的課題。
(作者:劉少山,深圳人工智能與機(jī)器人研究院;甘一鳴、韓銀和,中國(guó)科學(xué)院計(jì)算技術(shù)研究所 ; 《中國(guó)科學(xué)院院刊》供稿)