【Kaiyun·開(kāi)云,科技消息】據(jù)《中國(guó)經(jīng)濟(jì)網(wǎng)》報(bào)道,近日,香港科技大學(xué)(廣州)李昊昂教授團(tuán)隊(duì)在機(jī)器人導(dǎo)航技術(shù)領(lǐng)域取得了重要突破,成功研發(fā)出視覺(jué)-語(yǔ)言導(dǎo)航技術(shù),為機(jī)器人提供了更加自然、智能、高效的導(dǎo)航與交互能力。
傳統(tǒng)的機(jī)器人導(dǎo)航技術(shù)主要依賴純視覺(jué)信息,如圖像或視頻,來(lái)理解周圍環(huán)境并規(guī)劃路徑。然而,在復(fù)雜多變的環(huán)境中,這種導(dǎo)航方式往往存在局限性,導(dǎo)致機(jī)器人導(dǎo)航能力不足。為了克服這一難題,李昊昂教授團(tuán)隊(duì)研究出了視覺(jué)-語(yǔ)言導(dǎo)航技術(shù),該技術(shù)能夠整合視覺(jué)信息及語(yǔ)言指令,實(shí)現(xiàn)高效的人機(jī)交互。
在服務(wù)機(jī)器人的應(yīng)用中,該技術(shù)使得機(jī)器人能夠理解人類的語(yǔ)言指令,如“走到客廳,把餐桌上的蘋果拿給我”,并通過(guò)視覺(jué)數(shù)據(jù)識(shí)別關(guān)鍵信息,如“客廳”、“餐桌”、“蘋果”等,從而準(zhǔn)確地完成任務(wù)。這一技術(shù)的實(shí)現(xiàn),不僅拓展了機(jī)器人的應(yīng)用場(chǎng)景,還提高了機(jī)器人的工作效率和安全性。
此外,針對(duì)現(xiàn)有視覺(jué)-語(yǔ)言大模型在信息保障方面存在的問(wèn)題,如對(duì)數(shù)據(jù)質(zhì)量和訓(xùn)練場(chǎng)景的敏感性、難以理解模糊語(yǔ)言指令等,李昊昂教授團(tuán)隊(duì)提出了面向視覺(jué)-語(yǔ)言導(dǎo)航應(yīng)用的大模型調(diào)優(yōu)策略。通過(guò)在機(jī)器人室內(nèi)外導(dǎo)航數(shù)據(jù)上進(jìn)行視覺(jué)數(shù)據(jù)抽取和語(yǔ)言指令標(biāo)注,并對(duì)模型進(jìn)行擬合,機(jī)器人可以根據(jù)提取的環(huán)境視覺(jué)特征和人類語(yǔ)言指令來(lái)決定其導(dǎo)航路徑。
在數(shù)據(jù)基礎(chǔ)方面,團(tuán)隊(duì)還通過(guò)仿真數(shù)據(jù)合成的方式解決了現(xiàn)有導(dǎo)航訓(xùn)練數(shù)據(jù)存在的問(wèn)題。他們?cè)O(shè)計(jì)了新穎的生成式擴(kuò)散模型,可以合成大量、多樣化、高質(zhì)量的視覺(jué)數(shù)據(jù)和相關(guān)的語(yǔ)言描述,從而有效增加訓(xùn)練數(shù)據(jù)的多樣性,提高模型在處理復(fù)雜、未見(jiàn)場(chǎng)景時(shí)的魯棒性。
版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載
-Kaiyun·開(kāi)云