11 月 5 日,在第八屆虹橋國際經濟論壇 " 人形機器人創新發展合作 " 分論壇上,宇樹科技創始人兼首席執行官王興興發表了主題演講。
王興興認為,今年機器人產業非常火熱。不過,他也指出,機器人大模型進展比想象中緩慢,還沒有達到臨界值。王興興表示,具身智能大模型、端到端技術的進步,總體上非常快,但是比他想象的稍微慢一點點。
對于什么才是具身智能發展的臨界點,即具身智能 "ChatGPT 時刻 ",王興興認為,在陌生的場景中,給機器人發送語音或文字,若機器人能夠完成 80% 左右的任務。這便是突破性技術,基本可以達到 "ChatGPT 時刻 "。
那么,為了早日實現 "ChatGPT 時刻 ",更應該研究模型,還是收集更多的數據?王興興表示,目前在模型結構上大家做了很多嘗試,發現泛化能力不夠,還需要創新。大家也需要收集更大規模的數據、質量更好的數據。但目前,對數據的采集、對數據質量的評判還非常困難。
王興興提出,模型和數據需要相輔相成,而不是一股腦采集大量數據,或者一股腦把模型做大。
目前,具身智能主流模型有 VLA(視頻語言動作)+RL(強化學習)模型和基于視頻生成的世界模型。王興興表示,前者可以用仿真環境做訓練,或者用真實場景做訓練,但泛化能力相對來說不是特別夠。因此,他更喜歡基于視頻生成的世界模型。
然而,王興興也認為,該模型面臨比較大的挑戰。因為基于視頻生成的世界模型對算力的需求非常大,需要的算力卡比較多,所以中小型人形機器人公司往往 " 跑不動 ",反而是一些大型 AI 公司、互聯網公司視頻模型的資源更加豐富,做出該模型的概率更大。
每日經濟新聞