怎样刚动工, 我就看到宇树的呆板人在模拟科比
作者:[db:作者] 日期:2025/02/12 09:02 浏览:
要说往年过年最出风头的科技企业,那除了终日效劳器忙碌的 DeepSeek ,估量就得数宇树科技了。就是春晚上拿呆板人扭秧歌的谁人。看着挺牛逼是吧,成果年才过了没多少天,年夜正月的他们又整出个新活,英伟达、卡内基梅隆年夜学团队用宇树 G1 研讨出来一个名目, 拿呆板人复刻科比。。。看看这举措,这后仰跳投,是不是还挺有那味的?别说你是詹蜜,经典的霸王步人家也学了。有差友可能会问,我是年青人,不懂规则,不看球也不看 nba ,我咋能晓得这呆板人究竟什么程度呢?也别慌,列位熟知的 “NBA 年夜使 ” 的经典铁山靠,人家也能学。。。 开展全文
有一说一,给呆板人编程早就不是啥新颖事了,你坤哥这种招牌举措,粉丝外部乃至另有用简略机器机构就能实现的。以是宇树此次如果只能复刻这种的话,那还算不上啥科技狠活。
那么这波这个展现真正牛波儿的处所在哪呢,年夜过年的人家总不会就是为了唱跳 rap 打篮球吧。
于是哥们去翻了翻人家的论文,才发明这外面还真隐藏玄机, 人家这一手看似是全明星模拟,现实上是呆板人练习技巧的一个严重冲破。
至于咱为啥这么说,那就得先聊聊当初的呆板人是咋练习的。
家喻户晓,呆板人这玩意甭管表面多酷炫,骨子里仍是算法在跑。
以是你要想让一个呆板人学会打篮球的话,最简略的措施就是先丈量出呆板人的各方面数据,比方枢纽扭矩、连杆品质散布啥的;再拿这些数据去搞个 能源学建模,就是在电脑里模仿呆板人的活动。
但成绩在于,要一点点把种种参数都调到完善,这是个特殊肝的活儿,须要大批时光,还得是专业人士才干搞;
并且就算你在模仿器里调好了,事实里也纷歧定就是那么回事儿。 就比如你在 NBA 2K 里练出一代乔丹,但上了真球场,可能连球都运倒霉索。
虚构天下再真,跟事实的参数维度也不是一个量级的,像什么篮球的手感、弹性,氛围阻力、风向风速,乃至其余球员的肘击,模子都没法八面玲珑。
以是这种传统 SysID 搞出来的呆板人,在试验室里看开花拳绣腿,一到实在场景,就像我爱发现外面的人机抗衡一样,要开端拉了。
既然实在情况这么庞杂,有的迷信家就开端反向操纵了:与其逝世磕完善模子,不如直接把呆板人丢进种种 “ 奇葩 ” 情况里去练级。
比方偶然候空中很滑,偶然候篮球很重,偶然候篮筐很高。。。 横竖就让呆板人在种种极其前提下本人迭代,找到最优战略。
这种骚操纵,有个听起来玄乎的名字,叫 域随机化( Domain Randomization , 简称 DR )
听着似乎有点情理,可这也有成绩。这种方式就跟 “ 瞽者摸象 ” 似的,呆板人就算见地了种种情形,但要总结出真正的法则仍是很难,并且很轻易 “ 使劲过猛 ” 。
再加上 为了顺应种种极其情形,呆板人就得求稳,于是举措就很守旧、不机动,比方运球的时间老是警惕翼翼的,投篮的时间不敢摊开四肢。
一句话,这些传统方式练习呆板人,要么端赖建模调参,费时费劲;要么举措僵直迟缓,没法实现庞杂举措,纯纯摆件。
可要想让呆板人真的参加到生涯里,不说取代我们打工,最少像人一样的机动性总得有吧,如果几多都沾点人工智障,那不白等待了嘛。
那么宇树这波究竟是咋做到让呆板人这么敏锐的呢,重点来了。
论文里说,他们用了一个叫 ASAP ( Aligning Simulation and Real Physics ,对齐模仿与实在物理框架 )的货色。
按文章里的说法,这个技巧要先 “ 应用这些经由处置的人类活动数据在仿真情况中练习一个 基于相位的活动跟踪战略” ,再 “ 经由过程强化进修练习一个 残差举措模子弥补仿真与事实之间的差别 ” 。
听起来很绕,但你先别急,这玩意的现实思绪还挺扼要的,实在就是把咱下面说的传统工夫,用化劲整合起来,搞了个呆板人练习速成班。
简略来说,这个速成班分两步走,咱先说第一步:就是给呆板人 打基本,搞模仿预习。
而要搞预习,你得有课本。这里就是要先下载一堆视频,打篮球的也行,其余视频也行,重点是视频里得有人;
而后经由过程一个叫 TRAM 的活动重修东西,把视频外面的人类举措都扒出来,转换成三维活动轨迹,如许呆板才干看得懂这些举措;完事再把这些举措放到一个虚构情况里来练习, 目标是让呆板人学会准确模拟视频里的举措数据。
拿打篮球这个举措来说,你得先找一堆打球视频,记载下运球、投篮的举措,把这些举措数据处置好,再把这些数据扔到模仿器里,让呆板人先在模仿器里云练球,相称于先做好模仿再测验。
以是速成班的第二步就得 真枪实弹的来,三年模仿完了,是时间五年高考了。
固然之前的数据曾经是从事实中提取的了,但比及呆板人被拉到真球场上的时间,它就会发明云玩家仍是差点意思,实在情况里的地位、速率、减速度、枢纽角度等数据,跟仿真里仍是有必定差异。
于是这时间工程师就会应用呆板人身上的传感器网络这些数据,再把这些数据跟之前在虚构情况里练习的数据对照,用强化进修搞一个偏差修改模子出来,这个就是所谓的 残差( delta )举措模子。
有了这个残差举措模子,这下呆板人在模仿器里的活动,就跟在事实里年夜差不差了,而后工程师再把傍边的大批参数微调一下,呆板人就能做到跟视频里人类运球一样迅速流利了。
但你要把这个 ASAP 框架的两步放一同看,就会发明这玩意搞的后果固然看着挺牛逼的,比传统计划练出来的呆板人很多多少了,但思绪实在跟咱下面说的传统练习思绪差的没那么年夜。
道理也很简略嘛,纯建模练习不实在还费时光,纯事实练习举措不机动,那把这两个计划联合起来:
用事实数据去辅助建模,再把建模的胜利放在事实里校订,真假联合,不就两难自解~
现实上,这种用事实数据搞虚构建模,再把在虚构建模里实现的工程搬到事实,实在也算是很英伟达的操纵了。
之前他们就有一个 Cosmos 平台,号称是天下模子,目标就是像此次如许把事实里的物理景象搬到电脑里去模仿,如许就能年夜小节省工程师们的研发时光。
这玩意对呆板人、 AI 、主动驾驶啥的意思都挺年夜,究竟这可就不必再像从前一样戴着种种传感器,花那么多时光缓缓收集事实数据。
练习时长年夜幅收缩,成果最后练习后果还更好了,这不当妥的黑科技嘛。
哦对了,最后另有一个彩蛋:明天这篇论文的重要作者,英伟达 GEAR 团队成员、当初在卡内基梅隆年夜学留学的 B 站 up 主何泰然,他小时间的幻想还真就是造一个片子《 铁甲钢拳 》( 设定是人类操控呆板人打拳 )里的呆板人。
对一个理工男来说,把儿时的幻想酿成事实,我感到这太酷了。
撰文:纳西
编纂:江江 面线
美编:萱萱
图片、材料起源:
ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills
HumanoidLocomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning
Adaptive Kinematic Modelling for Multiobjective Control of a Redundant Surgical Robotic Tool
微博,bilibili等,局部图源收集前往搜狐,检查更多