时间: 2025-03-17 23:02:25 | 作者: 布料类
所谓白银时代,不是技术的萌芽初现,也未达成熟,而是介于两者之间的探索高峰期。如何让机器人不止于模仿人类的肢体动作,而是实时理解环境和任务需求?正是当下
在12月18日火山引擎FORCE大会的圆桌环节中,嘉宾围绕“大模型加速机器人领域大爆发”展开讨论,深入探讨具身智能的技术发展的潜在能力。现场来自火山引擎的吴迪、施凌翔,经纬创投合伙人万浩基、九合创投创始人王啸、上海智元机器人联合创始人/上海交通大学博士生导师闫维新、银河通用机器人的陈旸,聚焦大模型与机器人,从技术底层到实际应用场景,深入探讨机器人领域的创新突破与未来机遇。
随着大模型的迅速崛起,机器人行业的融资步伐也迅猛加快,吸引了大量的资本涌入。然而,这股资本热潮背后,虽有技术革新的强力推动,却也潜藏着市场过热的风险。如何在技术与资本的双重推动下找到真正的突破口,已成为当下机器人行业发展的核心命题。对于具身智能技术路径的选择,应该更注重强化学习还是模拟学习,注重仿真还是真实,重视觉还是重物理引擎?业界和学界讨论也从未停止。
火山引擎创新孵化负责人施凌翔:为什么机器人、具身智能项目融资这么迅猛?先请万总简单讲讲最近的一些感受,以及在这一波机器人浪潮中,您比较看重什么?
经纬创投合伙人万浩基:先简单回答一下,为什么我们对于机器人兴奋,我们怎么样理解这个行业。
基于AI的应用分两大类,第一大类是软应用,各种聊天、文生视频、未来AI版本的抖音、Tik Tok等;第二类是硬应用,包含机器人,AI落地到硬件,其中机器人是泛化性最大的应用。我们投资了包括智元、银河通用好几家机器人公司。在评估时,最主要的因素的是技术:怎么把一件事情软硬都搞起来,怎么把它慢慢落地到真实的场景。机器人包括不同的level,开始是Demo,然后POC,未来是真的落地场景。今天绝大部分机器人公司都在做Demo,很少有真正能够POC和更进一步落地。智元、银河通用不仅是可以在两分钟的视频内展示一个非常厉害的东西,它们能做很多动作,这个是需要7×24小时运转的。
火山引擎创新孵化负责人施凌翔:我有一个问题想问王啸总,刚才万总讲到关于为什么资本追逐机器人项目,机器人的商业化进程是比较慢的,在整体商业化和投资里面,你们看到的变和不变是什么?
九合创投创始人王啸:我觉得机器人的商业化要比大家想的时间还要长一点。当机器人进入到偏家庭和ToB服务这类复杂场景,会遇到两个核心问题:一是大脑和小脑之间的配合链条以及配合后的操作,这部分还都没有打通;另外是降本的过程,最后大规模进入家庭要价格相对较便宜才能实现。
第一,这个方向大家比较有共识,这个事一定能成,唯一不能形成共识的是多长时间、谁能成,这是关键点。
第二,这是多家共赢的事,不是一家独大的逻辑,就像现在有很多新能源汽车品牌一样。因每个人的能力不一样,做的事情也不一样,因此可能用到的人形机器人的场景是不同的。每家公司的切入点不同,能力特长不同,最终走的路径不完全一样。回到这件事情,有点像当时火爆的无人驾驶,一开始几十家公司融到钱,这么多年过去,几家上市了,融资、估值还可以,但最终都还没有盈利。当然无人驾驶ToB更重一点,整体的路径比想象的要长。
机器人现在之所以具备初步商业化的可能,第一个原因是大模型给它带来了一些智能交互和思考的能力。大家认为大脑具备了,脚已经做好了,手现在还差一点。Optimus已经做出来有22个自由度的手,但是成本很高,这部分的降本需要相当长的时间。第二个原因是人类的终极梦想,要做一个跟我一样的人,能陪伴我、帮活,大家对这个事情的热情比想象的高。
从技术上看,虽然不存在最终迈不过去的门槛,但是我认为时间会比想象的长、难度也比想象的大。共识已经达成,路径需要探索,VC要做的就是起好加速的作用,给钱让大家好好干。
银河通用机器人副总裁陈旸:我们更倾向认为这波机器人的核心是通用智能,我们不希望它陷入之前的自动化框架中,也就是说不用人去适应机器人,也不用让环境去适应机器人,而是机器人适应人和环境。我们大家都希望基于海量仿真数据,让机器人拥有基础通用智能,跳出原来自动化的框架,形成一个新的商业模式,这跟产品能不能创造更大价值有很大关系。
从我们一线视角来看,智能机器人的创业难度非常高,需要在技术、产品和商业模式上进行更多探索。对我们这样一家初创公司来说,在现有的领先基础上把产业化的1到100走稳,这是最关键的。这样的一个过程背后,不只是我们一个企业的技术发展,还需要整个上下游协同及多方资本资源的支持,驱动整个产业链走向成熟。
火山引擎创新孵化负责人施凌翔:陈总刚才提到技术路径的问题,请教一下闫老师对于目前具身智能的技术路径选择和整体推演的观点,比如应该更注重强化学习还是模拟学习,注重仿真还是真实,重视觉还是重物理引擎?想了解什么重要、什么不重要?
上海智元机器人联合发起人/上海交通大学博士生导师闫维新:做强化学习和模拟学习的时候,我们经过一系列的探索,对样本空间的收集上发现了几个特征。
第一个特征,用模仿学习加强化学习来做步态控制这条路是走得通的。早期做人形机器人的运动控制,发现它的鲁棒性特别差;尤其是以底层的扭矩作为一个小闭环,这种对于算力要求特别高,并且一致性很差,但强化学习加上来之后特别抗噪。对下肢步态来说,模拟学习加强化学习这条路是能走通的。目前来看,在仿真数据下面调参这条路是相对快的,对下肢步态控制来说,仿真数据能够解决比较多的问题,接下来是就是调参问题、产品一致性问题,这是第一个信息。
到了上肢不一样。何为人形机器人?在很早以前,甚至在诸葛亮的时候就开始用类似机器人这种概念来运货了,不过这种模式跟现在又不一样。现在过多关注下肢运动控制,而忽略了人形机器人本身。现在的人形机器人就像是个街溜子,它的目的是具备自主任务操作能力,而不是整天在那里晃。现在对于上肢的具身智能的关注度比下肢要低,我觉得这是有问题的。
第二,过多的关注于足式,我们春秋战国打仗的时期大家就在用轮子互相干了,这样的一种情况下,足式并非是最优的方式。针对这个事情,要把重心放在任务操作能力上。对于任务操作能力,虚拟仿真下的任务操作有一定的效果,包括抓取、姿态控制,以及更为复杂的任务操作。
我们智元也做了一个海量的数据采集平台,上百个人每天在采数据。关于数据,如果只是做简单的操作,早先做图像辨识、姿态控制,没有大问题;稍微复杂一点的情况下,它的样本量就是个问题。其次,基于样本量采集的数据标准、数据格式也是个问题,我们现在发现真实世界产生的数据很重要,而且在仿真情况下很难拿到真正物理意义上刚柔耦合很复杂的力控,比如柔性物体相关的。关节力控可以勉强用来做一个耦合弹性体,两个耦合弹性体就没办法实现了。我们做一个工作不是只有一个臂,而是臂手协调控制,并且在臂手协调控制下,手部至少需要12个关节自由度(6个主动自由度加上6个被动自由度)。如此高的自由度耦合,在仿真情况下只能实现抓取,其他的很难。
火山引擎创新孵化负责人施凌翔:陈旸总,银河通用应该是采用了大量的仿真数据去训练机器人相关的模型,这方面你们真实的感受是如何的?
银河通用机器人副总裁陈旸:我们思考这样的一个问题是以终为始的,终就是通用性,所以要大数据量。海量数据的背后要考虑的是数据成本、规模化可能性及对训练通用具身大模型的有效性。现在我们也可以找到的技术路径是用仿真合成数据,成本更可控,数据量更大,通用性更强,并且我们已做到了实际可以商业化的水平。未来,我们将基于已有基础通用大模型能力和实际场景的需求,将更多技术融合入产品中,支持大规模应用落地。
火山引擎智能算法负责人吴迪:现阶段实采数据为主会经历很长一段时间。举个拧瓶盖的例子,现在有任何一个物理仿真器,能够把农夫山泉或者哇哈哈瓶盖的摩擦和弹性模拟清楚吗?很难。很多加工工艺的误差都会导致真实世界有一些独特的摩擦系数和弹性系数。但是一旦机器人能够建立一个比较可靠、比较扎实的世界模型之后,我们大规模仿真就派上用场了。一旦一个机器人知道如何搬箱子之后,我们就可以在仿线种不同的地面,500×1000不停地在计算机里面去跑,这种交叉带来的适配性和错误的检验,会加速未来机器人在普适场景的表现。
上海交通大学博士生导师闫维新:我们分几个场景,第一个是工业柔性制造场景,第二个是居家娱乐场景,第三个是危险替代场景,第四个是物流场景,后面是教育、科研场景。这几个场景中,我觉得开放性的场景为时尚早,开放式场景并不是我工作过程中任务的处理,而是突发任务的处理。第二,涉及到法律和法规和安全问题,因为机器人髋关节、膝关节正好是小孩关键脏器的位置,出了问题怎么办?所以一定会出现相关的法律和法规,现在慢慢的开始把人形机器人纳入CR认证里面,有可能是在某些情况强制执行,包括EMC、安全性。我认为两三年内,有两种场景可能能轻松实现,第一个场景是传统的工业制造场景,传统工业制造场景有别于传统的协作和工业机器人,在一些稍微复杂、需要灵巧操作能力的地方,可能能做一些事。在这里安全问题还好,因为它跟人是隔开的,但是节拍、动作流程需要限定好。总之只有三件事,钱、节拍和稳定能力。第二个场景是远程操作下的场景,包括对危险品处置,如烟花爆竹厂的装配。我觉得两三年内这样的场景可以做一些,其他的可能还早。经纬创投合伙人万浩基:
L1到L5的进步模式。在无人驾驶,L1到L5并不全是指它的复杂程度,而是在它中间可控范围的慢慢放大,这样来理解机器人就对了。今天大家理解的机器人,在可控的范围、比较安全的环境中它会非常容易落地。今天哪一个餐馆没有送餐机器人,哪一个酒店没有送毛巾的机器人,再过两年,哪一个咖啡厅没有做咖啡机器人,我都会觉得奇怪。只要在可控的范围中,可能是咖啡厅、物流场景、工厂场景中,没太多干扰的基础下,它落地的速度会比我们想象的快。火山引擎智能算法负责人吴迪:
我认为短期内三年之内,工厂、办公楼、安防三个场景一定会看到产品出现。在工厂场景,它可以搬东西;在办公的地方场景,它可能会做很多行政类的工作,甚至做一些轻量级维修工作;安防也是显而易见的。在安防场景中,一开始的时候,机器人不必像科幻片里的机械战警那样,而是能够识别出哪些地方出现了危险信号或求救信号,它过去看一下、听一下就很有价值。三年之内,这三个场景一定会有大的机会,更远会有很多可能性。对机器人的看法,很多人讲
“高估短期、低估长期”,长期的天花板非常高,但是短期不要抱太高的幻想,还是要一步一步走。九合创投创始人王啸:
我觉得现在不太需要操作的场景是最先落地的,因为操作现在还没有被克服。也就是说它的通用性和智能性都很好,但不需要操作,比如轮足机器人能在跟小孩互动中帮他背一个书包。我们投了一家类似的机器人公司徕福科技,非常有意思。这类通用化的、真正实用的不太需要操作的场景,成本下降很快,很有一定的概率会进入到各种场景里。第二是偏小
服务类的场景,首先是限定的场景,同时它做的工作是可控和有限的,比如机械手做咖啡拉花或收盘子;其次是可以很快通用化而且能代替人力的场景,比如餐厅里面端盘子、冲洗,这是未来两三年可能的落地场景。更长久来看,进入家庭这个事情是复杂度最高的,但是大家很有热情。
3-5年左右的时间,这件事情就会有一些公司做的不错了;5-10年可以规模化、量产化后,就会比较便宜。一个不到几万块钱的机器人能够帮你做很多事情,大家都愿意买一个,比手机贵三五倍,大概三五万以内,这样看来除了车以外最大的消费市场可能就是人形机器人进入家庭场景的市场。银河通用机器人副总裁陈旸:
关于大模型驱动的通用机器人的使用市场,这样的一个问题我们思考比较多一点。如果是讲广义具身智能,可能会看到更多轻量级或特定场景的专用具身智能产品落地,但我们更倾向于做大模型驱动的通用机器人产品。我们目前会遇到各种各样的市场需求,很多需求用弱智能加一些工程化能力都是可以做的,但长期看会存在市场小、成本高、难以规模商业化的问题。
我们也在考虑,要做宽还是做深?我们初步思考,追求通用性,优选几个场景越做越深,这是一个大方向。长期看通用智能机器人将能服务于千行百业、千家万户,但这需要一个过程,我们会选择比较适合能力匹配的场景进行落地。是选择场景时我们会从几个维度思考,包括
功能层级,要满足场景的需求,这是基础。目前技术和产业链还处于发展早期,需要优先从一些简单功能切入,逐步深挖。性能层级,跟价格关联,需要将产品性能与客户能接受的成本相匹配,随着硬件供应链的进一步成熟,性能限制会慢慢地减少。场景开放度层级,我们优先会从相对封闭的场景入手,家庭是个典型的超开放复杂场景。例如,机器人干活的时候把东西撞翻了该如何处理,机器人被小孩撞了要优先处理什么样的事情,目前技术实现落地还有难度。场景可承担风险层级,目前大模型驱动的机器人会跟人相似,还做不到百分之百的正确。我们应该评估假如慢慢的出现失误场景是否能承受。例如,人形机器人腿部关节如果不加防撞,碰到孩子,那会很严重事情;搬东西的时候,便宜的东西没问题,但若要搬芯片这类高货值的东西,带来的损失就相对难以承受。03
veOmniverse,一站式机器人仿真训练云平台许多机器人初创企业面临资源有限、数据匮乏、产品研究开发周期长等多重挑战,如何迅速提升技术迭代速度和产品竞争力,是火山引擎关注的核心问题。为帮企业突破发展瓶颈,火山引擎推出了
它能够创造一个高度还原现实世界的数字化环境,让机器人能够在其中进行精细化训练与测试,避免了传统方式中对物理设备的依赖和高昂的成本支出。平台所采用的视觉引擎、物理引擎、传感器模拟、3D生成技术相辅相成,打造了一个多维度、全方位的训练体系,使机器人能够在虚拟空间中不断探索、学习与完善,提升其在复杂环境下的适应性和执行能力。veOmniverse
AI支持,使其能够高效处理庞大的数据集,并加速训练过程。平台不仅支持动态环境的快速搭建,还能让机器人在虚拟空间中精准地执行任务和应对挑战。例如,平台通过AI生成高质量的训练数据(如深度图、RGB图像等),机器人能在不同的虚拟环境中模拟各种操作,从而更好地实现任务自主执行。平台所提供的强化学习框架和云端任务管理工具,逐步提升了训练效率和智能化水平。通过多卡训练,企业能够在极短的时间内完成大规模的训练任务,并实时评估机器人在不同任务中的表现,确保其在实际应用中的稳定性与精准性。veOmniverse
平台不仅是一个仿真工具,它更像是一座虚拟实验室,支持机器人企业在其中快速构建、验证和优化机器人模型
。在平台的支持下,企业能够借助3D生成模型,通过简单的描述,轻松创建多样化的虚拟场景和物体,为机器人训练提供了更为广阔的空间。高度自动化的流程使得机器人能在无需物理设备的情况下,完成包括抓取、移动、互动等复杂任务,节省了大量的研发成本和时间。平台的开放性与定制化能力使得企业可以依据自身需求,灵活调整平台功能,通过SDK工具包开发个性化的数字孪生应用,满足多元化的行业需求。这些都为初创公司可以提供了坚实的技术支撑,帮助更多机器人企业抓住虚拟仿真时代的机遇,快速实现产品迭代与创新。火山引擎
经中央批准,中央纪委国家监委对海关总署原党委委员、副署长孙玉宁严重违纪违法问题进行了立案审查调查。
多名外卖小哥曾提醒避雷黄焖鸡!黄焖鸡米饭外卖卫生堪忧 #杨铭宇黄焖鸡道歉##杨铭宇黄焖鸡隔夜鸡肉优先出售#
#多名外卖小哥提醒避雷黄焖鸡# 3月12日,#杨铭宇黄焖鸡隔夜鸡肉优先出售#一事引发关注。据报道,记者在杨铭宇黄焖鸡加盟店发现使用隔夜菜、变质食材,顾客剩菜回收再加工等影响食品卫生安全隐患的行为。
潮汕英歌与海阳大秧歌同台斗舞,二者气势各异,一个靠动作,一个靠呐喊,网友:看了一场跨越南北的非遗“对话 ”
潮汕英歌与海阳大秧歌同台斗舞,二者气势各异,一个靠动作,一个靠呐喊,网友:看了一场跨越南北的非遗“对话 ”
菲律宾在我国南海海域非法坐滩军舰浓烟滚滚,系菲船员在船上燃烧生活垃圾,严重威胁附近海域生态环境。
北京一别墅由9000万元降价到1500万元?业内:不可能,应该是“降了1500万元”
【央视首次曝光!歼-20发射新型导弹 “超视距”打掉3架“敌机”】歼-20搭载某新型空空导弹,在超视距空战演习中一次击落3架“敌机”。
同城女主播,单身白富美,感情受过伤,只要你打赏礼物,就会跟你谈恋爱,说不定还能……近日,山东临沂公安披露一起女主播诈骗案件,一名昵称为“思瑶”的女主播,以刷礼物谈恋爱为由,诈骗市民李先生19余万元,李先生报案时提供的聊天记录足有3500多页。
在这个只有5.7万居民、4万多合格选民的岛上,一场自治议会选举吸引了全球媒体的关注,各路记者前往首都努克的街头探访,规模不大的格陵兰大学也收到海量采访请求,以至于在学校主页上抱歉地告知“不足以满足所有需求”。
事发后,海底捞火速报警,警方很快锁定了2名17岁的未成年人。他们到底为何要做这样的事,是无知者无畏,还是为了博流量,毫无下限?