Google DeepMind Introduces AI Model That Runs Locally on Robots | PYMNTS.com

Google DeepMind Introduces AI Model That Runs Locally on Robots | PYMNTS.com

2025-06-30Technology
--:--
--:--
David
早上好!我是David,这里是你的《Goose Pod》。今天是6月30日,星期一,上午10点整。很高兴能再次相约,今天我们有个非常前沿且令人振奋的话题要聊。
Ema
没错,我是Ema!David说得太专业啦,哈哈。用我的话说,今天我们要聊的可是谷歌DeepMind的最新黑科技!他们推出了一款能让AI在机器人本地运行的模型,这意味着机器人不用上网也能变聪明,是不是很有趣?这个消息来自PYMNTS.com。
David
嗯,我们开始吧。谷歌DeepMind最近推出了一款名为“Gemini Robotics On-Device”的视觉语言动作模型,简称VLA模型。它的核心亮点在于,可以完全在机器人设备本地运行,无需连接数据网络。这对于延迟敏感的应用,以及网络不稳定的环境,提供了强大解决方案。
Ema
哇,听起来就像是给机器人装了个“本地大脑”,不用联网就能思考和行动!这可太方便了。David,那它具体能做什么呢?是不是像电影里那样,机器人不用联网也能自己完成很多复杂的任务?我特别好奇它能做些什么“家务活”。
David
确实如此。这款模型具备通用灵活性和快速任务适应能力。根据DeepMind介绍,它能执行一系列复杂精细的任务,比如解开包的拉链、叠衣服、拉上饭盒拉链,甚至还能抽牌、倒沙拉酱,以及组装产品。这些任务都需要高度协调和对环境的理解,确实令人印象深刻。
Ema
叠衣服!嗯,这简直是我的梦想。以后我家机器人也能帮我叠衣服了,那真是太棒了。而且,它还能倒沙拉酱,听起来就很有趣,感觉像是生活中的小助手。它是不是那种只要给它看几遍,它就能学会新技能的模型啊?
David
是的,你抓住了重点。这也是这款模型的重要特性,它是Google DeepMind首个可供开发者微调的VLA模型。DeepMind的Carolina Parada提到,虽然很多任务可“开箱即用”,开发者也可微调优化。更惊人的是,它只需50到100次演示,就能迅速适应新任务,泛化能力很强。
Ema
50到100次演示就能学会新任务,这简直是神速啊!感觉比我学新技能还要快呢。这就意味着,未来我们可以根据自己的需求,轻松地“教”机器人做各种事情,大大降低了使用的门槛。一个机器人买回家,我只要演示几十次,它就能帮我完成日常琐事,真是让人期待!
David
正是如此。这种快速适应能力是实现机器人更广泛应用的关键。它不仅能执行预设任务,更是可以学习和进化的智能体。这种本地运行和快速学习的特性,使其在工业自动化、家庭服务,甚至紧急救援中,都潜力巨大。不依赖云端,意味着更低延迟和更高可靠性。
Ema
原来如此,你一说我就明白了。所以它就像是一个能独立思考和学习的“智能小帮手”,而且在任何地方都能稳定工作,不用担心网络问题。这真的是解决了机器人应用中的一个大难题!感觉未来机器人会变得越来越普及,越来越贴近我们的生活。
David
嗯,为了更深入理解“Gemini Robotics On-Device”的重要性,我们不妨回顾一下它的发展背景。这款模型其实是建立在今年3月推出的“Gemini Robotics”能力基础之上的。DeepMind一直致力于通用型人形机器人的研发,而大型语言模型LMMs的出现,则为机器人理解自然语言指令提供了强大能力,这是当前硅谷的一个重要趋势。
Ema
哦,原来它不是凭空出现的,而是有“前辈”的!那这个“Gemini Robotics”又是什么呢?我记得Gemini不是谷歌的那个AI聊天机器人吗?它和机器人有什么关系呢?David,你得给我这个AI小白好好科普一下。
David
没问题。Gemini是Google开发的一个多模态大型语言模型,能处理和生成文本、图像和音频等多种信息。“Gemini Robotics”就是将这种能力应用于机器人领域,让机器人更好地理解世界,并根据自然语言指令做出更复杂的推理和行动。去年12月,DeepMind还与人形机器人公司Apptronik合作,加速人形机器人发展,这都为On-Device模型奠定了基础。
Ema
原来是这样!怪不得呢,我当时还想,一个聊天机器人怎么就和机器人搞到一起了。原来是把Gemini的“聪明大脑”移植到了机器人身上,让机器人也能听懂人话,还能看懂图片和声音,真是太厉害了!这就像是给机器人装上了一双“眼睛”和一对“耳朵”,还能理解我们的意图,简直就是哆啦A梦的现实版!
David
你这个比喻很形象。正是这种多模态能力,让Gemini在机器人领域的应用展现出巨大潜力,也预示着未来可能会催生出全新的消费级机器人产品。比如,设想一下,一个家里的机器人不仅能听懂你说的“把客厅打扫干净”,还能通过视觉识别地上的杂物,规划清理路径,甚至帮你收好眼镜。
Ema
哇,那真是太方便了!我可太需要这样的机器人了,它能理解我的意图,还能帮我做各种事情,简直是我的梦中情“机”!不过,你提到人形机器人,我记得好像最近有很多公司都在研究这个,是不是现在这个市场竞争很激烈啊?
David
你说的没错。AI驱动的通用型机器人市场正变得日益拥挤。除了谷歌DeepMind,还有几家公司也在这一领域取得了显著进展。例如,OpenAI与Figure AI合作,推出了Figure 01人形机器人,它也能通过多模态大模型理解人类指令并执行复杂任务。此外,特斯拉的Optimus机器人也在不断迭代,展现出越来越强的通用能力。
Ema
哇,原来有这么多玩家啊!感觉大家都在铆足了劲儿地往前冲。那谷歌DeepMind的这个On-Device模型,在这么多竞争对手中,它的优势在哪里呢?除了本地运行,还有没有别的“杀手锏”?毕竟现在大家都在说AI,但真正能落地应用的,才是真本事。
David
这是一个很好的问题。除了本地运行带来的低延迟和高鲁棒性,Gemini Robotics On-Device的另一个核心优势在于其出色的泛化能力和快速适应性。Carolina Parada强调,该模型能从少量演示中快速学习新任务,这对于实际部署至关重要。这意味着机器人可以更快地适应不同工作环境和任务需求,大大降低部署成本和时间。
Ema
听起来就像是,这个机器人特别“聪明”,学东西特别快,不用花很多时间去“教”它。这对于企业来说,肯定能省不少钱和精力吧?而且,如果它能快速适应各种新任务,那应用场景就更广了,不再是只能做固定几件事的“傻大个”机器人了。
David
正是如此。这种快速适应能力是推动机器人从实验室走向实际应用的关键。它使得机器人能够应对现实世界中多变、复杂的环境,而不仅仅局限于结构化的工厂流水线。同时,DeepMind还发布了Gemini Robotics SDK,方便开发者进行评估和微调,这无疑会加速整个机器人领域的创新步伐。
Ema
SDK,就是那个开发工具包吧?这下子,开发者们可就有福了,可以更方便地玩转这个模型,开发出更多好玩的机器人应用。感觉就像是DeepMind把一个强大的“乐高积木”交给了大家,让大家能自由发挥创意,真是太棒了!
David
嗯,Ema,虽然Gemini Robotics On-Device展现了令人瞩目的能力,但我们要清醒认识到,将这些先进技术从实验室推广到实际应用,仍面临不少挑战。首先,尽管模型可以本地运行,但机器人的硬件成本、能耗以及实际部署的复杂性,仍然是需要考虑的现实问题。
Ema
嗯,你说的对。就像我们平时买个新手机,光有系统好还不行,还得看内存够不够、电池耐不耐用、价格贵不贵。机器人也一样,光有聪明的“大脑”还不够,还得看它的“身体”是不是足够强壮、耐用,而且,我们普通人买得起吗?这确实是个大问题。
David
是的。其次,尽管模型可以从少量演示中快速学习,但“泛化能力”在复杂多变、非结构化的真实世界环境中,仍需更长时间验证。机器人能否处理所有“意料之外”的情况,以及极端条件下的鲁棒性,都需要大量测试和数据积累。这其中存在从“演示”到“实际大规模部署”的鸿沟。
Ema
我明白了,就像是机器人考了个高分,但在真实世界里,它会不会遇到一些“超纲题”?比如,在工厂里遇到一个平时没见过的零件,或者在家里遇到一个乱七八糟的场景,它还能不能像在实验室里那样灵活应对?这确实挺让人担心的,毕竟真实世界可比实验室复杂多了。
David
正是如此。还有一个非常关键的方面是“安全性”和“责任归属”。当机器人能够自主决策和行动时,一旦发生意外,比如造成人员伤害或财产损失,责任应该由谁承担?是开发者、制造商,还是使用者?这在伦理和法律层面都带来了新的挑战,是我们推动机器人技术发展时必须审慎面对的问题。
Ema
哇,你这个说得好严肃啊!我平时只想着机器人能帮我干活,都没想过它出了问题怎么办。听你这么一说,感觉就像是给机器人发了“驾照”,但它在路上出了事故,到底是谁的责任?这确实是个大难题,毕竟机器人是机器,它自己可负不了责。
David
是的,DeepMind也意识到了这一点,因此他们非常强调“负责任的AI开发”。他们遵循自身的AI原则,并采取整体性的安全方法,包括语义安全和内容安全。尽管如此,在实际部署中,如何确保机器人行为的可预测性、避免潜在偏见,以及处理与人类的互动边界,都还需要持续探索和完善。
Ema
听起来就像是给机器人制定了一套“行为准则”,让它们知道什么能做,什么不能做。但现实情况肯定很复杂,万一机器人“误解”了指令怎么办?或者它在执行任务的时候,不小心碰到了人或者东西,那可就麻烦了。所以,安全确实是头等大事,不能马虎。
David
没错。此外,虽然DeepMind发布了SDK,但对于广大开发者而言,如何有效地利用这些工具,并将其集成到各式各样的机器人硬件平台中,仍然需要一定的技术门槛和学习曲线。要真正实现“ democratizing robotics”,让更多创新者参与进来,还需要进一步简化开发流程,降低使用难度。
Ema
哦,就像是我们想学画画,虽然有画笔和颜料,但如果没有老师教,或者没有简单的教程,我们也很难画出大师级的作品。所以,光有工具还不够,还得有好的“说明书”和“教学视频”,让更多的人能轻松上手,不然这些高科技就只能停留在少数专家手里了。
David
你说的很到位。最后,我们还要面对一个潜在的“社会冲突”:随着机器人能力的提升,它们在劳动力市场中扮演的角色。虽然机器人能够提高效率、降低成本,但也可能引发对就业结构变化的担忧。如何平衡技术进步与社会影响,确保技术红利普惠大众,是我们需要提前思考和规划的。
Ema
哎呀,你说的这个就有点“扎心”了。机器人越来越聪明,会不会抢了我们的饭碗啊?这可不是小事。虽然我盼着机器人能帮我叠衣服,但如果它们把我工作都给做了,那可就麻烦了。所以,是不是我们也要开始学习新的技能,才能不被机器人“淘汰”啊?
David
你提出的担忧非常现实,但我们也要看到,每一次技术革命都伴随着新的机遇。就Gemini Robotics On-Device而言,它的影响是多方面的,并且正积极塑造着机器人产业的未来。首先,它彻底解决了传统机器人依赖云端计算带来的高延迟和网络不稳定性问题。这意味着机器人可以在偏远地区、灾区,甚至没有网络的工厂车间,都能稳定可靠地执行任务。
Ema
哇,那真是太棒了!就像是给机器人装了个“离线导航系统”,不管走到哪里都不会迷路,也不用担心信号不好。这对于那些需要快速响应、精确操作的场景,比如在紧急救援或者一些特殊工业环境中,简直就是救星啊!
David
正是如此。其次,该模型强大的灵活性和任务泛化能力,将极大地拓展机器人的应用边界。它不再是只能执行预设编程任务的“专用工具”,而是能够理解自然语言指令,甚至从少量演示中快速学习新技能的“通用助手”。这无疑会降低机器人部署的门槛和成本,使得更多中小企业也能负担得起自动化升级。
Ema
你这么一说,我感觉这就像是以前的电脑,只能运行特定的软件,现在有了这个模型,就像电脑装上了Windows系统,可以运行各种各样的程序了!而且,它学习新东西还特别快,企业不用花大价钱请专家来编程,自己教教就行了,这确实能省不少钱呢!
David
非常贴切的比喻。从社会层面来看,这款模型将加速智能机器人在我们日常生活中的普及。想象一下,未来家政机器人、护理机器人,甚至是教育机器人,都能够更智能、更自主地服务于我们。这不仅能提升生活便利性,也能帮助我们解决一些劳动力短缺的问题,比如在养老服务领域。
Ema
哇,你说的这个场景太美好了!以后机器人能帮我照顾老人,还能陪小孩玩,甚至教他们学习,那真是太棒了!感觉就像是电影里的未来世界,突然就离我们不远了。不过,它真的能像人一样灵活吗?比如,在家里倒水会不会洒出来?
David
根据DeepMind的演示,它在精细操作方面表现出色,比如倒沙拉酱、组装产品等。这得益于其强大的视觉感知和精密的动作控制能力。此外,DeepMind还强调负责任的AI开发,通过严格的安全评估和红队演练,确保这些强大的机器人模型能够安全、合乎伦理地部署,最大化社会效益,同时将风险降到最低。
Ema
嗯,安全确实很重要,毕竟是和我们的生活息息相关的。看来DeepMind在发展技术的同时,也考虑到了这些潜在的风险,这让我觉得安心多了。所以,总的来说,这个On-Device模型,就是让机器人变得更独立、更聪明、更实用,而且还更安全,是吧?
David
是的。正是这些综合性的进步,使得Gemini Robotics On-Device被认为是机器人AI发展的一个新阶段,标志着机器人正朝着“可用性、可部署性和通用性”迈进。它的出现,无疑将加速机器人技术在各个行业的广泛应用,推动整个社会向更智能、更自动化的未来发展。
David
展望未来,Gemini Robotics On-Device模型无疑为机器人技术的发展描绘了一幅令人振奋的蓝图。它预示着我们将迎来一个更加自主、适应性更强、更智能的机器人时代。本地化运行意味着机器人将能在更多复杂且多变的环境中稳定工作,无需依赖外部网络,这将大大提升它们的可靠性和响应速度。
Ema
听起来就像是,机器人以后可以去探险了,哈哈!不用担心没有信号,走到哪里都能自己完成任务,真是太酷了!而且,它们还能学得那么快,是不是以后我们买个机器人回家,只要给它演示几遍,它就能帮我们做饭、洗碗、打扫卫生,甚至还能陪我们聊天了?
David
你想象力很丰富,但这正是趋势所指。这款模型的快速适应能力,特别是只需50到100次演示就能学会新任务,意味着未来机器人将能够更快地学习和适应新的任务和环境。这种“低样本学习”能力,将大大降低机器人部署和定制的门槛,使其更灵活地应用于家庭、医疗、物流等多元化场景。
Ema
哇,那真是太方便了!感觉以后机器人就是我们的“私人定制小助手”了,想让它做什么,教它几遍就行。这可比以前那些只会重复固定动作的机器人强太多了!是不是以后每个人都能拥有一个专属的机器人管家了?我特别期待!
David
是的,这种趋势将推动先进机器人技术的“民主化”。DeepMind发布的Gemini Robotics SDK,正是为了让更多开发者能够接触并利用这些强大的模型,从而加速整个机器人社区的创新。未来,我们可能会看到更多基于这一技术开发的创新应用,让机器人真正走进千家万户。
Ema
太好了!SDK一出来,感觉就像是打开了一个“潘多拉的魔盒”,大家都能参与到机器人创造的乐趣中来了!我都能想象到,以后会有很多我们意想不到的机器人应用出现,比如机器人宠物,或者能帮我们照顾花草的机器人园丁,真是想想就觉得兴奋!
David
这正是我们所期待的未来。当然,在享受技术进步带来的便利的同时,DeepMind也一直在强调负责任的AI发展。未来,随着机器人自主能力的增强,如何确保其安全、可靠地与人类社会共存,避免潜在风险,将是行业持续关注的重点。这包括更完善的伦理规范、更严格的安全测试以及更透明的决策机制。
Ema
嗯,安全第一,这个我非常认同。毕竟机器人越来越聪明,我们就更要确保它们是“好孩子”,不会做坏事。听你这么一说,感觉未来既充满希望,也需要我们共同努力,才能让科技更好地造福人类。希望以后我的机器人管家,能每天给我叠好衣服,还能提醒我按时睡觉,哈哈!
David
好的,Ema,我想你的机器人管家一定会很乐意为你服务的。今天,我们深入探讨了谷歌DeepMind的Gemini Robotics On-Device模型,它在本地运行、高灵活性和快速学习方面的突破,无疑为机器人技术开启了新的篇章。我们看到了它在工业、家庭等领域的巨大潜力,也认识到在普及过程中面临的挑战,以及负责任开发的重要性。
Ema
是的,David!今天的讨论真是太精彩了,感觉我们一起见证了机器人未来的发展方向。从叠衣服到倒沙拉酱,再到未来的智能管家,真是让人充满了期待!感谢王康,你收听了今天的《Goose Pod》!
David
感谢王康的收听,希望今天的节目能让你对谷歌DeepMind的最新进展有更深入的了解。我们明天再见!

# News Summary: Google DeepMind Introduces AI Model That Runs Locally on Robots * **News Title**: Google DeepMind Introduces AI Model That Runs Locally on Robots * **Report Provider/Author**: PYMNTS.com / PYMNTS * **Date/Time Period Covered**: Published on June 24, 2025. The article references related developments and reports from March, April, and February of the same year. * **News Type**: Technology, Artificial Intelligence (AI), Robotics, Digital Transformation, Innovation. --- ## Main Findings and Conclusions Google DeepMind has unveiled a new **vision language action (VLA) model** named **Gemini Robotics On-Device**, designed to operate directly on robotic devices without requiring an internet connection. This advancement signifies a step towards more robust and responsive robotic systems, particularly for applications where network connectivity is unreliable or latency is critical. ## Key Features and Capabilities * **Local Operation**: The model runs entirely on the robotic device, eliminating the need for data network access. This is crucial for "latency sensitive applications and ensures robustness in environments with intermittent or zero connectivity," according to Carolina Parada, Google DeepMind's Senior Director and Head of Robotics. * **General-Purpose Dexterity**: Gemini Robotics On-Device is engineered for broad manipulation capabilities and rapid adaptation to new tasks. * **Bi-Arm Robot Focus**: The model is specifically designed for use with bi-arm robots, facilitating advanced dexterous manipulation. * **Natural Language Understanding**: It can follow instructions given in natural language, enabling intuitive control. * **Task Versatility**: The model demonstrates proficiency in a range of complex tasks, including: * Unzipping bags * Folding clothes * Zipping a lunchbox * Drawing a card * Pouring salad dressing * Assembling products * **Fine-Tuning Capability**: This is Google DeepMind's first VLA model that is available for fine-tuning by developers. This allows for customization and improved performance for specific applications. * **Rapid Task Adaptation**: The model can quickly adapt to new tasks with "as few as 50 to 100 demonstrations," showcasing its strong generalization capabilities from foundational knowledge. ## Context and Market Trends * **Building on Previous Work**: Gemini Robotics On-Device builds upon the capabilities of Gemini Robotics, which was initially introduced in March. * **Industry Shift**: The development aligns with a broader trend in Silicon Valley where large language models are being integrated into robots, enabling them to comprehend natural language commands and execute complex tasks. * **Multimodality of Gemini**: Google's strategic decision to make Gemini multimodal (processing and generating text, images, and audio) is highlighted as a path toward enhanced reasoning capabilities, potentially leading to new consumer products. * **Crowded Market**: The field of AI-powered robots capable of general tasks is becoming increasingly competitive, with several other companies also making significant advancements. ## Key Personnel Quotes * **Carolina Parada (Senior Director and Head of Robotics, Google DeepMind)**: * "Since the model operates independent of a data network, it’s helpful for latency sensitive applications and ensures robustness in environments with intermittent or zero connectivity." * "While many tasks will work out of the box, developers can also choose to adapt the model to achieve better performance for their applications." * "Our model quickly adapts to new tasks, with as few as 50 to 100 demonstrations — indicating how well this on-device model can generalize its foundational knowledge to new tasks."

Google DeepMind Introduces AI Model That Runs Locally on Robots | PYMNTS.com

Read original at PYMNTS.com

Google DeepMind introduced a vision language action (VLA) model that runs locally on robotic devices, without accessing a data network.The new Gemini Robotics On-Device robotics foundation model features general-purpose dexterity and fast task adaptation, the company said in a Tuesday (June 24) blog post.

“Since the model operates independent of a data network, it’s helpful for latency sensitive applications and ensures robustness in environments with intermittent or zero connectivity,” Google DeepMind Senior Director and Head of Robotics Carolina Parada said in the post.Building on the task generalization and dexterity capabilities of Gemini Robotics, which was introduced in March, Gemini Robotics On-Device is meant for bi-arm robots and is designed to enable rapid experimentation with dexterous manipulation and adaptability to new tasks through fine-tuning, according to the post.

The model follows natural language instructions and is dexterous enough to perform tasks like unzipping bags, folding clothes, zipping a lunchbox, drawing a card, pouring salad dressing and assembling products, per the post.It is also Google DeepMind’s first VLA model that is available for fine-tuning, per the post.

“While many tasks will work out of the box, developers can also choose to adapt the model to achieve better performance for their applications,” Parada said in the post. “Our model quickly adapts to new tasks, with as few as 50 to 100 demonstrations — indicating how well this on-device model can generalize its foundational knowledge to new tasks.

”Google DeepMind’s Gemini Robotics is one of several companies’ efforts to develop humanoid robots that can do general tasks, PYMNTS reported in March.Robotics are in fashion as in Silicon Valley as large language models are giving robots the capability to understand natural language commands and do complex tasks.

The company’s advancements in Gemini Robotics show that the decision to make Gemini multimodal — taking and generating text, images and audio — is the path toward better reasoning. Gemini’s multimodality can spawn a whole new genre of consumer products for Google, PYMNTS reported in April.Several other companies are also developing AI-powered robots demonstrating advancements in general tasks, making for a crowded market, PYMNTS reported in February.

For all PYMNTS AI coverage, subscribe to the daily AI Newsletter.See More In: artificial intelligence, deepmind, digital transformation, GenAI, Google, Innovation, News, PYMNTS News, Robots, Technology, What's Hot

Analysis

Phenomenon+
Conflict+
Background+
Impact+
Future+

Related Podcasts