相关文章
李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型
2025-01-14 07:45

语言中充满了视觉格言。比如,“眼见为实”,“一幅画胜过千言万语”,“眼不见,心不烦”等等。这是因为我们人类从视觉中获取了很多意义。但并不是一直都具备视觉能力。直到大约 5.4 亿年前,所有生物都生活在水面以下,且它们都无法看见。只有随着三叶虫的出现,动物们才能第一次感知到周围阳光的丰富。接下来发生的事情是非凡的。在接下来的 1 千万到 1.5 千万年中,视觉的能力开启了一个被称为寒武纪大爆发的时期,在这个时期,大多数现代动物的祖先出现了。


今天,我们正在经历人工智能(AI)的现代寒武纪大爆发。似乎每周都有一种新的、令人惊叹的工具问世。最初,生成式AI革命是由像 ChatGPT这样的巨大语言模型推动的,它们模仿人类的语言智能。但我相信,基于视觉的智能——我称之为空间智能——更为根本。语言很重要,但作为人类,我们理解和与世界互动的能力在很大程度上基于我们所看到的。


一个被称为计算机视觉的AI子领域长期以来一直致力于教会计算机拥有与人类相同或更好的空间智能。过去 15 年,该领域迅速发展。并且,在以AI以人为本的核心信念指导下,我将我的职业生涯奉献给了这一领域。


没有人教孩子如何看。孩子们通过经验和例子来理解世界。他们的眼睛就像生物相机,每秒拍摄五张“照片”。到三岁时,孩子们已经看过数亿张这样的照片。


我们需要从大型语言模型转向大型世界模型


我们知道,经过数十年的研究,视觉的一个基本元素是物体识别,因此我们开始教计算机这种能力。这并不容易。将一只猫的三维(3D)形状呈现为二维(2D)图像的方式是无穷无尽的,这取决于视角、姿势、背景等。为了让计算机在图片中识别出一只猫,它需要拥有大量信息,就像一个孩子一样。


这一切直到 2000 年代中期才成为可能。那时,被称为卷积神经网络的算法,经过数十年的发展,遇到了现代 GPU 的强大能力以及“大数据”的可用性——来自互联网、数码相机等的数十亿张图像。


我的实验室为这一融合贡献了“大数据”元素。在 2007 年,我们在一个名为 ImageNet 的项目中创建了一个包含 1500 万张标记图像的数据库,涵盖 22000 个物体类别。然后,我们和其他研究人员使用图像及其相应的文本标签训练神经网络模型,使得模型能够用简单的句子描述之前未见过的照片。利用 ImageNet 数据库创建的这些图像识别系统的意外快速进展,帮助引发了现代AI热潮。


随着技术的进步,基于变换器架构和扩散等技术的新一代模型带来了生成性AI工具的曙光。在语言领域,这使得像 ChatGPT这样的聊天机器人成为可能。在视觉方面,现代系统不仅能够识别,还可以根据文本提示生成图像和视频。结果令人印象深刻,但仍然仅限于2D。


为了让计算机具有人类的空间智能,它们需要能够建模世界、推理事物和地点,并在时间和3D空间中进行互动。简而言之,我们需要从大型语言模型转向大型世界模型。


我们已经在学术界和工业界的实验室中看到了这一点的初步迹象。借助最新的 AI 模型,这些模型使用来自机器人传感器和执行器的文本、图像、视频和空间数据进行训练,我们可以通过文本提示来控制机器人——例如,要求它们拔掉手机充电器或制作一个简单的三明治。或者,给定一张 2D 图像,该模型可以将其转化为用户可以探索的无限数量的合理 3D 空间。


应用是无穷无尽的。想象一下,能够在普通家庭中导航并照顾老人的机器人;为外科医生提供不知疲倦的额外帮助;或者在模拟、培训和教育中的应用。这是真正以人为中心的人工智能,空间智能是它的下一个前沿。人类进化了数亿年所取得的成果,现在在计算机中仅需几十年就能出现。而我们人类将是受益者。


内容综合自网络。本文版权归属作者和原载媒体所有。


    以上就是本篇文章【李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/14225.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多   
最新文章
Real Moto 2(真实摩托2游戏手机版)摩托手机「Real Moto 2(真实摩托2游戏手机版)」
《真实摩托2》是一款超级好玩的摩托车驾驶竞速类游戏,游戏采用了高清物理引擎打造,拥有逼真的画面和场景,真实的玩法内容,激
家居“新物种”:行业新革命!叶盛明珠发热岩板颠覆家居采暖逻辑
  展会盛况:科技与美学的完美结合  2025年3月27 - 30日,第14届广州定制家居展暨轻高定展在广州保利世贸博览馆盛大举行。展
如何连接usbusb怎么连接手机「如何连接usb」
在日常生活中,USB(Universal Serial Bus,通用串行总线)接口已成为我们连接各种设备与计算机的重要桥梁。无论是传输数据、充
售17.98万起! 北京BJ40增程版上市!双电机四驱+三把锁,硬派越野SUV的新扛把子?
4月7日,增程正式上市,新车共推出2款配置车型,售价区间为17.98-19.98万元。作为北京BJ40新增动力版本,该车搭载1.5T增程混动,
新增20+项新功能 提供高阶智驾选装 领克EM-P超电双子星OTA 1.8.0推送更新
近日, EM-P和08 EM-P正式迎来了OTA 1.8.0版本的升级。据悉,本次双车总计升级新增20+项功能,并优化了60+项体验,可实现“iOS+
vivo Y300 Pro+/Y300t发布,更实惠的千元手机
  vivo千元机又更新了,vivo Y300 Pro+与Y300t于3月31日正式亮相,为广大消费者带来实惠。  vivo Y300 Pro+是vivo Y系列首款
Canvalr手机版「Canva」
Canva是一款非常专业的图片制作app,能够给用户制作图片提供许多的帮助,让用户轻轻松松就能进行图片设计,非常的方便实用,可以
Nothing 2025 放大招:Phone(3)手机领衔,里程碑式新机登场phone手机「Nothing 2025 放大招:Phone(3)手机领衔,里程碑式新机登场」
IT之家 1 月 14 日消息,消息源 Evan Blass 昨日(1 月 13 日)在 X 平台发布推文,分享了裴宇发送给 Nothing 员工的内部电子邮
心有千千结 | 手机危害七宗罪&手机脸手机脸「心有千千结 | 手机危害七宗罪&手机脸」
手机无处不在方便生活的同时也给我们带来了极大的危害那么危害究竟有哪些我们又该怎样减少呢首先,带着大家看一下最爱手机的“民