DAV首页
数字音视工程网

微信公众号

数字音视工程网

手机DAV

null
null
null
卓华,
null
null
null
null
null
null
null

我的位置:

share

【对话AI大模型工场】虚拟动点董事长刘耀东:希望能把大模型技术真正产业化

来源:虚拟动点        编辑:lgh    2024-04-25 17:00:39     加入收藏

4月17日,“利亚德集团2024年生态合作伙伴大会暨2024年度战略发布会”在北京成功举办。虚拟动点作为利亚德集团全资子公司参与,集团CMO、虚拟动点董事长兼CEO...

  4月17日,“利亚德集团2024年生态合作伙伴大会暨2024年度战略发布会”在北京成功举办。虚拟动点作为利亚德集团全资子公司参与,集团CMO、虚拟动点董事长兼CEO刘耀东代表公司出席并接受采访。

  以下内容摘自《AI大模型工场》:

  今年,埃森哲的《技术展望2024》研究报告指出,我们正处于巨大的技术变革之中,技术将从被动的代理人,转变为主动的合作者,以更加自然的交互模式与我们互动。

  过去,我们适应技术,而现在技术开始适应我们的需求。生成式AI创造出实实在在的文本和图像,仿佛出自人手。新的空间计算设备融合了物理空间与数字世界,使人们可以跨越多个空间开展活动。脑机接口和环境计算等的身体感应技术,正以前所未有的方式读取并理解我们的所思所想。

  人工智能、空间计算、身体感应等技术的突破,正在加速各行业变革浪潮。

  在生成式AI时代大背景下,利亚德旗下全资子公司虚拟动点,从空间计算出发,聚焦行业场景,自研专业垂直动作大模型——LYDIA,率先探索在全球范围的空间计算、动作生成领域的AIGC新模式。

  4月17日,在利亚德2024年生态合作伙伴大会暨2024年度战略发布会上,虚拟动点董事长刘耀东全面展示公司光学定位捕捉算法、无标记点捕捉算法等多项空间计算算法技术,阐述自研LYDIA动作大模型技术亮点及应用场景。

  

 

大模型+空间计算,想象空间有多大?

  早在2003年,麻省理工学院媒体实验室西蒙·格林沃尔德(Simon Greenwold) 在他的论文中首次提出“空间计算”这个术语,将其定义为:“人类与机器的交互,其中机器保留并操纵真实物体和空间的参照物。”这被认为标志着空间计算的正式诞生。

  之后的20年间,人工智能、物联网、虚拟现实(VR)、增强现实(AR)、计算机视觉等技术的飞速进步,使空间计算成为可能。

  去年6月苹果发布会上,库克表示,“Mac带我们进入桌面计算时代,iPhone带我们进入移动计算时代,Apple Vision Pro将带我们进入空间计算时代。”

  2017年成立的虚拟动点,深耕空间计算多年,如今加注通用人工智能(AGI)赛道。

  刘耀东表示,虚拟动点将以空间计算为战略主体,构建以AI大模型、硬件设备、空间数据为三大核心的“一体三核”发展战略。

  乘着大模型发展的东风,虚拟动点也全面“狂飙”:

  在AI大模型领域,去年年底,发布“LYDIA”动作大模型,该模型具备对空间动作数据的“认知、感知、预测、生成”等核心能力,在全球范围的空间计算、动作生成领域率先探索了AIGC的新模式。

  在硬件设备方面,虚拟动点在边缘计算、穿戴、显示,以及传感器等相关设备方面积极布局,为空间计算提供更多的可能性。

  在空间数据领域,虚拟动点在动作捕捉领域多年积累了大量的动作数据。刘耀东表示,未来将通过数据资产化和应用平台化,赋能千行百业。

  目前,虚拟动点已经沉淀了包括光学定位捕捉、无标记点定位捕捉等多项全球领先的算法技术,实现了包括肢体、手势、表情等多种人体空间计算场景应用,以及体积面积、位置关系、形态大小等物体空间计算场景应用。

  

 

深耕动捕,用动作大模型交朋友

  LYDIA动作大模型区别于其他通用大模型,LYDIA专注于空间计算中动作数据的生成与理解,是聚焦动作生成的垂类专业大模型,并且生成的是动作的三维数据,并可与目前主流数字内容创作平台兼容打通,实现相对精准的人物动作生成。

  “通用大模型像一个全科大夫,它似乎能解决我们所有的需求,但是这个过程中需要Agent进行转化,因为通用大模型并不理解行业和场景之间的真正需求。”在与AI大模型工场的对谈中,刘耀东如此说道。

  “在设计LYDIA之初我们就知道我们做不到通用大模型,因为这个不仅需要有巨大的算力、全网的数据还要有非常高阶的算法,而我们深耕空间计算多年,加上我们之前就积累了大量的3D数据,因此就选择了做专业能力动作大模型。”

  实际上,随着基础模型的不断迭代更新,制约模型发展尤其是垂类模型的已不再是算法、算力,而是数据。

  可以说,垂类模型,数据为王。数据不仅本身具有价值,更重要的是如何打通这些数据,让它们能够在实际应用中发挥作用。

  AI大模型工场了解到,LYDIA动作大模型的参数包括两个部分:基础数据参数和核心动作数据参数。

  在基础数据参数方面,LYDIA参考了当今主流的大模型数据集,在训练模型对于自然语言理解的过程中达到了百亿集的规模。

  在核心动作数据参数方面,虚拟动点拥有多年Optitrack光学动捕的数据积累、无标记点动捕的数据沉淀。

  OptiTrack动作捕捉技术以其高精度、低延迟而著称,OptiTrack的海量数据积累,让LYDIA动作大模型的诞生水到渠成。

  目前LYDIA已经应用于影视、游戏、动画、电商、教育、体育、文艺等有空间计算内容生成需求的各种行业场景。

  实际上,目前大模型在场景落地方面普遍存在一些问题,如数据隐私问题、通用性、稳定性等。

  刘耀东坦言,目前LYDIA在场景应用方面存在两方面的问题。一是动作丰富性的问题,“虽然在3D动作领域我们拥有世界前列的数据库,但是数据还是很有限,不像文字、图片那么的多。”

  二是需要打通场景,寻找更多合作伙伴,“LYDIA在场景使用中并不需要Agent的中间转换,而是需要打通更多引擎,例如,未来具身智能和动捕打通将成为主流需求,这其中不仅需要数据融合,甚至需要材料学的融合,需要打通更多生态合作伙伴。”

  在4月17日生态合作伙伴大会上,虚拟动点展示了沉浸式Cave交互、Mini沉浸式互动展示、智能数字生态互动、全息数字人等解决方案,正在积极携手各方伙伴进行生态构建。

  “未来我们希望能把大模型技术真正地产业化,能让LYDIA在电商、影视、教育、体育、文化等行业加速落地。”

免责声明:本文来源于虚拟动点,本文仅代表作者个人观点,本站不作任何保证和承诺,若有任何疑问,请与本文作者联系或有侵权行为联系本站删除。
扫一扫关注数字音视工程网公众号

相关阅读related

评论comment

 
验证码:
您还能输入500