基于通义深度定制场景专属大模型雷鸟AR眼镜反应速度提升一倍 创新场景
- 2025-06-29 19:39:00
- aiadmin 原创
- 33
本文摘自《云栖策略参考》,这本刊物由阿里云与钛媒体协同计划。宗旨是为了把各个行业先行者的工夫寻求、交易执行大白出来,与研究同样题目的“数字先行者”联合钻探、碰撞,生机这些内容能让你有所诱导。
AR(Augmented Reality,巩固实际)眼镜,被以为是庖代手机成为下一个超等终端的有力抢夺者。这两年,伴跟着 Meta、苹果等巨头的入局和肆意进入,加上供应链的成熟,AR 眼镜也被更众人所闭切,成为这一波 XR(Extended Reality,扩暴露实)高潮中的最大受益者。
而正在同暂时期,AI 大模子的横空出生和疾速迭代,成为第四次工业革命的引擎,改造各行各业,更始着全新的贸易形式。
2024 年下半年,不带显示的 AI 眼镜包括一共科技行业,估计另日商场范畴超千亿美金。AI 眼镜的爆火,也让更众人笃信,“下一个 iPhone 时候,由 AI+AR 创设”。
不过行为连结物理寰宇与数字寰宇的桥梁,AI+AR 不是做简易的 1+1 加法题,AR 的场景很丰富也很出格,对响应的速率以及交互的方法都有着更高的条件。
行为邦内第一梯队的 AR 眼镜公司,雷鸟更始平昔正在做 AI 与 AR 的调和研产生事,并正在 AI 生态进步入了多量的人力和物力,去寻求 AI+AR 的最佳调和方法。针对当下 AR 产物闪现的 AI 体验不佳的题目,雷鸟更始与阿里云一道,寻求走出了一条智能化团结更始共赢之途。
比拟较手机、PC 等古板终端,AR 发达的时辰并不长,近几年才将落地产物推向人人商场。而追随计谋声援和 AI 大模子的加快发达和落地,消费电子行业迎来了新一轮的发达时机。
来自机构统计的数据显示,2024 年上半年,邦内消费级 AR 摆设销量同比增进 49%,反应出商场对 AR 的遍及承认。众家 AR 公司担当人也不止一次正在公然景象呈现,AR 眼镜会是 AI 的理念载体,正在空间估计打算期间中,将会暴露出特别的价钱和潜力。
IDC 见解以为,AI 正在硬件搭载上有良众选拔,手机、PC、AR 眼镜都是好的载体。不过看待 AR 这种轻量级硬件来说,AI 的插手会极大厚实 AR 的操纵场景,更加是正在存在助手类的操纵中,城市使得其行使的便捷性、凿凿性获得昭着提拔。
中商财产探索院也正在讲演中呈现,正在 AR 摆设中,AI 工夫能够助助摆设更好地剖析用户的妄图、举动和处境,从而供应特别天性化的体验。跟着闭系工夫旅途的渐渐成熟,另日 AI+AR 眼镜希望跑通作用提拔类场景,向消费级放量,AI+AR眼镜希望正在短期完毕百万出货量,中期完毕万万出货量,AI+AR 眼镜另日希望成为下一个过亿的更始终端产物。
雷鸟更始能够说是邦内 AR 财产的最早一批探途者,创立至今已有三年众的时辰,用了不到一年的时辰就做到了中邦消费级 AR 商场占领率的第一名,正在对 AI+AR 的寻求上也是处于前哨,并众次正在公然景象证实公司正在 AI 与 AR 调和上的戮力。
雷鸟更始创始人兼 CEO 李伟大以为,“AR 眼镜将给予 AI 与人类高度相同的感官才力,并使得 AI 真正成为人们的‘外脑’,巩固人们对视觉音信、音频音信的管束才力。AI+AR 会是行业的一个很紧急的趋向。咱们笃信,另日 2-3 年 AI 带来的最紧急的新硬件即是 AR 眼镜,下一个 iPhone 时候由 AI+AR 来创设。”
过去,AR 眼镜固然能同时大白数字与物理寰宇,但二者是绝交的,没有交互,也没有联动性。正在 AI 发达的初期,其更众的是被操纵正在少许软件优化等本原操纵上,并没有直接串联起物理与数字寰宇。
而这两年,AI 发达的速率赶上任何汗青时候,功能也有了极大的提拔,主动性和操纵的场景也更众、更深远。
有了 AI 大模子的融入,AR 不但能大白实际与虚拟寰宇,更能借助 AI 与算法去接收和驱动数字寰宇,并与物理寰宇造成连结,与你正在实际中看到的场景实行交互,看你所看,听你所听,正在你目下,正在你耳边,重构咱们的视听寰宇。
就像李伟大说的那样,“AI+AR 的调和,不但能够完毕过去手机的场景,还能够成为异常好用的 AI 灵巧助手,更紧急的是,它们会完毕虚拟与实际的深度调和,带来一共寰宇的数字化。”
正在精确了 AI+AR 的发达旅途后,2024 年有众家 AR 企业发轫了产物与 AI 调和的落地以及新研究。
一个异常昭着的信号是,正在岁暮这段时辰,行为承托 AR 眼镜的 AI 眼镜产物频发,不但有雷鸟更始如此的笔直厂商的插手,也有创业者以及大模子企业的入局。
入局者浩瀚,产物也良众,不过,真正能直击用户,连通数字寰宇和物理寰宇的很少。这里一个闭头的题目正在于,AI 与 AR 的调和不是简易的去做加法,大模子的选拔以及场景化深度优化非常紧急。就形似是苹果的 Siri 一律,因为有良众场景的题目解答不了,于是被良众人弃用。
李伟大也指出,跟大模子对话也是一律,假使不行做到 80% 以上的凿凿率的话,那群众也就不必了。假使用 AR 眼镜来识别途牌或者采用,唯有一半概率能识别出来,也很影响用户的心思。用户正在产物体验上面,要的异常紧急的一个的东西即是确定性。就比如你发个微信信息给对方,假使唯有 50% 的概率能收到,那这个产物必定没人要。
“咱们需求判别的即是谁正在大模子上面会历久处于元首者名望,这也是选拔和阿里通义团结的原由之一。”
个中,Qwen2.5 全系列模子正在 18T Tokens 数据进步行预熬炼,比拟 Qwen2,完全功能提拔 18% 以上,具有更众学问、更强编程和数学才力。视觉发言模子 Qwen-VL-72B 具备自决操作手机和呆板人的视觉智能体才力。大范畴音频发言模子 Qwen-Audio,语音闲话局部调和了语音识别和自然发言剖析,不需求众个模子实行联贯,完毕了端到端大模子,能够识别音乐、心境、处境音响等。
AR 眼镜正在搭载了通义千问出色的众模态识别才力之后,图像、文字、视频和音频等众种输入方法都可以被及时管束。
好比,用户正在途边看到了一栋兴办或者是不知道的植物,通义借助 AR 眼镜的摄像头便可以识别用户看到的物体,对其实行先容。看待用户目下所看到的物理寰宇,通义也能够实行刻画,不但可以助助用户深远领会眼前所处的处境,也能助助视障人群看到目下的寰宇。
同时,AR 眼镜正在有了通义大模子的加持后,还可以完毕即时翻译,声援中文与英语、日语、韩语、法语、德语、俄语等众邦发言互译。即使用户身处目生的邦度,也能从容与本地人实行互换,提拔疏通的作用。
雷鸟更始选拔通义,再有一个更紧急的原由,即是两边都努力于完毕虚拟寰宇与实际寰宇的深度调和,首肯面向用户做深度的研发进入。换句话说,有良众款通用大模子都很杰出,不过正在 AR 眼镜上的体验并不佳,闭头就正在于大模子没有针对 AR 眼镜的需求做深度的定制和成婚。
李伟大呈现,“良众 AR 厂商做的仅仅即是把大模子接进来,这是弗成的。现正在的通用大模子具体能够做良众事故,不过看待 AR 上涉及的场景,做的还不足深远不足好。咱们看好阿里云通义大模子的现正在和另日,而且两边也都有一个共鸣,那即是不行说正在 AR 眼镜上放一个通用大模子就行了,要针对 AR 的场景去做定制和适配,把它培育成一个很契合这个操纵场景的大模子,让 AR 眼镜真正深远到用户的平居存在之中。”
2025 年 1 月 7 日 CES 功夫,雷鸟更始正式揭橥雷鸟 V3 AI 拍摄眼镜。这款新品上搭载了其与阿里云通义联合打制的业内首个特意面向智能眼镜的 AI 大模子。这必定制化模子不但能更好地剖析眼镜场景下的用户需求,还能为 Agent 供应更精准的学问声援和决议依照,从基本上提拔了 AI 眼镜的交互体验。
得益于此,雷鸟 V3 的 AI 均匀呼应速率为 1.3s,远超 Ray-BanMeta 及其他接入通用模子的 AI 眼镜;V3 的 AI 识别凿凿率高达 98%,可称为用户真正万能的百科助手。正在此本原上,雷鸟 V3 还将持续上线 RayNeo 电台、寻求视界 2.0、手陷阱照 AI 总结播报、QQ 音乐点播、AI 讯息播客、全场景灌音总结、支小宝扫码付出等厚实功效,让 AI 真正供职于用户的平居存在。
之后,雷鸟更始谋略正在第二季度揭橥的 AR 眼镜 X3 Pro,也将搭载与阿里云深度定制和调和后的通义大模子。
正在产物研发功夫,两边都进入了多量的人力和物力,针对实在的场景去做熬炼和提问,对硬件端侧的模子实行优化,从而去成婚 AR 场景下的需求。
好比 AI 翻译,老例的通用大模子更众的是依照摄取到的发言音信去做简单的翻译,不过正在实在的场景纠合上没有深远调和,会导致有时翻译的内容会显得很僵硬。另外,速率是翻译很紧急的目标,假使仅仅是接入现有的通用大模子,完全的体验并不会很顺畅。
为了提拔 AI 的体验,雷鸟更始和阿里通义做了众方面的熬炼作事。一方面,是做了速率上的提拔,比拟较于眼前市情上通用大模子翻译,搭载了定制通义大模子的 RayNeo AI 的响应速率提拔起码一倍。
另一方面,除了速率之外,通义还针对观光、点餐、购物等众个细分场景做了优化,借助 AR 眼镜去识别眼前的处境、对话人的神态、手势等众个音信源,更好地剖析用户的行使场景,从而给出更凿凿的翻译结果。
视觉也是一律,AI+AR 要接收物理寰宇,要做到的第一点即是可以对实际寰宇的场景实行凿凿的反应。不过,物理寰宇是相当丰富的,好比途牌,有各类材质、巨细,差别光芒下反光的水平也纷歧律。为了提升识其余凿凿率,阿里云和雷鸟更始一道做了增量的熬炼,通过不休地收罗熬炼和优化,提拔丰富场景下的识别凿凿率。
其它,再有 AR 眼镜的 AI 灵巧助手,也是一个众音信输入的场景,需求做一个新的分类模子,针对差别的指令做出低延迟质料高的呼应。
当然,以上所说的只是局部场景,另日雷鸟更始和阿里通义还会针对更众的细分场景去做好底层的优化,从而真正完毕“接收数字寰宇,调动物理寰宇”。
当下,AR 正处于郁勃发达的阶段,但仍处于上半场的初期。况且,AI+AR 是为数不众正在上半场就由中邦厂商深度插手乃至是主导的财产。
雷鸟更始与阿里云正在 AI+AR 上的深度团结,会进一步加深用户对 AI 落地场景的感想和剖析,饱动 AR 走向人人商场,连结数字寰宇和物理寰宇。
叙及与阿里云的团结,李伟大呈现,AI 正在新的场景下,正在物理寰宇的落地进入到了一个闭头时候,阿里云所做的所有异常好也很有价钱,咱们跟阿里云的团结也开创了这个行业的一个新形式。另日的圭表也会被从新修筑,那即是 AR 接入的大模子要可以做深度的定制化和从新熬炼,从而知足场景化需求。
只是,目前所做的场景寻求仍是不足的,伴跟着工夫的提拔,以及 AR 正在更众场景的寻求,AI+AR 再有进一步伐和的空间。好比正在对话翻译时,能否将字幕显示正在对方的嘴边?“戴上 AR 眼镜之后,每片面语言的时辰,嘴边城市显示一个对话框,就像是逛戏里的场景一律,能看到语言人的发言,与全寰宇各地的人都能无窒碍互换。”李伟大说道。
他还以为,有了 AI 的加成,AR 眼镜另日不但能够剖析文字、图片和视频,还能剖析空间,从而能够做内情调和的逛戏了,好比跑步的时辰网罗金币。
其它,跟着大模子落地不休深化,端侧操纵成为趋向,手机、PC 已有 AI 大模子端侧操纵的执行。日前,阿里云就将“通义千问”大模子陈设正在联发科的 SoC 上,通过量化、参数剪枝和学问蒸馏等众种工夫技巧减小模子体积。正在端云协同工夫的饱动下,带来了低延迟、 隐私保卫、离线才力、减削带宽和及时管束这五大上风。
看待 AR 眼镜来说,因为体积、续航等方面的限度,目前端侧大模子的操纵还正在寻求中,好比留意地选拔参数目,要归纳功耗与功能去做更众的探索,这也是另日雷鸟更始和阿里云去联合合作管理的题目。一朝落地,AR 眼镜会更速地响操纵户的指令,端云协同工夫通过正在摆设端管束敏锐数据,将大幅提拔 AR 眼镜用户的数据安宁性和隐私性。
场景正在蜕变,趋向和需求正在蜕变,但褂讪的是数字寰宇与物理寰宇的加快调和。看待雷鸟更始和阿里云来说,AI+AR目前仍正在前半程,二者的调和还要不休的精进。
联系人: | 王先生 |
---|---|
电话: | 15640228768 |
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255