从“抠图”到“抠视频” Meta上新AI工具SAM 2
- 2024-08-04 16:24:00
- aiadmin 原创
- 931
继2023年4月初次推出SAM,完成对图像的精准破裂后,Meta于北京功夫7月30日推出了可以破裂视频的新模子SAM 2(Segment Anything Model 2)。SAM 2将图像破裂和视频破裂功效整合到一个模子中。所谓“破裂”,是指区别视频中的特定对象与后台,并能够追踪对象。
SAM 2将图像破裂才华泛化到了视频范围,其反应才华和凿凿度是一代的6倍,也是目前最突出的视觉破裂模子。Meta AI宣布此版本时夸大:“信赖咱们的数据、模子和主睹将成为视频破裂和联系感知做事的要紧里程碑。”
同日,扎克伯格正在与黄仁勋的对道中,显现出更众Meta 的AI希望,包含将推出一款基于Llama3.1模子修建的名为AI Studio的新用具,允诺用户创筑、分享和安排脾气化的AI闲聊呆板人,用户还能够正在社交媒体平台上分享他们的人工智能脚色。
SAM 2能够识别视频中的特定对象,并及时完成该对象的追踪与提取,正在视频编辑与殊效筑制中,能够高效辅助使命。该模子也能够遵循用户整个诉求,遴选破裂某个物体或某个区域,使把握愈加精准。
与其他模子差异的是,SAM 2具有对不熟识物体和图像的零样本泛化才华,无需分外熬炼,只需单击一帧视频中的任何物体,即可完成对对象对象的及时追踪,迅速照料另日每一帧。
除此以外,该模子还能够集成到更大的体例中,它擅长从其他智能体例中获取提示,使体例之间完毕团结。比如,SAM 2可以正在AR/VR穿着式兴办落选择用户凝视对象,也能够读取破裂对象的边境框提示,完毕文本提示到视频图像破裂的转化。
为了熬炼SAM 2,Meta己方筑构了一个数据引擎——SA-V数据集,有用网罗大批众样化的视频破裂数据集并愚弄其去迭代模子。SA-V数据集包罗5.1万个视频和64.3万个时空破裂掩码(即masklet),是迄今为止最大的数据集,网罗了47个邦度/地域地舆分散各异的切实全邦场景的视频。SAM 2就正在Meta开源的SA-V数据集进步行熬炼,为SAM 2供应的注解包含所有物体、个别物体和物体被遮挡的情形。
SAM 2模子辅助人类标注意标对象的掩码,与此同时,SAM 2将标注的掩码流传到视频其他帧,天生时空掩码,回收提示的SAM 2受益于对象正在功夫维度上的回忆,天生掩码预测。如许轮回往来,使SAM 2获得一贯更新。业内见地以为,SAM 2为视觉数据供应更疾的注解用具,希望被用来熬炼下一代谋划机视觉体例。
关于视频中的动态物体,SAM 2何如精准识别呢?Meta为SAM引入了一种回忆机制。关于视频,回忆组件能够存储对象的相合交互音讯和之前照料过的音讯,使SAM 2可以正在所有视频中完成预测行径。遵循其提示式安排理念,假设正在其他帧上供应了联系提示,SAM 2还能够遵循存储的对象回忆上下文(前后帧)有用地厘正其预测,明显省略人工标注功夫。
Meta官网供应了一个例子,对象对象被遮挡或从视野中磨灭。为了向模子外明这种新的形式,正在SAM 2里新使用了“遮挡头”模子,用于预测暂时帧中是否存正在对象对象,决断物体是否可睹,纵使正在物体短促被遮挡时也有助于破裂物体,使SAM 2可以有用地照料遮挡。
但是,当遭遇长功夫遮挡或者场景中有众个宛如对象等情形时,SAM 2或者会失落对物体的跟踪或是殽杂物体。但同时,以上情形能够通过人工干扰供应细化提示来治理。
正在以往的视频编辑本事中,视频抠图须要一帧一帧地编辑。譬喻,邦内明星真人秀节目数次遭遇的“因某明星个别危险,需从新剪辑全盘画面”题目,或者不再须要视频剪辑焚膏继晷、一口气加班。
SAM 2的使用局限广博,正在很众须要及时反应的使用场景中将外现其效率,包含主动驾驶、医学、视频拍摄剪辑、监控等。譬喻,捕获动态对象实实际时交互,降低车载谋划机视觉体例的犀利性;正在辅助医学疗养中,定位腹腔镜摄像机锚定的区域;正在追踪照相中,助助无人机镜头追随追踪濒危动物;正在机场、车站人流密度大的区域及时监控人群,预警非常情形;也为视频内容博主供应了更众视频创意创作的或者性。
SAM 2也为新模子的涌现埋下伏笔。SAM 2的破裂天生结果能够输出给其他AI体例(例今朝世视频天生模子),SAM 2自身也能够回收其他AI体例的输入提示,完成与对象对象的及时交互,譬喻,使用于直播时的AI大众地步搭筑,主动驾驶道况理会等。
为了使学术界可以正在目前的根本上一直酌量,Meta公然拓布了预先熬炼的SAM 2模子、SA-V数据集、演示和代码。值得谨慎的是,尽量须要强大算力接济,SAM 2仍周旋开源,并允诺伟大用户免费应用(正在Amazon SageMaker平台上托管)。这让Meta远大的透后开源生态又添一员。
近期,扎克伯格众番夸大了开源的意旨,他曾撰写的长文中体现:“开源比任何其他今世本事都更具有潜力,能够降低人类的临盆力、创作力和存在质地,同时还能加快经济拉长并激动冲破性的医学和科学酌量。”
“当今大大都领先的科技公司和科学酌量都是创设正在开源软件之上的。最要紧的是,开源人工智能代外了全邦上愚弄这项本事为每个别创作最大经济时机和平和的最佳时机。”扎克伯格填充说。
正在与黄仁勋的对道中,扎克伯格也再次外达了“祈望下一代谋划机发达回到绽放生态体例获胜的形式”。
联系人: | 王先生 |
---|---|
电话: | 15640228768 |
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255