【国盛计算机】手机Agent的两种范式:API与GUI

2026-01-27 13:09:00
aiadmin
原创
57

手机Agent,挪动交互范式的跃迁。自触控屏幕开启挪动互联网黄金时期从此,App被计划为一个个独立的孤岛,用户通过点击图标进入特定的利用情况,依托视觉和手动点击来完毕职司。跟着利用数目的伸长和效用的堆叠,用户正在差别App间切换、寻找效用入口、手动搬运数据的本钱明显上升。跟着大模子的打破性发达,挪动交互范式正处于跃迁的前夕:从GUI交互向Agentic交互演进。用户只需通过自然发言外达念做什么,手机Agent便担当将贪图转化为整体的践诺措施并交付结果。何如正在碎片化的挪动生态中让AI超出利用围墙践诺职司,业界目前有两条差别的手艺途径:

API范式:确立轨范化的语义接口,App开采者主动适配并败露相应效用。Agent通过构造化的API移用来提醒App践诺职司,以苹果的Apple Intelligence及其App Intents框架为榜样代外。

GUI范式:诈欺众模态模子看懂屏幕上的UI元素,诈欺编制辅助办事模仿手指的点击与滑动。这一同线不依赖开采者的配合,试图以通用的视觉本事“暴力”打通完全利用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一同线的前锋。

重心分歧比较,API Agent与GUI Agent平分秋色。比较了两种范式的手艺途径分歧,GUI Agent的重心上风正在于通用性高,正在牢靠性、机能、隐私危机角度则是API Agent更胜一筹。1)通用性: GUI Agent的通用性明显更高,这是重心上风,不需求App 开采者举办适配。外面上只消是人类可以行使的 App,GUI-Agent 都能行使。处理了利用掩盖率的题目,新效用或未败露效用的适配度也更高。2)牢靠性;GUI Agent的牢靠性依然较低。原故搜罗模子对纷乱界面的识别本事还达不到百分百;需求众措施模仿用户操作,全体职司式微率更高;UI 改版时容易失效。3)机能:API Agent 能够一次移用完毕纷乱职司,后端直接驱动践诺效果高。GUI Agent机能较低,完毕浅易职司恐怕需求众次截图阐述、视觉推理等纷乱准备,算力破费更大。截图上传到云端模子时,数据量一样高于API传输参数,延迟也更高。4)隐私危机:API-Agent 的利用端后台可举办细密的数据和权限收拾,权限范围显露。GUI-Agent 的隐私危机较高。它需求读取屏幕内容,容易败露闲聊记实、暗码、验证码等敏锐讯息。除了手艺题目,贸易阻力上咱们以为GUI Agent欠亨过授权,更容易受到利用厂商的抵触。

贸易状态演变:三方博弈与生态重构。手机Agent的胀起意味着挪动互联网流量的从新洗牌,手机厂商、大模子厂商和利用厂商三方气力将睁开纷乱的博弈。手机厂商希望从硬件售卖进一步获取流量入口的价格,OS成为了用户贪图的第一领受者。好像于寻求广告恐怕演形成一种新的竞价形式。大模子厂商的愿景是打制一个万能的App(如ChatGPT、豆包)。用户正在这个App里通过对话完毕完全需求。把将其他App形成自身的后端数据库和东西。大模子厂商会踊跃寻求与二线手机厂商合营。字节跳动与中兴的合营便是榜样案例。利用厂商,一方面恐怕与手机/模子厂商合营,盛开局部本事接口;另一方面,为偏护本身益处,也恐怕拒绝或限度Agent的接入。Agent的授权范围是需求进一步划分的法令题目。App本身也正在Agent化,比方微信最终会推出一个AI智能体,淘宝也正在测验通过“问问”等效用正在App内完毕自然发言导购。咱们以为手机Agent的成长不会是API或GUI的单选题,看待高价格、涉及敏锐数据的操作(如支出、通信、重心营业流),API Agent有更高的凿凿度和隐私偏护。看待只读、讯息盘查类的需求,以及API尚未掩盖的利用,GUI Agent通过视觉明确的方法运转能够更天真通用。为领悟决延迟和隐私题目,将来的手机解决器估计还将进一步优化视觉模子的推理本事,使GUI识别和计划正在端侧完毕,不再上传云端。

API Agent:腾讯控股、阿里巴巴、谷歌算力:寒武纪、海光讯息、东阳光、神州数码、新易盛、中际旭创、中芯邦际、华虹半导体、胜宏科技、品高股份、鸿腾紧密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、海潮讯息、东山紧密、云天励飞、伟仕佳杰、宏景科技、中芯邦际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文明、青云、大位科技、玉柴邦际、亿田智能、弘信电子、圣阳股份、润泽科技、润筑股份、深桑达、优刻得、云从科技、太极股份、数据港、首都正在线。

Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶邦际、拓尔思、合合讯息、税友股份、新致软件、金桥讯息、疾手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微汇集、朗新集团、润达医疗、壹网壹创、万兴科技、用友汇集、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得讯息、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石汇集、迪安诊断、中科金财、恒生电子、星环科技、卫宁矫健、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、极点软件、朗新集团、晶泰控股、佳发教学、新大陆、新开普等。

自触控屏幕开启挪动互联网黄金时期从此,图形用户界面(GUI)不停是人机交互的绝对主导。正在这一范式下,App被计划为一个个独立的孤岛,用户通过点击图标进入特定的利用情况,依托视觉和手动点击来完毕职司。这种以利用为核心的交互形式跟着利用数目的伸长和效用的堆叠,用户正在差别App间切换、寻找效用入口、手动搬运数据的本钱明显上升。跟着大模子的打破性发达,挪动交互范式正处于跃迁的前夕:从GUI交互向Agentic交互演进。用户只需通过自然发言外达念做什么,手机Agent便担当将贪图转化为整体的践诺措施并交付结果。

何如正在紧闭且碎片化的挪动操作编制中,让AI超出利用围墙践诺职司?业界逐步瓦解出两条差别的手艺途径:

API范式:确立轨范化的语义接口。操作编制或平台厂商界说一套通用的贪图接口(如“订票”、“发送信息”),App开采者主动适配并败露相应效用。Agent通过构造化的API移用来提醒App践诺职司。这一同线以苹果的Apple Intelligence及其App Intents框架为榜样代外,夸大生态的有序整合与隐私安适。

GUI范式:模仿人类的感知与操作。诈欺众模态模子看懂屏幕上的UI元素,诈欺编制辅助办事模仿手指的点击与滑动。这一同线不依赖开采者的配合,试图以通用的视觉本事“暴力”打通完全利用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一同线的前锋。

苹果等厂商试图正在利用之上修筑一层“语义互联网”,将App内的效用原子化,供AI调遣,这需求利用开采者配合接入。

苹果推出的Apple Intelligence其重心并非仅仅是一个更聪颖的Siri,而是一套深度的编制级集成框架——App Intents(应蓄志图)。为了让 Siri 更好地明确开采者的利用并完毕更流通的对话式交互,开采者需求选拔与利用效用相成婚的域和形式,开采者通过使应蓄志图、利用实体或利用列举适宜形式,确保 Apple Intelligence 可以明确利用的操作和内容。

API范式的离间正在于差别开采者对统一个效用的界说恐怕千差万别。为领悟决这个题目,苹果供应了众个助手架构(Assistant Schema),每个架构都对应差别的内容范畴(比方浏览器、文档阅读器、文献收拾等)。这些架构助助 Siri 遵循内容的类型供应定制化的呼应。助手架构能够明确为一组轨范化的“模板”,Apple 计划这些模板是为了助助 Siri 识别利用的整体效用。譬喻开采者的利用是图片收拾类的,那么行使photos.openAsset如此的架构,能够让Siri明确要浮现一张照片。

本年10月谷歌正在安卓开采者博客显示,开采者能够诈欺新的Prompt API修筑自身的自界说天生式AI效用。本年蒲月的I/O大会上,谷歌推出了基于Gemini Nano模子的设置天生式人工智能API,通过浅易的API简化了摘要、校阅和图片描摹等职司,使常睹职司变得更浅易。

GUI Agent起初需求“明确”屏幕。这闭键依赖于大模子的众模态明确本事,这方面本事上领先模子厂商持续打破,近期谷歌公布的Gemini 3 Pro的众模态明确本事就大幅前进: 模子可以解决和明确文本、图像、视频、音频以致代码等众种模态的数据,并正在这些纷乱数据之间举办推理,抵达了空前未有的精细水平。Gemini 3 Pro正在Screen UnderStanding职司方面阐扬特别特出,正在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5(36.2%)和GPT 5.1(3.5%)。

计划与策划:推理链与职司拆解以及践诺经过中的动态策划:明确屏幕后,Agent需求策划手脚。比方面临“助我点一杯拿铁”如此的指令,咱们以为Agent恐怕会将其拆解为子职司序列:掀开App - 寻求咖啡 - 选拔规格- 下单,Agent每践诺一步,都要动态视察现在屏幕形态决意下一步手脚,比方点击下单后,恐怕弹出一个优惠券,也恐怕提示售罄。案例:智谱AutoGLM

2025年8月20日,北京AI公司“智谱 AI”告示,旧年公布的环球首个可自助操作手机的智能体产物AutoGLM再次升级,推出AutoGLM2.0,并迈出更具史册事理的一步——初次面向大众全盘盛开,无需邀请码即可行使。此次公布的AutoGLM2.0被定位为“践诺型助手”。 正在生计场景中,用户一句话即可让AutoGLM操作抖音、小红书、美团、京东等40余款利用,完毕点餐、订票、查房、预定等办事。正在办公场景中,它也能跨利用践诺完善流程,从检索原料到撰写文稿,再到天生视频、PPT或播客,并直接完毕公布。

2025年12月1日,字节公布豆包手机助手预览版。这是一个面向手机厂商的编制级办事,它将豆包大模子深度融入操作编制,让用户只需动嘴(或动一下手指),就能提醒手机去践诺那些本来需重点击几十次屏幕的繁琐操作。效用搜罗跨平台比价点外卖、搜小红书做攻略等。豆包手机助手的主力研发团队,是字节担当 AI 硬件的 Ocean,它附属于字节 AI 产物大部分 Flow,闭键成员来自字节众年来先后收购的少少硬件产物团队,如锤子手机、VR 头显 PICO、智能耳机 Ola Dance 等,以及近年列入字节的手机、硬件从业者。这款豆包与中兴合营的手机已正在豆包手机助手官网及中兴商城上架,售价 3499 元。这款手机只是豆包手机助手的 “打样”。字节正和众家手机厂商叙合营。

正在与中兴努比亚(Nubia Z60 Ultra)的合营中,豆包助手被整合进编制底层。通过长按侧边键叫醒,豆包能够直接获取编制底层的屏幕缓冲区数据,无需通过Accessibility办事的截屏接口,大大低重了延迟。

豆包手机助手激发了被操作App的抗拒。据上观报道,12月3日,众位网友正在社交平台上反应,搭载豆包助手的努比亚M153工程机登录微信时,页面弹出“登录情况卓殊,需改换设置从新登录”的警觉。局部用户改换账号后虽能暂且登录,但传输闲聊记实时再次被强制下线。更要害的是,若通过豆包助手操作微信效用(如发送信息),编制直接提示“职司式微”,并标注“测验室效用暂不支撑微信操作”。其余,12月3日上午,尚有局部行使“豆包AI手机”的用户反应,因行使豆包手机助手操作微信,微信账号被封禁了。午时12时掌握,被封禁的微信赓续被解封,能够平常上岸,但无法行使豆包助手举办微信上的自愿化操作。另据网友正在社交媒体上反应,自身正在行使豆包AI手机助手的时期遭到了农行、筑行等APP内的强弹窗提示,央浼闭上豆包AI手机助手后再举办行使。

遵循以上对API Agent和GUI Agent手艺途径的阐述,咱们比较了两种范式的分歧,GUI Agent的重心上风正在于通用性高,正在牢靠性、机能、隐私危机角度则是API Agent更胜一筹。除了手艺题目,贸易阻力上咱们以为GUI Agent更容易受到利用厂商的抵触。

手机Agent的胀起意味着挪动互联网流量的从新洗牌,手机厂商、大模子厂商和利用厂商三方气力将睁开纷乱的博弈。手机厂商:从硬件售卖到获取流量入口的价格

正在App时期,用户掀开手机直接点击App,OS只是一层启动器。正在Agent时期,用户直接告诉OS“我要打车”,OS决意唤起哪个App。OS成为了贪图的第一领受者。好像于寻求广告。当用户外达订旅馆贪图时,携程、飞猪、美团谁排正在第一位?这恐怕演形成一种新的竞价形式。

大模子等厂商的愿景是打制一个万能的App(如ChatGPT、豆包)。用户正在这个App里通过对话完毕完全需求。能够明确为念把将其他App形成自身的后端数据库和东西。

合纵连横:为了取得编制级权限,大模子厂商踊跃寻求与二线手机厂商合营。字节跳动与中兴的合营便是榜样案例。利用厂商:数据护城河的警备战

看待App厂商,一方面恐怕与手机/模子厂商合营,盛开局部本事接口;另一方面,为偏护本身益处,也恐怕拒绝或限度Agent的接入。

对外经济商业大学法学院教学、数字经济与法令更始切磋核心主任许可先容了发作正在美邦的Perplexity案。该案中,被告Perplexity是一家AI公司,其通过亚马逊付费会员账号助助用户购物,被亚马逊指控违法并给本身变成贸易失掉。Perplexity则办法自身是“用户授权的代劳人”,以为亚马逊的指控是一种霸凌。许可指出,该案重心争议反应了一种法令窘境:AI助手声称是用户权益延长,但平台以为其行径反对了贸易生态和安适次第。“正在许众情状下,用户权柄和缓台权柄都需求酌量,需求双重授权乃至众重授权。”许可说。

App本身也正在Agent化。正在腾讯2025年第三季度财报电话会上,腾讯总裁刘炽平披露微信AI化政策,了了显示“微信最终会推出一个AI智能体”,让用户正在生态内即可完毕从需求明确到办事交付的全流程。淘宝也正在测验通过“问问”等效用,正在App内完毕自然发言导购。

预测将来,咱们以为手机Agent的成长不会是API或GUI的单选题,而是两者的统一。看待高价格、涉及敏锐数据的操作(如支出、通信、重心营业流),APIAgent有更高的凿凿度和隐私偏护。看待只读、讯息盘查类的需求,以及API尚未掩盖的利用,GUI Agent通过视觉明确的方法运转能够更天真通用。为领悟决延迟和隐私题目,将来的手机解决器估计还将进一步优化视觉模子的推理本事,使GUI识别和计划正在端侧完毕,不再上传云端。

API Agent:腾讯控股、阿里巴巴、谷歌。算力:寒武纪、海光讯息、东阳光、神州数码、新易盛、中际旭创、中芯邦际、华虹半导体、胜宏科技、品高股份、鸿腾紧密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、海潮讯息、东山紧密、云天励飞、伟仕佳杰、宏景科技、中芯邦际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文明、青云、大位科技、玉柴邦际、亿田智能、弘信电子、圣阳股份、润泽科技、润筑股份、深桑达、优刻得、云从科技、太极股份、数据港、首都正在线。

Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶邦际、拓尔思、合合讯息、税友股份、新致软件、金桥讯息、疾手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微汇集、朗新集团、润达医疗、壹网壹创、万兴科技、用友汇集、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得讯息、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石汇集、迪安诊断、中科金财、恒生电子、星环科技、卫宁矫健、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、极点软件、朗新集团、晶泰控股、佳发教学、新大陆、新开普等。

行业角逐加剧危机:若闭系企业加疾手艺迭代和利用构造,全体行业角逐水平加剧,将会对目前行业内企业的伸长出现勒迫。

尤其声明:《证券期货投资者妥贴性收拾手腕》于2017年7月1日起正式推行。通过微信方法创制的根基料仅面向邦盛证券客户中的专业投资者。请勿对根基料举办任何方法的转发。若您非邦盛证券客户中的专业投资者,为保障办事质地、驾御投资危机,请破除闭怀,请勿订阅、采纳或行使根基料中的任何讯息。因本订阅号难以创立拜候权限,若给您变成未便,烦请宥恕!谢谢您予以的明确和配合。

首要声明:本订阅号是邦盛证券准备机团队设立的。本订阅号不是邦盛准备机团队切磋陈说的公布平台。本订阅号所载的讯息仅面向专业投资机构,仅供正在新媒体后台下切磋见解的实时换取。本订阅号所载的讯息均摘编自邦盛证券切磋所曾经公布的切磋陈说或者系对已公布陈说的后续解读,若因对陈说的摘编而出现歧义,应以报揭发布当日的完善内容为准。根基料仅代外报揭发布当日的推断,闭系的阐述私睹及估计可正在不发出通告的景遇下做出更改,读者参考时还须实时跟踪后续最新的切磋发达。

根基料不组成对整体证券正在整体价位、整体时点、整体商场阐扬的推断或投资创议,不成以等同于指挥整体投资的操作性私睹,平时的局部投资者若行使根基料,有恐怕会因缺乏解读办事而对陈说中的要害假设、评级、目的价等内容产心理解上的歧义,进而变成投资失掉。是以局部投资者还须寻求专业投资参谋的指挥。根基料仅供参考之用,领受人不应纯朴依托根基料的讯息而庖代本身的独立推断,应自助作出投资计划并自行经受投资危机。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号