
梦瑶 发自 凹非寺量子位 | 公众号 QbitAI 好好好,起大早赶晚集的谷歌,此次又拿出了新东西—— Computer use,等于阿谁电脑操作能力,这回径直被内置进Gemini 3.5 Flash: 在能力上,AI通过截图看屏幕,就能认出页面上的按钮、输入框这些UI元素,然后径直上手操作。 比如,像点击、打字、转化、切标签页这些小当作都颖悟,轮回70屡次也不在话下,be like: 划重心! 和市面上具备自主操作能力的主流Agent不太雷同的是,这套能力覆盖的不仅仅浏览器—— 网页、桌面软

梦瑶 发自 凹非寺量子位 | 公众号 QbitAI
好好好,起大早赶晚集的谷歌,此次又拿出了新东西——
Computer use,等于阿谁电脑操作能力,这回径直被内置进Gemini 3.5 Flash:
在能力上,AI通过截图看屏幕,就能认出页面上的按钮、输入框这些UI元素,然后径直上手操作。
比如,像点击、打字、转化、切标签页这些小当作都颖悟,轮回70屡次也不在话下,be like:
划重心!
和市面上具备自主操作能力的主流Agent不太雷同的是,这套能力覆盖的不仅仅浏览器——
网页、桌面软件、迁徙端也都在它的可操作规模里,而且,几十步以上轮回引申任务都能梭哈~
Gemini 3.5 Flash:喜提外挂!我看这下谁还敢说俺们Flash不好使!
谷歌:虽迟但到! 晚起的鸟儿照样有虫吃!
Flash用户:加量不涨价?但…不会把我电脑信息搞没了吧…(doge)
电脑操作能力被塞进了Gemini Flash
u1s1,Computer Use不算是新东西。
之前它主如若荒谬给Gemini 2.5版块用的,但此次不雷同的是东谈主家径直集成到了主Gemini Flash模子里。
具体能作念的事情呢,也比较浮浅机诈。
那等于让模子像东谈主雷同看屏幕,然后操作鼠!标!键!盘!
比如,它不错看屏幕,像截图、UI结构信息这些都能读取。
它还能够理罢免务,举例看到界面后,模子也能刻下处于哪一步,下一步应该点那里。
固然,最中枢的过错是引申,像点击、输入、转化、切换、跳转标签这些操作Computer Use都不错作念~
比如底下这个官方demo。
这是Gemini 3.5 Flash基于Computer Use,在真实界面环境中对Gemini自身行使进行的一次自主分析。
通盘过程不是静态评测,而是一个持续的交互轮回。
AI不错像一个真实用户雷同干涉行使,在屏幕上不时进行操作、试探与判断:
不错看到,在73个操作回合里,它渐渐探索了通盘行使的功能结构。
从主界面干涉不同模块,在各个功能进口之间来往切换,持续拆解这个家具的骨子能力畛域。
临了呢,模子把所有被触达的功能再行组织,概述为5类能力体系~
咱们再来看底下这个demo。
这一次呢,模子干涉的是一个迁徙端网页环境,在62个操作回合中对举座体验进行了一语气评估:
看来出来,通盘过程依然是典型的Computer Use agent轮回。
读取屏幕气象→遴荐操作→点击不同功能进口→在页面模块之间不时切换与考据。
在完成齐全探索之后,它还进一步将所有与可探望性相关的问题与不雅察限度,归纳为4个中枢改良所在~
推断这会儿有一又友该问了:
让AI我方操作电脑这儿,些许有点危!险!吧!
谷歌固然也思到了这个问题,于是他们在Gemini 3.5 Flash的引申链路里也加入了一层荒谬的安全按捺机制:
具体来说,在模子真实启动引申操作之前,模子并不是统统放飞气象,而是会持续接受系统级的行径校验。
比如在波及敏锐操作、或者存在不成逆后果的步伐时,系统会主动打断经由,条目用户进行二次证明,再决定是否接续引申。
除此以外呢,针对更粉饰的风险——
比如通过页面内得意输入信息进行「盘曲」的挫折模式时,模子也会进行自主识别!!!
不仅如斯,市面上主流的具备自主操作能力的Agent不太雷同的是——
Gemini 3.5 Flash的电脑操作能力覆盖的不仅仅浏览器,还包括桌面和迁徙端界面。
emm…
按这个意旨真义梗概等于只如若东谈主能操作的界面,表面上都不错干涉这个引申链路里??(我猜)
固然了,后果好意思瞻念是一趟事,问题是这玩意儿对Gemini 3.5 Flash的使用性能有啥影响呢?
然后,官方身材力行了。
在官方基准测试里,加入Computer Use之后的Gemini 3.5 Flash,在不少基准任务中的弘扬仍是不错对皆前沿模子的能力水平。
而且像一些复杂、长周期的浏览器任务,也启动变得不错被踏实接收,况兼以更低本钱、更高质料的模式完成~
(真是吗)
起大早赶晚集的谷歌,此次把干活能力补上了
事实上,浏览器操作、电脑代操这事儿,不是Google头一个整的。
最早把它摆上台面的是Anthropic,2024年10月,还一上来就径直给了设立者当零件用。
没过多久OpenAI的Operator也来了,能在浏览器里替你点、替你填、替你订。
是以比拟之下,一向在AI节拍上慢半拍的谷歌,此次的当作也谈不上踩在最热的风口节点上…
好,那问题来了:谷歌到底图个啥抓?
东谈主家也不傻。(doge)
此次谷歌没把Computer Use塞进最贤达的Pro,而是放在了最低廉、最轻量的Flash里,背后确定是算过账的…
咱都知谈电脑代操是个轮回,看一眼屏幕、思一下、出个当作,再看再思再动,一个略略长点的任务能转几十上百遍。
这如若跑在Pro上,本钱烧不起;唯有Flash这种又快又低廉的档位扛得住…
固然,对Flash来说它也需要这件事儿,毕竟能力和模子,是相互找上门的——
Computer Use这一层能力塞进去之后,东谈主家Flash也摇身一形成持续引申任务的扮装了,顺谈再冲一波销量!
任务轮回离不开Flash的单价和速率,Flash也借着这件事,从打杂的升成了真干活的。
不论咋说,关于咱用户来说固然是善事儿。
像盛大使命里作念运营、家具测试的友友,盛大如实也短不了再一堆网页、后台、表格之间来往切。
而像数据和信息整理这类场景也蛮刚需,比如让AI去多个网站抓取信息,再颐养整理成结构化内容,本人等于一条典型的跨界面使命流。
是以Computer Use更安妥替咱们完成在电脑上庸碌点击、切换、操作、费时分的活儿!!!
多了个能操控电脑的AI外挂,些许有种加量不涨价的简直……
参考伙同:
[1]https://deepmind.google/blog/introducing-computer-use-in-gemini-3-5-flash/
一键三连「点赞」「转发」「防备心」开云kaiyun