谷歌Gemini 2.5 可操作电脑

丹炉 2025-10-09 10:07:06 发布

321 浏览 3 点赞 3 收藏

谷歌的Gemini 2.5中引入了一款全新的AI模型——计算机使用模型，该模型具备模拟PC使用的能力，能够独立识别屏幕元素并执行操作，为自动化测试等领域带来了新的可能。

谷歌此次推出的计算机使用模型，旨在高度模拟人类对PC的使用。它可以独立识别屏幕上的各类元素，并精准执行点击和操作。以用户测试场景为例，借助这一模型，用户能够自动对网站和用户界面展开全面的用户测试。此外，该软件还具备信息提取与处理能力，能够从文本和图像中提取关键信息，并根据用户提示对这些信息进行进一步处理和展示。

在技术实现上，计算机使用模型运用计算机视觉技术来识别屏幕元素。它以桌面屏幕截图等数据作为输入，通过先进的算法识别出截图中的各个元素，随后执行相应的操作，如鼠标点击和键盘输入。完成操作后，系统会生成新的屏幕截图并传递给模型，如此循环往复，直至达到预期的结果。

谷歌在相关博客文章中明确指出，Gemini 2.5计算机使用模型主要针对网络浏览器进行了优化。不过，它也具备一定的通用性，能够识别和操作浏览器之外的其他图形用户界面（GUI）元素。但谷歌同时也承认，目前该模型并非为在操作系统桌面级别进行控制而设计。

尽管如此，考虑到应用程序的用户测试通常不局限于浏览器环境，谷歌针对专用程序的GUI对该模型进行进一步优化或许只是时间问题。一旦实现这一优化，该模型的应用范围将得到极大拓展，有望在更多领域发挥重要作用。

目前，计算机使用模型处于公开预览阶段，谷歌尚未公布该模型全面向所有用户开放的具体时间。这一阶段为开发者和用户提供了提前体验和反馈的机会，有助于谷歌进一步优化和完善模型。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

分类

业界新闻

相关推荐

观察：谷歌封禁OpenClaw账号背后，AI大厂收紧模型开放边界

AI小助手

337

0

谷歌Gemini将为苹果AI提供支持

AI小助手

328

0

Gartner预测2026年全球AI支出将超2.5万亿美元

AI小助手

343

0

2026 Google Cloud 出海峰会展示Gemini 全栈AI能力

AI小助手

306

0

谷歌的AI芯片对外销售会给市场带来多大冲击？

AI小助手

320

0

丹炉

我还没有写个人简介......

135

帖子

0

提问

30

粉丝

关注

最新发布

卡巴斯基发现Coruna漏洞利用工具包为“三角行动”框架的更新版本

2026-04-08 13:43:48 发布

SAP 收购 Reltio，为 AI 智能体引入更多外部数据

2026-03-31 11:19:20 发布

热门推荐

上一篇：英伟达投数十亿美元，助X.AI打造AI新势力

下一篇：Anthropic与IBM携手，Claude即将融入企业软件与IDE

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室商务内容合作QQ：2291221 电话:13391790444或(010)62178877

版权所有:电脑商情信息服务集团北京赢邦策略咨询有限责任公司

声明:本媒体部分图片、文章来源于网络，版权归原作者所有，我司致力于保护作者版权，如有侵权，请与我司联系删除

京ICP备:2022009079号-2

京公网安备:11010502051901号

ICP证:京B2-20230255