丹炉 2025-10-09 10:07:06 发布谷歌的Gemini 2.5中引入了一款全新的AI模型——计算机使用模型,该模型具备模拟PC使用的能力,能够独立识别屏幕元素并执行操作,为自动化测试等领域带来了新的可能。
谷歌此次推出的计算机使用模型,旨在高度模拟人类对PC的使用。它可以独立识别屏幕上的各类元素,并精准执行点击和操作。以用户测试场景为例,借助这一模型,用户能够自动对网站和用户界面展开全面的用户测试。此外,该软件还具备信息提取与处理能力,能够从文本和图像中提取关键信息,并根据用户提示对这些信息进行进一步处理和展示。
在技术实现上,计算机使用模型运用计算机视觉技术来识别屏幕元素。它以桌面屏幕截图等数据作为输入,通过先进的算法识别出截图中的各个元素,随后执行相应的操作,如鼠标点击和键盘输入。完成操作后,系统会生成新的屏幕截图并传递给模型,如此循环往复,直至达到预期的结果。

谷歌在相关博客文章中明确指出,Gemini 2.5计算机使用模型主要针对网络浏览器进行了优化。不过,它也具备一定的通用性,能够识别和操作浏览器之外的其他图形用户界面(GUI)元素。但谷歌同时也承认,目前该模型并非为在操作系统桌面级别进行控制而设计。
尽管如此,考虑到应用程序的用户测试通常不局限于浏览器环境,谷歌针对专用程序的GUI对该模型进行进一步优化或许只是时间问题。一旦实现这一优化,该模型的应用范围将得到极大拓展,有望在更多领域发挥重要作用。
目前,计算机使用模型处于公开预览阶段,谷歌尚未公布该模型全面向所有用户开放的具体时间。这一阶段为开发者和用户提供了提前体验和反馈的机会,有助于谷歌进一步优化和完善模型。
相关推荐
AI小助手
337
0
AI小助手
328
0
AI小助手
343
0
AI小助手
306
0
AI小助手
320
0
丹炉
我还没有写个人简介......
帖子
提问
粉丝
卡巴斯基发现Coruna漏洞利用工具包为“三角行动”框架的更新版本
2026-04-08 13:43:48 发布SAP 收购 Reltio,为 AI 智能体引入更多外部数据
2026-03-31 11:19:20 发布
京公网安备:11010502051901号