微软发布AI PC用的小模型Mu,可用自然语言与电脑交互

作者:

CBISMB

责任编辑:

邹大斌

来源:

ISMB

时间:

2025-07-01 15:21

关键字:

微软 SLM Mu LLM

本周,微软宣布了一款名为 Mu 的全新生成式人工智能(genAI)系统,它真正让我们窥见了未来我们如何使用从 PC 到烤面包机在内的各种设备。

Mu 让用户可以使用自然语言来控制他们的电脑。例如,你可以输入或说出“开启深色模式”或“把我的鼠标指针变大”,电脑就会执行这些操作。Mu 首次亮相是在 Windows 11 的“设置”应用中。你只需用语言描述你想更改某个特定设置的方式,这个 genAI 工具就能理解你的意图并自动完成更改。

关键在于,这并不是一个运行在云端的大型语言模型(LLM)。Mu 是一个小型语言模型(SLM),其参数数量相对较少,仅为 3.3 亿个参数,专为一种特殊的 AI 芯片——神经处理单元(NPU) 所设计。

这种芯片已经出现在微软与戴尔、惠普、联想、三星和宏碁合作推出的最新 Copilot+ PC 中。这些新型 PC 自 2024 年 6 月起开始出货,是目前唯一能够运行 Mu 及 Windows 11 其他高级 AI 功能的电脑。

它不是一个基于 LLM 的云聊天机器人,而是一个完全在本地 PC 上运行的小型语言模型,即使断开互联网也能正常工作。

之所以 Copilot+ PC 能运行 Mu,是因为它们配备了能每秒处理至少 40 万亿次运算 的 NPU。微软与高通、AMD 和英特尔合作,确保 Mu 能够在其各自的 NPU 上流畅运行,这些 NPU 现已成为所有 Copilot+ PC 的标准配置。

Mu 采用的是 Transformer 编码器-解码器架构,这意味着它将任务分为两个部分:编码器负责将你的语言转换成压缩形式,解码器则根据这一形式生成正确的命令或回应。

相比旧模型,这种架构在执行诸如更改设置等任务时更加高效。Mu 拥有 32 层编码器 和 12 层解码器,这样的结构是为了适配 NPU 的内存和速度限制而精心设计的。该模型还使用了 旋转位置嵌入来保持词语顺序、双层归一化( 来提高稳定性,以及 分组查询注意力机制来更高效地利用内存。

这些技术选择使得 Mu 每秒可处理超过 100 个 token,响应时间不到 500 毫秒,相较基于 LLM 的聊天机器人(如 OpenAI 的 ChatGPT)来说,Mu 快得惊人。

微软使用了专注于 Windows 设置及相关任务的 360 万条训练样本 对 Mu 进行训练。训练过程是在 Azure 上借助 NVIDIA A100 GPU 完成的。训练完成后,微软对 Mu 进行了微调,并通过量化技术缩小了它的内存需求,以确保它能在三家芯片厂商的 NPU 上良好运行。最终结果是,Mu 的体积约为微软 Phi-3.5-mini 模型的 十分之一,但在它所针对的任务上表现几乎同样出色。

Mu 的出现具有开创性意义,因为它是一款首个面向主流消费设备开发的小型语言模型,让用户可以通过自然语言直接控制系统设置。苹果的 iPhone、iPad 和 Mac 设备也都配备了 Neural Engine NPU,并运行设备端 AI 来支持 Siri 和 Apple Intelligence 等功能。但截至目前,苹果尚未推出像 Mu 这样深度集成到系统设置中的小型语言模型。虽然 Siri 和 Apple Intelligence 也能更改部分设置,但在范围和灵活性方面都无法与 Mu 相媲美。

三星即将推出的 Galaxy S25 及其他最新旗舰手机配备了定制的 NPU(神经处理单元) 和 Galaxy AI,能够执行各种设备控制和个人助理任务。然而,它们也尚未配备像 Mu 那样用于全面控制系统设置的小型语言模型(SLM)。

谷歌的 Chromebook Plus 设备具备 NPU 并支持本地运行 AI 功能,但它们也没有像 Mu 那样使用 SLM 来控制系统设置。

通过在设备本地直接处理数据,Mu 能够保护用户的隐私信息,并实现即时响应。这种本地化处理方式也更容易符合欧洲和美国等地的隐私法规要求,因为没有任何数据会离开你的电脑。

整个行业正在朝着这个方向发展,这是显而易见的。如今的 SLM 已经足够强大,可以胜任一些特定任务,其表现可与更大、基于云端的语言模型相媲美。它们运行成本更低、能耗更少,还能针对特定任务或语言进行优化和定制。

需要注意的是,NPU 并不罕见。它们已经出现在新款手机、平板电脑,甚至家用电器中。这些芯片专为高效、低功耗地运行神经网络而设计,使得“无论是否有稳定互联网连接”的环境下都能实现智能化功能。

最重要的是,搭载在 NPU 上的 SLM 是一个重大突破(BFD)——不仅适用于 PC、手机和平板电脑,也适用于所有设备。随着性能提升、成本下降,我们可以预见:汽车仪表盘、恒温器、洗衣机、拖拉机,以及几乎所有设备(包括烤面包机)都将告别复杂的嵌套菜单操作,转而采用语音控制来调整设置。

你走进厨房后可以说:“请在大约 20 分钟后把贝果轻轻烤一下”,然后再告诉咖啡机“给我做一杯 Flat White”。早餐过后,你可以走进家庭办公室,通过语音与每个设备专用的 SLM 进行交互,远程控制各种物联网设备和其他物品。

值得注意的是,用于设备控制的这些 SLM 也会与大型语言模型(LLM)协同工作,以完成信息查询和其他复杂任务,例如编写代码、构建网站和应用程序,以及协助你所有的商业沟通。

你所使用的那个 SLM 将主要驻留在你的智能眼镜等可穿戴设备上,并在本地运行和执行。

你可能永远不会拥有或使用一台 Copilot+ PC,但你一定会在日常生活和工作中频繁使用类似 Mu 的技术,在各种设备上实现智能交互。这正是我们未来与机器互动方式的真实预演。