ICLR 2026 亮点:Google 推出 Turbo Quant,大幅降低长上下文模型内存开销
ICLR是AI领域三大顶会之一,今年的亮点之一是Google Research提出的Turbo Quant技术。它的核心作用是大幅减少KV缓存(大模型推理时最吃内存的部分)的占用,让长上下文模型能在显存有限的设备上跑起来。通俗点说,以前你处理100页的PDF需要A100显卡,现在可能一张消费级显卡就够了。同一届会议上,还有团队展示了把生成式视频模型改造成机器人大脑——用Cosmos Policy做