VLM 实现 10%的精度提高，13.1倍加速！纽约大学新算法让视觉语言模型更小、更快、更准确

纽约大学的研究团队通过QSVD的新方法，让视觉语言模型（VLM）实现了惊人的效率飞跃，在普通GPU上获得了高达13.1倍的运行速度提升。

视觉语言模型是人工智能领域的一项杰出成就，它赋予了AI像人一样同时理解图像和文字的能力。

无论是让AI看图说话，进行生动的图像描述，还是回答关于一张图片内容的复杂问题，这些都离不开VLM的核心支持。

它就像是连接视觉世界和语言世界的桥梁，在医疗诊断、在线教育、互动娱乐等众多领域展现出巨大的应用潜力。

然而，这种强大的能力背后，是巨大的计算代价。

VLM需要吞噬海量的数据，处理高维度的视觉与文本信息，这导致其模型体积庞大，内存占用极高，计算过程缓慢。

尤其是在模型进行推理，也就是生成答案或描述时，一个名为键值缓存（KV Cache）的机制会急剧消耗内存带宽，成为拖慢整体速度的主要瓶颈。

这种高昂的硬件成本，极大地限制了VLM在普通设备，特别是手机、笔记本电脑等资源受限环境中的部署和应用。

为了让这项技术真正走进千家万户，科学家们必须为这头巨兽瘦身减负，在不牺牲其智慧的前提下，让它变得更轻、更快。

过去，研究者们尝试了各种方法来压缩模型，比如分组查询注意力或多查询注意力，思路主要是减少计算中的某些环节。

最近，DeepSeek-v3模型提出的多头潜在注意力（MLA）提供了一个新颖的视角，它通过将KV缓存压缩成更小的潜在向量，显著提升了推理效率。

受到MLA的启发，纽约大学的研究者们提出了一个更大胆的想法。

在VLM的核心组件多头注意力（Multi-Head Attention）模块中，输入的信息会通过三个独立的权重矩阵，分别变换成查询（Query, Q）、键（Key, K）和值（Value, V）。

这三个元素是注意力机制的关键，决定了模型在处理信息时应该关注什么。

传统的优化方法，通常是独立地去压缩处理Q、K、V各自的权重矩阵。这就像是三个独立的优化任务，分别对三个部件进行改造。

而QSVD的核心创新在于，它不再将这三者分开看待。

研究团队将原本独立的三个大小为E×E的权重矩阵WQ、WK、WV，在逻辑上拼接成一个更宽的、大小为E×3E的联合矩阵Wconcat。

然后，他们对这个拼接后的超级矩阵进行一次统一的奇异值分解（Singular Value Decomposition, SVD）。

SVD是一种经典的矩阵分解技术，可以理解为一种精密的数据压缩手术。

它能将一个复杂的矩阵，分解为几个更简单、更小的矩阵相乘的形式，并自动找出原矩阵中最重要的特征信息，用一个对角矩阵中的奇异值来表示其重要性，数值越大的奇异值越重要。

通过保留那些最重要的奇异值，就可以用几个小得多的矩阵来近似模拟原来的大矩阵，从而实现压缩。

QSVD的这一步操作，带来了立竿见影的好处。

新车性能更多>>