“GPUHammer”让NVIDIA GDDR6显卡上AI模型悄无声息地被摧毁

Source

近日，多伦多大学的研究团队发现了一种名为“GPUHammer”的新型攻击方式。该攻击能够悄无声息地篡改NVIDIA GDDR6显卡上的AI模型，导致其准确率从80%骤降至0.1%，幸运的是，NVIDIA已经抢先发布了关于如何减轻这种情况所涉及风险的指南。

GPUHammer是Rowhammer比特翻转攻击的一种版本，原理在于现代内存芯片的高密度布局，当反复读写某一行内存单元时，会产生电气干扰，从而导致邻近行的比特位发生翻转。

这种比特位翻转可能会改变存储在内存中的数据，例如数值、指令或神经网络的权重，进而引发问题。

此前Rowhammer漏洞主要影响DDR4，而此次GPUHammer的出现，证明了该漏洞同样可以在GDDR6显存上复现，而GDDR6显存是许多现代NVIDIA显卡所采用的显存类型。

研究人员在NVIDIA RTX A6000显卡上进行了实验，通过反复“锤击”内存单元，成功实现了比特位翻转，进而破坏了训练有素的AI模型，使其变得毫无用处。

这种攻击无需直接访问用户数据，只要攻击者能够在云环境或服务器中与目标共享同一GPU，就有可能干扰目标的工作负载。

这一漏洞涉及的范围较广，包括Ampere、Ada、Hopper和Turing架构的多种GPU，尤其是那些用于工作站和服务器的型号。

NVIDIA已经发布了受影响型号的完整列表，并建议受影响的显卡启用ECC（错误纠正码）功能来缓解风险，GDDR7和HBM3内置了ECC因此能自动抵御攻击。

ECC功能通过添加冗余，能够检测并修复此类比特位翻转错误，不过启用ECC会导致机器学习任务性能下降约10%，可用显存减少约6% - 6.5%。

用户可以通过NVIDIA的命令行工具启用ECC功能，命令为“nvidia-smi -e 1”，同时也可以通过“nvidia-smi -q | grep ECC”来检查ECC是否已激活。