GPUHammer是Rowhammer比特翻转攻击的一种版本,原理在于现代内存芯片的高密度布局,当反复读写某一行内存单元时,会产生电气干扰,从而导致邻近行的比特位发生翻转。
这种比特位翻转可能会改变存储在内存中的数据,例如数值、指令或神经网络的权重,进而引发问题。
此前Rowhammer漏洞主要影响DDR4,而此次GPUHammer的出现,证明了该漏洞同样可以在GDDR6显存上复现,而GDDR6显存是许多现代NVIDIA显卡所采用的显存类型。
研究人员在NVIDIA RTX A6000显卡上进行了实验,通过反复“锤击”内存单元,成功实现了比特位翻转,进而破坏了训练有素的AI模型,使其变得毫无用处。
这种攻击无需直接访问用户数据,只要攻击者能够在云环境或服务器中与目标共享同一GPU,就有可能干扰目标的工作负载。
这一漏洞涉及的范围较广,包括Ampere、Ada、Hopper和Turing架构的多种GPU,尤其是那些用于工作站和服务器的型号。
NVIDIA已经发布了受影响型号的完整列表,并建议受影响的显卡启用ECC(错误纠正码)功能来缓解风险,GDDR7和HBM3内置了ECC因此能自动抵御攻击。
ECC功能通过添加冗余,能够检测并修复此类比特位翻转错误,不过启用ECC会导致机器学习任务性能下降约10%,可用显存减少约6% - 6.5%。
用户可以通过NVIDIA的命令行工具启用ECC功能,命令为“nvidia-smi -e 1”,同时也可以通过“nvidia-smi -q | grep ECC”来检查ECC是否已激活。