这个包的gpu版本还是比较难安装的,流程其实也不复杂,只不过在安装的过程中会出现各种各样的错误

下面是从源码安装的flash-attn的GPU版本。

# 安装flash-attn 
git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention
# 切换分支 v2.5.7 对应的版本
git checkout v2.5.7

export TORCH_CUDA_ARCH_LIST="8.9"
rm -rf build flash_attn.egg-info dist
export TMPDIR=$PWD/tmp
mkdir -p $TMPDIR
# 这个过程会比较久,10minutes左右
pip install . --no-cache-dir --verbose

其中export TORCH_CUDA_ARCH_LIST="8.9"根据自己的GPU来选,我是RTX4090的,RTX 4000 系列的计算能力都是8.9好像。

更多推荐