安装完 cuBLAS(CUDA) 版本的 llama-cpp-python

CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python

跑模型,指定 n_gpu_layers=-1 出现 CUDA error

CUDA error: the provided PTX was compiled with an unsupported toolchain.

一个解决办法

拉取 llama.cpp 最新代码到本地,编译 cuBLAS 版本的动态库

make BUILD_SHARED_LIBS=1 LLAMA_CUBLAS=1 -j libllama.so

替换 llama-cpp-python python包中的 libllama.so (lib/python3.10/site-packages/llama_cpp/)

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐