llama-cpp-python CUDA error问题

安装完 cuBLAS(CUDA) 版本的 llama-cpp-python跑模型，指定出现 CUDA error。

0语1言 · 2024-03-11 15:33:09 发布

安装完 cuBLAS(CUDA) 版本的 llama-cpp-python

CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python

跑模型，指定 n_gpu_layers=-1 出现 CUDA error

CUDA error: the provided PTX was compiled with an unsupported toolchain.

拉取 llama.cpp 最新代码到本地，编译 cuBLAS 版本的动态库

make BUILD_SHARED_LIBS=1 LLAMA_CUBLAS=1 -j libllama.so

替换 llama-cpp-python python包中的 libllama.so (lib/python3.10/site-packages/llama_cpp/)

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

「极限压缩量化未来」Modelers GeekDay上海站圆满落幕

查看更多评论

已为社区贡献1条内容

温馨提示：您尚未绑定手机号