矿卡40hx跑stable diffusion webui的TensorRT填坑指南
具体方法见我另外个贴。通常一个onnx模型需要20-30生成,TensorRT的特点也就是这样,先优化成Tensor Core可加速处理的模型,然后再生成图片。编译时很无聊,你可以用我之前贴中发过的GPU监控小程序,看看GPU跑的状态,万一跑飞了,可以重新来过。如果你真的很想用大尺寸或者sdxl,也可以网上找编译好的onnx模型来试,不过编译参数需要对得上,有点麻烦。当然,你在把模型编译完后,再把
1. 安装问题:
目前webui(auto1111开源项目)的1.7版本,已经很久没更新了(2024.1.18), TensorRT扩展插件安装的BUG已经修复,但没有发布在主分支中。所以可以切换到dev分支,就可以顺利安装,也可以手动安装 https://github.com/andrewtvuong/Stable-Diffusion-WebUI-TensorRT 这个链接。具体方法见我另外个贴。
2. 编译onnx模型问题:
现在TensorRT扩展件有各种BUG, 所以在编译包的时候,不能加medvram、lowvram、api 这三个参数。所以呢,如果40hx要跑起来,8G内存就不能跑大尺寸如1024x1024, 或者跑sdxl这种内存需求比较高的。
当然,你在把模型编译完后,再把内存优化参数带上去,重新启动,就可以正常出图了。
如果你真的很想用大尺寸或者sdxl,也可以网上找编译好的onnx模型来试,不过编译参数需要对得上,有点麻烦。
3. 编译模型时间:
通常一个onnx模型需要20-30生成,TensorRT的特点也就是这样,先优化成Tensor Core可加速处理的模型,然后再生成图片。编译时很无聊,你可以用我之前贴中发过的GPU监控小程序,看看GPU跑的状态,万一跑飞了,可以重新来过。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)