ollama部署deepseek之后,保持模型永远被加载在GPU之中!
我们在使用ollma部署大语言模型的时候,如果部署的模型尺寸较大,往往在第一次加载的时候需要花费大量的时间加载模型;等加载完成后,如果长时间不调用模型,我们会发现模型已经被释放掉了,又要重新加载,导致体验感极差。
·
常见问题:
我们在使用ollma部署大语言模型的时候,如果部署的模型尺寸较大,往往在第一次加载的时候需要花费大量的时间加载模型;等加载完成后,如果长时间不调用模型,我们会发现模型已经被释放掉了,又要重新加载,导致体验感极差。
这是因为在没被调用时,ollama默认在显存中驻留5min,然后就会自动释放,如果我们两次调用的间隔大于5min的话,那模型已经被释放了,又要重新加载;
解决办法:
如预加载模型,并永远驻留在显存!
curl http://localhost:11434/api/generate -d '{"model":"llama2","keep_alive”: -1}
参数:
model:模型名称
keep_alive:保持时间。解释如下“”
持续时间字符串(如‘10M’, ‘24H’);
以秒为单位的数字(如 3600);
-1表示永远驻留在显存中;
0表示接受一次响应后立即清除模型;
使用方法
方法如下:
如预加载模型,并永远驻留在显存
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)