GPU调用时间问题

问出首个问题后,GPU开始调入显存,要1分钟以后才能回答问题,如果不继续问问题,大约2分钟就释放显存了,如果再问问题,又要重新调用一次,这样显得反应缓慢,特别是在调试阶段,大家都不想用了!能否设置显存启动就调用,可以选择释放时间,或者自动调用就不释放了?以增加响应速度。

MaxKB是通过ollama连接大模型,一段时间不用大模型,再次启动需要重新加载,这需要在Ollama 平台的配置文件中有相关的参数设置,
Ollama的启动参数设置OLLAMA_KEEP_ALIVE=-1。
具体操作可参考Ollama 官方资料。