调用显卡来进行向量,肯定比cpu向量快啊,cpu在短时间大量处理的时候太慢了
可以通过 Ollama 等框架自行部署向量模型并配置GPU调用,然后跟 MaxKB 进行对接,默认的模型在容器中没有GPU资源。