关于 MaxkB 使用 Ollama的llama 模型,回答慢的问题

现象:一些用户根据操作教程安装部署了 MaxKB 和 Ollama,并且对接了 Llama2 模型,知识库导入完成,并且应用也创建完成,但是在演示中提个简单的问题,模型一直在回答中…状态、返回 connect error 甚至返回答案需要几分钟。

出现以上现象或问题,大概是以下原因:
1、模型设置中 Ollama 模型的 API Key 设置了空格(不能设置为空格)
2、部署 Ollama 模型的服务器配置是 CPU 并且计算资源不充足。
3、提示词过长,大模型版本比较低或资源不足理解不了太长的提示词。

解决方案:
1、Ollama 模型中API Key不要设置为空格
2、换小一点的模型,如 qwen:0.5b
3、简化提示词
如果不需要关联知识库,提示词:{question}
如果需要关联知识库,提示词:根据已知信息:{data},回答问题:{question} ,减少引用分段数。
4、 把知识库 -》文档 -》命中处理方式改成直接回答(命中文档下分段时就不会调用模型),把应用-》关联知识库-》参数设置中 无引用分段时设置为指定回复内容。 设置完成后提问 如果快速返回答案,说明就是模型返回慢,模型问题调整第 2、3 条。