兄弟们,为什么我使用maxkb连接ollama的模型,相应这么慢?我直接用API访问速度贼快,效果还更好

如题,maxkb应用

import json

import requests

data = {
    "model": "llama3",
    "messages": [
        {
            "role": "system",
            "content": '''
            回答要求:
                - 请用中文回答用户的问题
                - 请使用简洁且专业的语言来回答用户的问题。
                - 如果你不知道答案,请回答“没有在知识库中查找到相关信息,建议咨询相关技术支持或参考官方文档进行操作”。
                - 避免提及你是从已知信息中获得的知识。
                - 请保证答案与已知信息中描述的一致。
                - 请使用 Markdown 语法优化答案的格式。
                - 已知信息中的图片、链接地址和脚本语言请直接返回。
                - 使用提问语言相同的语言回答问题
            ''',
        },
        {"role": "user", "content": "什么是平台价"},
    ]
}

# 发送HTTP请求
response = requests.post('http://localhost:11434/api/chat', json=data, stream=True)

# 接收流式内容
for line in response.iter_lines():
    if line:
        # 处理接收到的一行内容
        r = json.loads(line.decode('utf-8'))
        print(r.get("message").get('content'), end='')