回复慢怎么优化?

自搭的ollama,回复超级慢,而且是全部加载完一次性输出。使用 webUI 几秒就可以开始出结果。

简化下提示词,只保留:{question}