本地部署的MaxKb流式输出卡顿，没有找到排查思路

Wyh3.0 · 2025 年2 月 24 日 08:07

如题：
问答时流式输出经常出现反复卡顿后显式部分内容

请大佬们帮忙提出见解

玉树 · 2025 年2 月 24 日 08:11

跟模型本身的性能关系比较大，特别是在线的r1，卡顿是常有的事。

Wyh3.0 · 2025 年2 月 25 日 05:34

貌似不是，本地调用相同的api，使用chatbox类应用不会出现卡顿，模型主要是Qwen-Max

后续：已解决，主要为nginx代理缓存配置问题。

流式输出

            proxy_cache off;
            proxy_buffering off; 
            chunked_transfer_encoding on;
            tcp_nopush on; 
            tcp_nodelay on