本地部署的MaxKb流式输出卡顿,没有找到排查思路

如题:
问答时流式输出经常出现反复卡顿后显式部分内容


请大佬们帮忙提出见解

跟模型本身的性能关系比较大,特别是在线的r1,卡顿是常有的事。

貌似不是,本地调用相同的api,使用chatbox类应用不会出现卡顿,模型主要是Qwen-Max

后续:已解决,主要为nginx代理缓存配置问题。

流式输出

            proxy_cache off;
            proxy_buffering off; 
            chunked_transfer_encoding on;
            tcp_nopush on; 
            tcp_nodelay on