如题:
问答时流式输出经常出现反复卡顿后显式部分内容
请大佬们帮忙提出见解
玉树
2
跟模型本身的性能关系比较大,特别是在线的r1,卡顿是常有的事。
貌似不是,本地调用相同的api,使用chatbox类应用不会出现卡顿,模型主要是Qwen-Max
后续:已解决,主要为nginx代理缓存配置问题。
流式输出
proxy_cache off;
proxy_buffering off;
chunked_transfer_encoding on;
tcp_nopush on;
tcp_nodelay on