如题:
问答时流式输出经常出现反复卡顿后显式部分内容
请大佬们帮忙提出见解
            
 
            
              
              
              
            
            
                
                
              
           
          
            
              
                玉树
                
              
              
              
                  
                  
              2
              
             
            
              跟模型本身的性能关系比较大,特别是在线的r1,卡顿是常有的事。
             
            
              
              
              
            
            
                
                
              
           
          
            
            
              貌似不是,本地调用相同的api,使用chatbox类应用不会出现卡顿,模型主要是Qwen-Max
后续:已解决,主要为nginx代理缓存配置问题。
流式输出
            proxy_cache off;
            proxy_buffering off; 
            chunked_transfer_encoding on;
            tcp_nopush on; 
            tcp_nodelay on