文档颗粒度细的问题

Nutt · 2024 年7 月 11 日 02:32

目前正在导入知识库的文档会因为对内容细节需求过多导致颗粒度非常细，然后问细节的时候模型回答的很好，但是涉及到大类概括，例如xx公司购买过什么房产？如果xx公司购买过很多房产就会导致他们的报表也很多，然后系统给llm发过去的三个文段，回答也就只有三个，但是如果把房产报表全并在三个分段内的话token又会很高（增加分段也是）,工作量极其巨大先不说的话，后期数据也量大，人流量大的话估计服务器顶不住，有没有什么办法处理这种情况？（部门人巨少，数据格式还乱七八糟的，还多，人已经快疯了XD）

xin.bai · 2024 年7 月 11 日 02:45

大类的问题可以单独维护一个分段，分段内容就是总结概括的大类问题的答案。
细节问题就走细节分段，各行其事。