如何对知识库的数据进行统计？

窗外清风 · 2025 年3 月 4 日 01:36

我在知识库导入了数据库的execl表格，有2800条数据，但是让他统计时好像受限于命中条数不能准确地统计每类的数量，该怎么让他正确统计？

玉树 · 2025 年3 月 4 日 02:50

你的意思是有2800条分段，命中一部分分段，就只统计到一部分数据么？如果是这样这是正常的，除非你把所有内容放在一个分段里，把所有分段信息提供给大模型，不然他无法知道所有数据。

窗外清风 · 2025 年3 月 4 日 05:50

那我该怎么构建知识库让他能查详细信息也能统计呢，还是说分开一个统计库一个详细库

窗外清风 · 2025 年3 月 4 日 08:00

现在我把数据都放在了3个分段内，提问时都命中了，但回答的统计数据还是差很多，该类应该有2600条数据但是只统计了44条

玉树 · 2025 年3 月 4 日 09:23

如果提问命中了所有数据，但是大模型没有总结所有数据，这种情况是数据量太多，模型算力有限，没有办法完全总结你的所有数据，建议用本地部署的大模型，算力资源充足。

user-fksnrdyxqhb · 2025 年3 月 16 日 15:25

你好大佬，我想问一下，我使用的是ragflow知识库，我有个excel245条数据，在召回测试的时候是可以把需要的数据82条统计全的，但是问模型他检索知识库就统计不全这些82条数据，请问这种是什么问题呢，使用的模型为deepseek32 embeding是bgm3

玉树 · 2025 年3 月 17 日 01:42

算力不足导致的，模型出现不能完整处理已知信息的情况，各种在线的大模型都容易发生这种情况。