maxkb全文检索-检索不到但知识库里明明有

maxkb全文检索时,明明知识库的切片里有,但就是搜索不出来

  1. 我在命中测试里 设置了全文检索
  2. 知识库切片里检查了每个切片是否包含我所要检索的关键词(都包含)
  3. 并不是所有输入都检索不到
  4. 目前 输入两个字和部分3个字的检索,很大概率,结果为0
  5. 故障复现,输入“安全”,或者“建文”等两个字,检索结果为0,但很多切片里都有 安全,建文 这两个字

所以

  1. maxkb用的全文检索,是指的我们平时的文本搜索吗?
  2. 请帮我找到 出现这个问题的原因

方便提供相应的截图以及你的文件么?这个现象跟个人的文件和片段有很大关系,需要有具体的材料才更好确定原因。

这个截图也看不出来,最多截图给你是一个我在命中测试那里选择全文检索,然后输入 安全 两个字。只要包含有安全的文档片段都不会出现,搜索结果为空。 你可以复现。。。

确实,我本地复现了,可以关注这个issue。

不光是 安全 两个字,有点随机,不知道为什么,有时候三个字的也不行,

可能的原因是分段内容在数据库会继续分段,安全两个字可能被拆分了,就没法匹配到。

肯定不是这个问题,因为我的知识库文本里,基于安全两个字在很多处地方都出现,至少10处以上。
有时候三个字也不行。

我也出现了类似的问题,数据已经分段处理的很好了,知识库检索无法做到遍历,每次随机返回几个结果,尤其是统计的问题,根本无法准确回答,不知道是否存在检索截断机制,哪位大神知道在maxkb里如何查看和修改吗?

这个问题已经提交issue了,后续进展关注这个issue。

经过测试,在执行记录中可以看到, 知识库返回的数据是完整的,大语言模型的数据引用部分也是完整的,引用分段数设置和token设置均用的上限,每次返回引用基本都在10个段落以上,但大语言模型的AI问答结果每次只会调用1-4个案例进行分析,大语言模型用的是本地deepseek的32B和70B,日常问答的效果都还可以。 补充:后来用数据库测试,读出的数据表,AI模型也只能调用少量数据参与问答,服务器性能看了下,资源整体消耗在40%左右,还算正常,是模型能力不足吗?有没有好的解决办法?


分段匹配正确的情况下,模型并没有使用所有的已知信息,跟模型本身推理能力有关系,可以尝试在提示词里添加要求让模型综合所有已知信息,不要漏过每条信息。

添加了综合所有已知信息的要求测试过,模型思考过程中输出的所有信息只有3-4段,每段1000字以内,与执行记录中模型引用的内容(前台输出的已知信息)相差甚远,百思不得其解,模型能力不应该这么low啊,是不是有哪个环节有问题, 求大神们解惑 :joy:

我也遇到这种问题
检索结果里包含了符合要求的很多项,但大模型几乎不会处理所有事项。
不知道是否是maxkb做了控制,或者是需要调整deepseek参数(具体怎么调不知道啊)

MaxKB肯定不会有限制,这个问题我也遇到过,同一个提示词,deepseek r1理解回复的结果不符合预期,别的模型能符合,还有已知信息里数据太多,r1也会出现漏掉某些信息的情况。