maxkb全文检索-检索不到但知识库里明明有

川哥 · 2025 年2 月 14 日 06:03

maxkb全文检索时，明明知识库的切片里有，但就是搜索不出来

我在命中测试里设置了全文检索
知识库切片里检查了每个切片是否包含我所要检索的关键词（都包含）
并不是所有输入都检索不到
目前输入两个字和部分3个字的检索，很大概率，结果为0
故障复现，输入“安全”，或者“建文”等两个字，检索结果为0，但很多切片里都有安全，建文这两个字

所以

maxkb用的全文检索，是指的我们平时的文本搜索吗？
请帮我找到出现这个问题的原因

玉树 · 2025 年2 月 14 日 06:26

方便提供相应的截图以及你的文件么？这个现象跟个人的文件和片段有很大关系，需要有具体的材料才更好确定原因。

川哥 · 2025 年2 月 14 日 06:54

这个截图也看不出来，最多截图给你是一个我在命中测试那里选择全文检索，然后输入安全两个字。只要包含有安全的文档片段都不会出现，搜索结果为空。你可以复现。。。

玉树 · 2025 年2 月 14 日 07:21

确实，我本地复现了，可以关注这个issue。

github.com/1Panel-dev/MaxKB

[Bug] Why can't the content be hit by using "safety" as the keyword in full text search?

opened 07:20AM - 14 Feb 25 UTC

linfengjjj

### Contact Information _No response_ ### MaxKB Version v1.10.1-LTS ### Prob…lem Description 全文检索使用“安全”做为关键词为什么匹配不到内容呢？同一个片段，使用别的关键词能匹配，但是使用“安全”匹配不到，这是为什么呢，是因为后台会对片段继续分段，有的关键词会被拆分所以没法命中么？ ### Steps to Reproduce 1、添加一个知识库片段，内容是：安全，什么是定义 2、使用全文检索匹配“定义”能名字到 ![Image](https://github.com/user-attachments/assets/6030e62c-fb07-45bd-a643-c5e060af5b4d) 3、使用全文检索匹配“安全”命中不到 ![Image](https://github.com/user-attachments/assets/b9850fb6-99f8-4102-a648-b379885f5d8b) ### The expected correct result _No response_ ### Related log output ```shell ``` ### Additional Information _No response_

川哥 · 2025 年2 月 14 日 07:37

不光是安全两个字，有点随机，不知道为什么，有时候三个字的也不行，

玉树 · 2025 年2 月 14 日 07:43

可能的原因是分段内容在数据库会继续分段，安全两个字可能被拆分了，就没法匹配到。

川哥 · 2025 年2 月 14 日 07:51

肯定不是这个问题，因为我的知识库文本里，基于安全两个字在很多处地方都出现，至少10处以上。
有时候三个字也不行。

user-rqb0rulj1yy · 2025 年2 月 15 日 03:38

我也出现了类似的问题，数据已经分段处理的很好了，知识库检索无法做到遍历，每次随机返回几个结果，尤其是统计的问题，根本无法准确回答，不知道是否存在检索截断机制，哪位大神知道在maxkb里如何查看和修改吗？

玉树 · 2025 年2 月 15 日 11:47

这个问题已经提交issue了，后续进展关注这个issue。

github.com/1Panel-dev/MaxKB

[Bug] Why can't the content be hit by using "safety" as the keyword in full text search?

opened 07:20AM - 14 Feb 25 UTC

linfengjjj

### Contact Information _No response_ ### MaxKB Version v1.10.1-LTS ### Prob…lem Description 全文检索使用“安全”做为关键词为什么匹配不到内容呢？同一个片段，使用别的关键词能匹配，但是使用“安全”匹配不到，这是为什么呢，是因为后台会对片段继续分段，有的关键词会被拆分所以没法命中么？ ### Steps to Reproduce 1、添加一个知识库片段，内容是：安全，什么是定义 2、使用全文检索匹配“定义”能名字到 ![Image](https://github.com/user-attachments/assets/6030e62c-fb07-45bd-a643-c5e060af5b4d) 3、使用全文检索匹配“安全”命中不到 ![Image](https://github.com/user-attachments/assets/b9850fb6-99f8-4102-a648-b379885f5d8b) ### The expected correct result _No response_ ### Related log output ```shell ``` ### Additional Information _No response_

user-rqb0rulj1yy · 2025 年2 月 16 日 13:03

经过测试，在执行记录中可以看到，知识库返回的数据是完整的，大语言模型的数据引用部分也是完整的，引用分段数设置和token设置均用的上限，每次返回引用基本都在10个段落以上，但大语言模型的AI问答结果每次只会调用1-4个案例进行分析，大语言模型用的是本地deepseek的32B和70B，日常问答的效果都还可以。补充：后来用数据库测试，读出的数据表，AI模型也只能调用少量数据参与问答，服务器性能看了下，资源整体消耗在40%左右，还算正常，是模型能力不足吗？有没有好的解决办法？