‼️知识库准备以及分段技巧问题及需求搜集

问题描述:
导入markdown文档,若文档中存在代码段,且代码中的注释为“#”,会导致智能分段失效。


尝试过使用正则表达式解决代码段问题,但又无法同时按照标题级别切分了。
解决方案及效果:
能完全自动识别代码片段,且无需改变缩进、注释。

1、问题描述:excel 中如果内嵌了图片 Qa问答对 分段的时候会出BUG 字符数为0
2、期待方案:自动识别图片到分段中 用于显示

1 个赞

再补充一个问题:一个Word类型的操作手册,怎么切分能保证模型能识别出正确的操作顺序?目前智能分段也不做overlap,怎么保证批量导入很多文件时操作步骤不乱?总不能靠人一个个去改吧,工作量也太大了。

2 个赞

PDF文件上传MaxKB后分段错乱问题如何解决

1 个赞

索引生成巨慢,等了好几个小时了,40多个才有几个成功

能否贴个例子,看看针对excel,word里是如何描述说明的

导入一份个人信息表,按行分段,完全命中不了。。。

1 个赞

导入大于1m的文档,预览转圈圈加载后,不显示,点击开始导入,显示提交成功,但是文件列表没看到新增文件

问题:通过Excel问答对上传问题,部分sheet中的问题无法关联
答案:一定要按照excel模版的列名称命名,不得调整列名称,系统是按照列名称核对的

使用word文档构建知识库,我尝试采用word中的样式1、样式2、正文进行格式化,无法智能分段。如果做,才能让系统自动识别分段?

能否给个具体实现的操作截图了,文字描述的话,很难理解。还有相关直播介绍需要通过什么方式关注呢?

知识库文章上传,如果需要分段有标题,除了excel还有其他格式的模版?

excel的分段长度有4k的限制。
Markdown 可以定义分段标题吗?是否有模版可以参考?

maxkb知识库当命中方式为直接回答时,只能返回一个分段内容,能返回所有符合条件的分段内容吗

通过网盘分享的文件:房源信息统计.zip
链接: 百度网盘 请输入提取码 提取码: jer8
可以使用这个zip压缩包的文件,word文件用来创建知识库,另外的mk文件可以通过导入方式创建简单应用

可以在提示词加入回答要求:

  • 请使用中文回答用户问题
  • 如果已知信息中包含图片,请按原图片格式输出

说的太对了,而且老是按设好的长度来切,很容易乱

问题描述:当二级标题中文数字编号超过10时,使用论坛的正则表达式无法分段[十一、十二、十三…]。
image

解决方案及效果
解决方案:改进正则表达式为如下
[零一二三四五六七八九十百千万][、][ \u4e00-\u9fa5a-zA-Z]+
正则表达式解释:

  1. [零一二三四五六七八九十百千万亿]+:匹配一个或多个中文数字字符(包括零、一、二、三、四、五、六、七、八、九、十、百、千、万、亿等)。
  2. :匹配顿号“、”。
    匹配示例:

匹配示例:

  • 一、第一章
  • 二、第二章
  • 三、第三章
  • 十、第十章
  • 十一、第十一章

最后再给出最近试用出比较常用的正则表达式,可适用于公司内部规章制度等结构清晰的文档等。

:point_right:([一二三四五六七八九十百]+、)(.*?)
:point_right:第(?:(?:一|二|三|四|五|六|七|八|九|十)+|\d+)章[ \u4e00-\u9fa5a-zA-Z]+
:point_right:第(?:(?:一|二|三|四|五|六|七|八|九|十)+|\d+)条

:tangerine:另外,可用”#“在原文档中的每个一级、二级、三级标题前做标记,一级标题则”#+空格“,二级标题前则”##+空格“。然后导入文档直接可用智能分段达到上述使用正则表达式的效果。

1 个赞


对于表的命中率堪虑,甚至可以答非所问 :pensive:

1 个赞

maxkb可以参考其他平台增加个分段重叠长度,保留分段之间的语义关系。现在的文档分段太拉胯了,导致找回命中率极低