‼️知识库准备以及分段技巧问题及需求搜集

1、问题描述:上传的知识库文档是有图片的,希望在问答过程中把图片也显示出来
2、期待解决方案:希望文档过程中有图片的时候也能展示出图片

1 个赞

智能分段功能基本就是摆设,直接整个文档分了一大段。高级分段功能有个分隔符分段,这个比较好,但只能用#-空格这种奇怪的字符串,实际word文档中一般会采用回车换行这种进行分段,建议加上这些。另外还有一个致命问题就是分段长度。一旦设置了分段长度,哪怕我设置了#作为分隔符,分隔出来的段落还是会因为太长而被切断!建议要么用分隔符对文章进行分隔,要么用固定长度进行分隔,不要两个参数混在一起用。否则我怎么都无法分隔成适合的段落。

5 个赞

可以了解下高级分段正则表达式用法。

能否贴个例子,看看word里如何描述说明的。

问题描述:
导入markdown文档,若文档中存在代码段,且代码中的注释为“#”,会导致智能分段失效。


尝试过使用正则表达式解决代码段问题,但又无法同时按照标题级别切分了。
解决方案及效果:
能完全自动识别代码片段,且无需改变缩进、注释。

1、问题描述:excel 中如果内嵌了图片 Qa问答对 分段的时候会出BUG 字符数为0
2、期待方案:自动识别图片到分段中 用于显示

1 个赞

再补充一个问题:一个Word类型的操作手册,怎么切分能保证模型能识别出正确的操作顺序?目前智能分段也不做overlap,怎么保证批量导入很多文件时操作步骤不乱?总不能靠人一个个去改吧,工作量也太大了。

2 个赞

PDF文件上传MaxKB后分段错乱问题如何解决

1 个赞

索引生成巨慢,等了好几个小时了,40多个才有几个成功

能否贴个例子,看看针对excel,word里是如何描述说明的

导入一份个人信息表,按行分段,完全命中不了。。。

1 个赞

导入大于1m的文档,预览转圈圈加载后,不显示,点击开始导入,显示提交成功,但是文件列表没看到新增文件

问题:通过Excel问答对上传问题,部分sheet中的问题无法关联
答案:一定要按照excel模版的列名称命名,不得调整列名称,系统是按照列名称核对的

使用word文档构建知识库,我尝试采用word中的样式1、样式2、正文进行格式化,无法智能分段。如果做,才能让系统自动识别分段?

能否给个具体实现的操作截图了,文字描述的话,很难理解。还有相关直播介绍需要通过什么方式关注呢?

知识库文章上传,如果需要分段有标题,除了excel还有其他格式的模版?

excel的分段长度有4k的限制。
Markdown 可以定义分段标题吗?是否有模版可以参考?

maxkb知识库当命中方式为直接回答时,只能返回一个分段内容,能返回所有符合条件的分段内容吗

通过网盘分享的文件:房源信息统计.zip
链接: 百度网盘 请输入提取码 提取码: jer8
可以使用这个zip压缩包的文件,word文件用来创建知识库,另外的mk文件可以通过导入方式创建简单应用

可以在提示词加入回答要求:

  • 请使用中文回答用户问题
  • 如果已知信息中包含图片,请按原图片格式输出