为解决诸多用户基于 MaxKB 进行知识库准备及文档分段过程中遇到的各种问题,我们拟通过该贴收集大家遇到的问题以及需要反馈的需求,后续会有相关直播介绍注意事项及分段技巧。还请各位小伙伴们帮忙反馈,有5个以上高质量有效问题的我们会赠送官方鼠标垫一个。问题反馈模版如下:
1、问题描述:请详细的描述针对什么文档类型,文档时如何准备的,结果是什么,问题在哪里,可以附上截图;
2、已经尝试的解决方案及效果:如有则描述自己尝试过哪些方案,效果如何,是否完全解决,可以附上效果图。
3、期待的解决方案或者效果:详细描述你期待的解决方案或者效果。
问题描述:
Excel文档倒入后回答效果不好。其中Excel表头数据为项目(必填) 楼栋(必填) 楼层(必填) 房号(必填) 建筑面积(㎡)(必填) 计租面积(㎡)(选填) 状态 实时单价 甲方 租客名称 租期起 租期止 详细描述 房源备注等信息。
解决方案及效果:
已尝试的解决方案:
前后分别进行了如下多种测试,但是效果都不好:
- 把Excel文件转换成txt,上传,分段(高级分段,智能分段),关联应用,模拟用户问答测试----效果不好。
- 把表头处理到每个单元格里,比如 “建筑面积 90 ”,上传,分段(高级分段,智能分段),关联应用,模拟用户问答测试----效果不好。
- 修改提示词,模拟廉租房和公租房用户进行问答----效果不好。
- 直接在大模型里上传文件,模拟廉租房和公租房用户进行问答----效果不好。
- 其它多种尝试,验证下来效果都不好。
最终效果比较好的解决方案:
把该Excel放到word里,并添加陈述说明,让模型理解表格,并针对表格里的字段进行描述说明,同时陈述业务逻辑,然后上传进行测试,效果立竿见影。
1、问题描述:上传的知识库文档是有图片的,希望在问答过程中把图片也显示出来
2、期待解决方案:希望文档过程中有图片的时候也能展示出图片
智能分段功能基本就是摆设,直接整个文档分了一大段。高级分段功能有个分隔符分段,这个比较好,但只能用#-空格这种奇怪的字符串,实际word文档中一般会采用回车换行这种进行分段,建议加上这些。另外还有一个致命问题就是分段长度。一旦设置了分段长度,哪怕我设置了#作为分隔符,分隔出来的段落还是会因为太长而被切断!建议要么用分隔符对文章进行分隔,要么用固定长度进行分隔,不要两个参数混在一起用。否则我怎么都无法分隔成适合的段落。
可以了解下高级分段正则表达式用法。
能否贴个例子,看看word里如何描述说明的。
问题描述:
导入markdown文档,若文档中存在代码段,且代码中的注释为“#”,会导致智能分段失效。
尝试过使用正则表达式解决代码段问题,但又无法同时按照标题级别切分了。
解决方案及效果:
能完全自动识别代码片段,且无需改变缩进、注释。
1、问题描述:excel 中如果内嵌了图片 Qa问答对 分段的时候会出BUG 字符数为0
2、期待方案:自动识别图片到分段中 用于显示
再补充一个问题:一个Word类型的操作手册,怎么切分能保证模型能识别出正确的操作顺序?目前智能分段也不做overlap,怎么保证批量导入很多文件时操作步骤不乱?总不能靠人一个个去改吧,工作量也太大了。
PDF文件上传MaxKB后分段错乱问题如何解决
能否贴个例子,看看针对excel,word里是如何描述说明的
导入一份个人信息表,按行分段,完全命中不了。。。
导入大于1m的文档,预览转圈圈加载后,不显示,点击开始导入,显示提交成功,但是文件列表没看到新增文件
问题:通过Excel问答对上传问题,部分sheet中的问题无法关联
答案:一定要按照excel模版的列名称命名,不得调整列名称,系统是按照列名称核对的
使用word文档构建知识库,我尝试采用word中的样式1、样式2、正文进行格式化,无法智能分段。如果做,才能让系统自动识别分段?
能否给个具体实现的操作截图了,文字描述的话,很难理解。还有相关直播介绍需要通过什么方式关注呢?
知识库文章上传,如果需要分段有标题,除了excel还有其他格式的模版?
excel的分段长度有4k的限制。
Markdown 可以定义分段标题吗?是否有模版可以参考?
maxkb知识库当命中方式为直接回答时,只能返回一个分段内容,能返回所有符合条件的分段内容吗
?