‼️知识库准备以及分段技巧问题及需求搜集

通过网盘分享的文件:房源信息统计.zip
链接: 百度网盘 请输入提取码 提取码: jer8
可以使用这个zip压缩包的文件,word文件用来创建知识库,另外的mk文件可以通过导入方式创建简单应用

可以在提示词加入回答要求:

  • 请使用中文回答用户问题
  • 如果已知信息中包含图片,请按原图片格式输出

说的太对了,而且老是按设好的长度来切,很容易乱

问题描述:当二级标题中文数字编号超过10时,使用论坛的正则表达式无法分段[十一、十二、十三…]。
image

解决方案及效果
解决方案:改进正则表达式为如下
[零一二三四五六七八九十百千万][、][ \u4e00-\u9fa5a-zA-Z]+
正则表达式解释:

  1. [零一二三四五六七八九十百千万亿]+:匹配一个或多个中文数字字符(包括零、一、二、三、四、五、六、七、八、九、十、百、千、万、亿等)。
  2. :匹配顿号“、”。
    匹配示例:

匹配示例:

  • 一、第一章
  • 二、第二章
  • 三、第三章
  • 十、第十章
  • 十一、第十一章

最后再给出最近试用出比较常用的正则表达式,可适用于公司内部规章制度等结构清晰的文档等。

:point_right:([一二三四五六七八九十百]+、)(.*?)
:point_right:第(?:(?:一|二|三|四|五|六|七|八|九|十)+|\d+)章[ \u4e00-\u9fa5a-zA-Z]+
:point_right:第(?:(?:一|二|三|四|五|六|七|八|九|十)+|\d+)条

:tangerine:另外,可用”#“在原文档中的每个一级、二级、三级标题前做标记,一级标题则”#+空格“,二级标题前则”##+空格“。然后导入文档直接可用智能分段达到上述使用正则表达式的效果。

1 个赞


对于表的命中率堪虑,甚至可以答非所问 :pensive:

1 个赞