可以在提示词加入回答要求:
- 请使用中文回答用户问题
- 如果已知信息中包含图片,请按原图片格式输出
说的太对了,而且老是按设好的长度来切,很容易乱
问题描述:当二级标题中文数字编号超过10时,使用论坛的正则表达式无法分段[十一、十二、十三…]。
解决方案及效果:
解决方案:改进正则表达式为如下
[零一二三四五六七八九十百千万][、][ \u4e00-\u9fa5a-zA-Z]+
正则表达式解释:
-
[零一二三四五六七八九十百千万亿]+
:匹配一个或多个中文数字字符(包括零、一、二、三、四、五、六、七、八、九、十、百、千、万、亿等)。 -
、
:匹配顿号“、”。
匹配示例:
匹配示例:
- 一、第一章
- 二、第二章
- 三、第三章
- …
- 十、第十章
- 十一、第十一章
- …
最后再给出最近试用出比较常用的正则表达式,可适用于公司内部规章制度等结构清晰的文档等。
([一二三四五六七八九十百]+、)(.*?)
第(?:(?:一|二|三|四|五|六|七|八|九|十)+|\d+)章[ \u4e00-\u9fa5a-zA-Z]+
第(?:(?:一|二|三|四|五|六|七|八|九|十)+|\d+)条
另外,可用”#“在原文档中的每个一级、二级、三级标题前做标记,一级标题则”#+空格“,二级标题前则”##+空格“。然后导入文档直接可用智能分段达到上述使用正则表达式的效果。
1 个赞