关于文本分段与chunk召回的建议

1、现在导入文本可以按照字数分段,这是一种常用的分段方式,但是很容易截断一些语句,建议在分段时,让用户设置重叠率,比如设置500字为一段,重叠率10%,那么1~500字为第一段,450~950字为第二段,900~1400字为第三段,以此类推。。。这样可以更好的保证意思的连贯性。
2、在召回时,建议可以设置同时召回命中分段的前后段,比如命中了一个文档的chunk10,那么召回的时候同时返回chunk9和chunk11,拼在一起召回,可以使得答案更加完整和全面。

可以在GitHub上提哈,GitHub · Where software is built

1 个赞