如何批量的把问题关联到数据库中所有的文件的相同的段落名称

在导入pdf格式的专利文件时,会出现类似“BIB”的段落名称。想把问题关联到所有文件的“BIB”段落,一个一个点击太过繁琐,而且容易出错,有没有什么自动化的方式来实现?

pdf可以先转成word后再上传,关于批量上传,可以通过循环去实现

文件太多了,转word工作量比较大,而且可能出现一些格式错误之类的小问题,有没有其他办法?

写脚本,调用接口去转化,然后再导入,对于pdf 很多都是图片,所以分段效果有限,建议还是先转word或者markdown