怎样融合deekseekocr或者paddleocr,提高构建知识库的准确性和文件的多元化

怎样结合deekseekocr或者paddleocr,提高构建知识库的准确性

可以参考 MinerU 的方案,在函数中调用 ocr 获取返回,再调用 API 导入知识库。

你可以看看maxkb的源码,我的想法是修改他源码的处理逻辑,不用他的pdf解析能力,可以调用其他的ocr模型