本人想做一个输入读取图片或者PDF的高级编排，请问使用什么模型合适，ocr识别模型用哪个？

回眸一笑 · 2025 年3 月 23 日 01:18

ocr模型是不是是视觉模型呢，初学，请多指导，

玉树 · 2025 年3 月 23 日 13:10

视觉模型主要是用来识别图片的，识别不了文件，关于图片理解节点，可以参考官方文档。

user-lzurb6owt7m · 2025 年5 月 13 日 11:13

图片里的文字，通过聊天窗口的上传图片，就可以让视觉模型识别；文档里的图片，暂时还不知道。如果知道调用图片理解的{{开始.image}}具体是什么，应该可以通过自定义函数先解析文档，取得图片后给图片理解的大模型识别。