环境:内网离线安装
操作系统:ubutun20.04
docker版本:20.10.21
操作:知识库上传 .docx文件
报错日志:gunicorn.log
[05/Mar/2025:16:15:29 +0800] 0.001859s “GET /ui/assets/user-icon-c413d294.svg HTTP/1.1” 304 0
Traceback(most recent call last):
File “/opt/maxkb/app/apps/common/handle/impl/doc_split_handle.py”, line 202, in get_content
doc = Document(io.BytesIo(buffer))
File “/opt/py3/lib/python3.11/site-packages/docx/api.py”,line 27,in Document
document_part = cast(“DocumentPart”, Package.open(docx).main_document_part)
File “/opt/py3/lib/python3.11/site-packages/docx/opc/package.py”, line 127, in open
pkg_reader = PackageReader.from file(pkg file)
File “/opt/py3/lib/python3.11/site-packages/docx/opc/pkgreader.py”, line 22, in from_file
phys_reader = physpkgReader(pkg file)
File “/opt/py3/lib/python3.11/site-packages/docx/opc/phys_pkg.py”,line 76,in__init__
self._zipf = zipFile(pkg_file, “r”)
File “/usr/local/lib/python3.11/zipfile.py”,line 1313,in__init__
self. RealGetcontents()
File “user/local/lib/python3.11/zipfile.py”,line 1380,in_RealGetContents
raise BadzipFile(“File is not a zip file”)
zipFile.BadzipFile: File is not a zip file
论坛有个帖子,看了,但好像不是这个问题。
opened 06:49AM - 15 Jul 24 UTC
closed 07:13AM - 16 Jul 24 UTC
bug
**问题描述 / Problem Description**
知识库管理中,添加文件到知识库,md格式文件正常处理, 然而docx、txt和pdf格式文件,点… 击“添加文件到知识库”时候报错。
**复现问题的步骤 / Steps to Reproduce**
1. 点击按钮:知识库管理
2. 点击 '...' / Click '...'
3. 滚动到 '...' / Scroll to '...'
4. 问题出现 / Problem occurs
**预期的结果 / Expected Result**

**实际结果 / Actual Result**



**环境信息 / Environment Information**
依赖版本号:
unstructured==0.11.0
- 是否使用 Docker 部署(是/否):否
- 使用的模型(ChatGLM2-6B / Qwen-7B 等):glm-4
- 使用的 Embedding 模型(moka-ai/m3e-base 等):embedding-2
- 使用的向量库类型 (faiss / milvus / pg_vector 等): faiss
- 操作系统及版本 / Operating system and version: ubuntu
- Python 版本 / Python version: 3.10
- 其他相关环境信息 / Other relevant environment information: Linux localhost.localdomain 3.10.0-1160.105.1.el7.x86_64 #1 SMP Thu Dec 7 15:39:45 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux
**附加信息 / Additional Information**
添加与问题相关的任何其他信息 / Add any other information related to the issue.
现在问题有三个:
第一、后台日志都是干啥的?celery_default.log gunicorn.log local_model.log drf_exception.log unexpected_exception.log max_kb.log这些日志有没有官方解释,都是干啥的?
第二、进入容器后,目录结构除了/opt之外,还有别的吗?
第三、还有没有其他日志,记录后台处理过程的?我看上述日志描述,好像都是python干的活,python的日志在哪里?
恳求各位大神,
celery:本地模型相关日志
gunicorn\drf:都是框架层面组件的日志
maxkb_log:页面操作相关的日志
unexpected_exception:异常日志
1、主要看maxkb.log和unexpected_exception.log
2、容器内部是完整的Linux系统,各个目录都有。
4、参考1。