Dify应用MinerU处理pdf等文档(Docker本地化部署MinerU详细步骤见第4节)
目录
1 事由
2 Dify使用MinerU API
3 环境配置
4 MinerU本地化Doker部署
5 Dify使用本地部署的MinerU
6 换行符LF与 CRLF 格式
1 事由
Dify的Pdf文档处理器功能偏弱,需要解决Dify下处理Pdf文件识别问题,Dify插件市场亦有MinerU插件使用。
首先,MinerU插件和Ollama、LM Studio等不同,它不是本地化部署的模型类插件,而是工具类插件,插件市场的注释如下:
MinerU
0.2.0
MinerU是一款可以在本地部署的将FILES转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。https://github.com/opendatalab/MinerU
PS:官网的WebAPI本地化部署readme写的太简单了(MinerU/projects/web_api/README.md at master · opendatalab/MinerU · GitHub)
2 Dify使用MinerU API
先试着MinerU插件API功能,需要去MinerUMineru 智能数据提取https://mineru.net/apiManage/token官网申请API Key,这里填好信息后需要有一个审核过程,大概半天时间。插件设置授权如下:
这里设置需要查看Dify的插件官网文档,MinerU的官网文档好像没有提到
MinerU服务的Base URL*填https://mineru.net
令牌就是在MinerU官网上申请通过后创建API Token获得Key(要保存下来,一旦创建成功后就看不到Key信息,否则只有重新创建)
服务类型选MinerU的官方API
之后点保存就成功对插件进行了授权。
3 环境配置
Dify流程中使用MinerU还需要进行环境配置(FILES_URL):
为保证 MinerU 插件能够正常处理文件上传,需要在 Dify 中配置
FILES_URL
设置:
找到您的 Dify 部署目录并编辑
.env
文件。根据您的部署方法修改
FILES_URL
配置:
- Docker Compose 部署:将
FILES_URL
设置为http://api:5001
- 其他部署方法:将
FILES_URL
设置为http://DIFY_HOST_IP:500