是OpenDataLab
开源的一款文本提取工具,支持将PDF文件转换为易读的Markdown格式,支持:
识别时自动删除页眉、页脚、页码等无关元素。
智能处理双栏论文。
保留文档原始结构(暂不支持多级标题识别,都输出为标题1)。
提取文档中的图像、表格。
自动识别公式,转换为Latex格式。
支持OCR提取图片PDF。
工具全程在终端运行,指令简单,非开发者也能使用。
MinerU
目前更新到了0.8.0版本,本地部署已经简化很多,且大部分步骤都有国内源加速。
MinerU
整合了大量包,还要下载模型文件,实际并不轻量。如果网络较慢或使用机械硬盘,建议预留较多时间安装。
工作室主页:
MinerU项目地址:https://github.com/opendatalab/MinerU
MinerU官方文档:https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md
MinerU推荐使用Python 3.10。为了避免冲突,建议参照官方文档,使用Anaconda或者Miniconda在虚拟环境中进行部署。
打开清华大学开源软件镜像站:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D
下载最新版本的exe文件,打开进行安装。安装完成后打开cmd终端,依次输入:
能够返回结果,说明安装成功。
如果无法返回结果,一般是由于未配置环境变量,需要手工添加path路径。
在我的电脑(此电脑)空白处右键选择“属性-高级系统设置-高级-环境变量”,检查用户变量和系统变量的path中是否已添加了Anaconda的安装路径。
如Anaconda的安装位置为`E:\anaconda3`,在用户变量或系统变量中添加以下路径,并移动到顶端:
E:\anaconda3
E:\anaconda3\Library\mingw-w64\bin
E:\anaconda3\Library\usr\bin
E:\anaconda3\Library\bin
E:\anaconda3\Scripts
如果输入python打开了微软商店,控制面板
,选择应用-应用和功能-应用执行别名
,关闭里面的python.exe
和python3.exe
cmd
终端,创建专用的虚拟环境,输入:
安装magic-pdf
ModelScope
进行下载。继续在cmd
终端下输入:
magic-pdf.json
。
运行完成后,终端会输出模型文件所在的位置,可以先截图保存。如果对默认的文件位置不满意,可以移动后,再手工修改magic-pdf.json
如果提示“'wget' 不是内部或外部命令,也不是可运行的程序或批处理文件。”,可手动下载安装脚本。
在网页浏览器中打开“https://gitee.com/myhloli/MinerU/raw/master/docs/download_models.py”,保存文件名为“download_models.py”,放到当前cmd
启用。
文档地址:https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md#使用gpu
magic-pdf
提取pdf内容继续在cmd
终端输入(重启终端需先进入虚拟环境):
文档目录可以指定到单个PDF,也可以指定到文件夹(提取文件夹内所有PDF)。win11
用户可以直接右键文件,复制文件地址,粘贴到终端。
如果提示缺少module,通过`pip install`指令安装相应的`module`即可。
如果提示“json.decoder.JSONDecodeError: Extra data: line 24 column 1 (char 570)”,我这里是'magic-pdf.json'出了问题,对照
样例文件地址:https://github.com/opendatalab/MinerU/blob/master/magic-pdf.template.json
打开输出目录,可以看到输出了多个文件。提取的图表在`images`文件夹内。
一般用户关注"xx_layout.pdf"和"xx.md"两个文件即可,将两个文件并排排列(win+←/→),对照识别框进行校对。
可以看到MinerU
大白是什么白 2023-07-02