MinerU／Magic PDF本地部署记录

作者：拉哩啦哩发布时间：2024-10-20

MinerU是OpenDataLab开源的一款文本提取工具，支持将PDF文件转换为易读的Markdown格式，支持：

识别时自动删除页眉、页脚、页码等无关元素。
智能处理双栏论文。
保留文档原始结构（暂不支持多级标题识别，都输出为标题1）。
提取文档中的图像、表格。
自动识别公式，转换为Latex格式。
支持OCR提取图片PDF。

工具全程在终端运行，指令简单，非开发者也能使用。

MinerU目前更新到了0.8.0版本，本地部署已经简化很多，且大部分步骤都有国内源加速。

MinerU整合了大量包，还要下载模型文件，实际并不轻量。如果网络较慢或使用机械硬盘，建议预留较多时间安装。

工作室主页：https://opendatalab.com/OpenSourceTools?tool=extract&navbarIsFixed=1

MinerU项目地址：https://github.com/opendatalab/MinerU

MinerU官方文档：https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md

安装过程

MinerU推荐使用Python 3.10。为了避免冲突，建议参照官方文档，使用Anaconda或者Miniconda在虚拟环境中进行部署。

1. 安装Anaconda

打开清华大学开源软件镜像站：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D

下载最新版本的exe文件，打开进行安装。安装完成后打开cmd终端，依次输入：

能够返回结果，说明安装成功。

如果无法返回结果，一般是由于未配置环境变量，需要手工添加path路径。

在我的电脑（此电脑）空白处右键选择“属性-高级系统设置-高级-环境变量”，检查用户变量和系统变量的path中是否已添加了Anaconda的安装路径。

如Anaconda的安装位置为`E:\anaconda3`，在用户变量或系统变量中添加以下路径，并移动到顶端：

E:\anaconda3

E:\anaconda3\Library\mingw-w64\bin

E:\anaconda3\Library\usr\bin

E:\anaconda3\Library\bin

E:\anaconda3\Scripts

如果输入python打开了微软商店，则打开控制面板，选择应用-应用和功能-应用执行别名，关闭里面的python.exe和python3.exe。

2. 安装MinerU／magic-pdf

打开cmd终端，创建专用的虚拟环境，输入：

如果后面重新打开了终端，可使用后两句指令，重新进入虚拟环境。

安装magic-pdf，依赖包较多，界面可能会卡一段时间：

3. 下载模型文件

通过ModelScope进行下载。继续在cmd终端下输入：

python脚本会自动下载模型文件并配置好配置文件中的模型目录，配置文件可以在用户目录（ "C:\Users\用户名"）中找到，文件名为magic-pdf.json。

运行完成后，终端会输出模型文件所在的位置,可以先截图保存。如果对默认的文件位置不满意，可以移动后，再手工修改magic-pdf.json。

如果提示“'wget' 不是内部或外部命令，也不是可运行的程序或批处理文件。”，可手动下载安装脚本。

在网页浏览器中打开“https://gitee.com/myhloli/MinerU/raw/master/docs/download_models.py”，保存文件名为“download_models.py”，放到当前cmd终端显示的目录位置，然后执行下一条指令。

4. 使用CUDA进行加速

如果使用N卡，且显存大于8G（OCR加速需大于16G），可参考官方文档启用。

文档地址：https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md#使用gpu

5. 使用`magic-pdf`提取pdf内容

继续在cmd终端输入（重启终端需先进入虚拟环境）：

文档目录可以指定到单个PDF，也可以指定到文件夹（提取文件夹内所有PDF）。win11用户可以直接右键文件，复制文件地址，粘贴到终端。

程序有个缺点是在运行过程中不会输出结果，要等到单个文件提取完成后，才能在输出目录看到。

如果PDF文件较大/页数较多，可能无法输出结果。可以先对PDF文件进行分割成多个文件，然后对文件夹进行提取。分段提取也比较方便后面的校对。

如果提示缺少module，通过`pip install`指令安装相应的`module`即可。

如果提示“json.decoder.JSONDecodeError: Extra data: line 24 column 1 (char 570)”，我这里是'magic-pdf.json'出了问题，对照样例文件，重新创建后可正常运行。

样例文件地址：https://github.com/opendatalab/MinerU/blob/master/magic-pdf.template.json

6. 输出结果

打开输出目录，可以看到输出了多个文件。提取的图表在`images`文件夹内。

一般用户关注"xx_layout.pdf"和"xx.md"两个文件即可，将两个文件并排排列（win+←/→），对照识别框进行校对。

可以看到MinerU已经自动去除了PDF文件中的页眉、页码、脚注，相比传统的OCR软件，方便很多。

相关资讯

图文大模型LLava本地部署记录

作为GPT-4的强势替代，记录LLava（仅用作inference）本地部署方法。代码：https://github.com/haotian-liu/LLaVA.git实验环境os：ubuntu cpu：i9-10940Xgpu：2*3090python：3.10 torch：2.0.1依赖&环境（和github上一致）git clone https://github.com/haotian-liu/LLaVA.gitcd LLaVA安装依赖conda create -n llava python=3.1

GPT-4 GitHub 编程

一汁手套 2023-10-11

【SD】 stable diffusion本地部署教学（自用记录）

stable-diffusion-webui在github网址 https://github.com/AUTOMATIC1111/stable-diffusion-webui这是win安装步骤python网址 https://www.python.org/downloads/release/python-3106/ git网址 https://git-scm.com/download/winwin+r输入cmd，在里面分别输入git和python检查是否安装成功了在大点的磁盘中建一个无中文路径的文件夹点击

Stable Diffusion Stable Diffusion WebUI GitHub

大白是什么白 2023-07-02

在Stable Diffusion本地部署中遇到的问题记录

学艺不精，菜鸟一个，多是些菜鸟问题，记录一下以备以后忘了。1、安装Git环境 https://git-scm.com/download/win 下载64-bit Git for Windows Setup安装2、Git Bsah stable-diffusion-webui包 $ git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui3、安装报错Pytorch：报错：Could not find a version that s

Stable Diffusion Stable Diffusion WebUI

貓妖 2023-02-14

Linux从零部署本地AI大模型对接本地知识库全记录

linux系统，基于docker，使用fastgpt oneapi ollama搭建本地大模型，并且对接本地的知识库

AI大模型

_Genway 2024-05-10

Anaconda本地部署stable-diffusion-webui个人遇到的问题记录

之前用Anaconda搞过其他东西懒得删除，但是也因此遇到了一些问题，特此记录一下。1.git（https://github.com/AUTOMATIC1111/stable-diffusion-webui）克隆到本地之后，按照大多数教程需要运行webui-user.bat文件。但是Anaconda现在最新版只支持到python3.9，与建议3.10.6版本不同，不知道相关依赖是否有冲突，同时也不喜欢Anaconda的base环境有太多东西。conda create -n webui python==3.

Stable Diffusion GitHub Stable Diffusion WebUI

程怨 2023-03-13

近期资讯

沃博联将关闭1200家门店，进行重大调整

沃博联将关闭1200家门店，进行重大调整36氪2024-10-16 07:10发布于新疆36氪官方账号知名连锁药店沃博联宣布了一项重大重组计划，其中包括在未来三年内关闭美国境内1，200家门店。这

36氪 2024-10-16

腾讯企鹅影视备案新作：动画电影《斗罗大陆之神界传说》

腾讯企鹅影视备案新作：动画电影《斗罗大陆之神界传说》快科技2024-10-16 07:27发布于河南据灯塔专业版备案信息库显示，动画电影《斗罗大陆之神界传说》已正式立项，由上海腾讯企鹅影视文化传播

快科技 2024-10-16

国泰君安：化药集采预期稳定，中成药集采或迎加速扩面

国泰君安：化药集采预期稳定，中成药集采或迎加速扩面36氪2024-10-16 07:50发布于新疆36氪官方账号36氪获悉，国泰君安研报表示，第十批化药国采预计于第四季度启动和发布相关细则、202

36氪 2024-10-16

深圳商报 2024-10-16

从战略意见来讲，红海地区对阿拉伯很多国家有什么重要意义？

CCTV兵器科技频道 2024-10-16

生理现象之最

生理现象之最大科技杂志社2024-10-16 07:00发布于海南大科技杂志社官方账号　　打哈欠、打嗝、打呼噜，这些都是常见的生理现象，但罕见的是有人持续打了几年喷嚏、几十年嗝，或是哈欠不断，还有

大科技杂志社 2024-10-16

MP5冲锋枪使用鲁格弹药配备可伸缩的枪托拥有两种射击模式

武器科技 2024-10-15

vivo Pad 3平板降价200元：骁龙8s Gen3处理器、12.1英寸大屏，2299元起

在10月14日的vivoX200系列手机发布会上，vivoPad3平板电脑宣布降价200元。屏幕方面，它配备了一块12.1英寸的2800*1968分辨率144Hz高刷屏，并且亮度最高可达600尼特。此外，在此次发布会上还推出了无门槛红包活动，最高可获得11111元奖金！

中关村在线 2024-10-15

MinerU／Magic PDF本地部署记录

安装过程

1. 安装Anaconda

2. 安装MinerU／magic-pdf

3. 下载模型文件

4. 使用CUDA进行加速

5. 使用`magic-pdf`提取pdf内容

6. 输出结果

推荐体验

相关资讯

图文大模型LLava本地部署记录

【SD】 stable diffusion本地部署教学（自用记录）

在Stable Diffusion本地部署中遇到的问题记录

Linux从零部署本地AI大模型对接本地知识库全记录

Anaconda本地部署stable-diffusion-webui个人遇到的问题记录

近期资讯

沃博联将关闭1200家门店，进行重大调整

腾讯企鹅影视备案新作：动画电影《斗罗大陆之神界传说》

国泰君安：化药集采预期稳定，中成药集采或迎加速扩面

真我GT6，5.5G超高速网络，带给不一样的用机体验！

下好人工智能这盘棋海珠如何落子？

顶流深企齐聚百款产品亮相

从战略意见来讲，红海地区对阿拉伯很多国家有什么重要意义？

生理现象之最

MP5冲锋枪使用鲁格弹药配备可伸缩的枪托拥有两种射击模式

vivo Pad 3平板降价200元：骁龙8s Gen3处理器、12.1英寸大屏，2299元起

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

MinerU／Magic PDF本地部署记录

安装过程

1. 安装Anaconda

2. 安装MinerU／magic-pdf

3. 下载模型文件

4. 使用CUDA进行加速

5. 使用magic-pdf提取pdf内容

6. 输出结果

5. 使用`magic-pdf`提取pdf内容