Python爬虫逆向爬取拷贝漫画网页端漫画图片

作者：折跃完成发布时间：2024-09-28

拷贝漫画的漫画多，但有时候会崩，手机端没法直接在网站上看，对我这种在校内软件被管控，校园网依托石的的高中畜很不友好。把漫画爬下来看可以解决问题。

分析网站

我们要达成的目标就是能把一部或几部漫画所有章节的图片下载下来。

那首先就要分析漫画的章节信息。打开f12查看发包，但你会发现Sources界面被debugger断住，往下走还会跳转到空页面：

这种情况下根本没法调试。好在妨碍调试的逻辑很明确，都在loop函数里。我们右键文件，选择override代码，然后把loop里的代码删了：

这样就不会卡在这了。

接着我们需要找到获取数据的接口。

试了试后发现搜不出章节名，不过在Fetch/XHR里还是能很快找到接口：

这就很明显了，拷贝漫画的网站对数据进行了加密，导致我们搜不出数据。

这种情况下解决方法很多，不过我们先得判断加密的类型，一般这种数据的特别长的密文大概率是对称加密，其中很大可能是AES。

所以我们搜一下`decrypt`，看看能不能找到解密的位置：

嗯……乱七八糟一坨不想看。

那接下来再试试相对简单的方法：Json Hook。

由于前后端的数据传输基本都靠json，所以基本上前端都会有将json数据解码为对象的地方。如果传过来的加密数据解密后也是json格式，那也会有json解码的过程。

因此，如我们在进行json解码的时候下断点，就能定位到解码的位置。

在油猴里创建一个脚本，输入代码：

这段代码简单来说就是重写了一遍JSON.parse，在真正执行逻辑前加入一个断点。

然后刷新漫画页面，发现它断住了：

打印obj是返回的加密数据，看来是能断到。

再跳一次：

这次就直接把明文数据给断出来了。这下肯定能定位解密位置了。

我们顺着栈往上找一层：

根据数据我们可以知道数据解密肯定是在这一片。

这个文件的代码全部混淆过了，乱七八糟的，很难看。

不过通过`iv` `mode` `padding` 这三个关键词，我们也能知道这是标准的crypto-js库AES算法。

这段混淆过的代码按理应该用AST狠狠地解混淆，但AST的篇幅太长了，在这是写不完了（。

当然如果我们挨个执行`_0x4faf`函数也能把代码解混淆，这里直接贴代码了：

事实上没必要解，因为反正我们是复制粘贴使用（。

这里唯一的未知变量是`dio`(我不做人啦！)，但我们往代码上面找找就能得到dio是个定值`"xxxmanga.woo.key"`。

这样我们就能通过这段代码处理加密的数据了。

至于怎么处理解密后的数据？写Python的时候再说。

分析漫画页面时，我们很快就会遇到一个问题：Network里找不到获取图片url的api

找不到api可难顶，根本找不到切入口。

我当时使用DOM断点解的，不过现在看来没必要。我们继续用Json Hook：

可以看到直接hook住了所有图片的url列表。

我们还是沿着栈找：

它还是一大串解密的代码，刚刚解过，不分析了。

只是刚刚的解密代码，加密数据是api给的，那这的加密数据在哪？

我们可以搜，当然这里直接打开Elements界面，我们就能看到这一串玩意儿：

这就是拷贝漫画图片url的存放位置……

真是迷迷又惑惑啊，你们其他网站有这样的反爬吗？（瑞数怎么你了？）

不过这设计某种意义上挺令人欢喜的（，至少这段密文不是一段JS代码。

这样，如何爬取网站已经分析完了，可以写Python了。

爬取数据

（因为这代码是很久以前写的，所以可能有些变量名等与上面的分析不一样，看官见谅)

为了去处理那加密数据，我使用了execjs库，通过执行js代码来解密数据。

execjs库用`pip install pyexecjs`就可以安装，注意pycharm没法帮你安装。

我们把解析过了的代码稍微整理包装一下：

这里需要先安装`crypto-js`库。我使用的是node.js环境，用`npm install crypto-js`安装。

这段代码里`require`是旧的CommonJS写法，python里执行也是用的这个。

如果在nodejs环境下运行报错，把你目录下`package.json`文件里`"type": "module"`这一行删了就行了。

运行完之后可以得到解密的数据，格式大概长下面的样子。

章节信息：

图片信息：

下来思路就明确了：

通过漫画名请求漫画页面解密获取漫画章节列表
通过章节ID请求章节网页获取信息后解密获得图片列表
请求图片url下载

这里为了提高下载的速度，使用了协程。但我不打算展开说了，因为没啥时间了（。

直接上代码：

运行程序，可以看到很快便爬取了所有图片：

结尾

很早之前我就想写这篇，结果一直咕咕，拖到了今天（。

今天是放假，明天又要上学，正好晚上想起了今天是自己生日，觉得生日啥事不干也不合适吧，就赶了一篇。

写得很糙，Python代码都没有细展开，只能说没啥时间了，再拖就要到明天了。

说起来上一篇爬dmzj的文，我当时只是一时兴起，记录了一下自己的爬虫经历，没想到居然有人看了，而且还有人关注了我，真的，非常感谢。

近期资讯

阿K测评 2024-09-25

【Unity ARPG框架】ARPG Project 快速构建和迭代动作角色扮演游戏

ARPG Project 是一个专为 Unity 开发的角色扮演游戏（ARPG）框架，旨在为开发者提供一个全面的基础，以便快速构建和迭代他们的动作角色扮演游戏。该插件整合了多种功能和工具，使得游戏开发过程更加高效和灵活，适合各种风格的 ARPG 项目。主要功能角色控制：提供全面的角色控制系统，包括移动、跳跃、攻击、技能释放等，支持多种输入方式（如键盘、手柄）。战斗系统：内置动态战斗机制，包括近战和远程攻击，技能冷却、组合攻击、状态效果等，支持丰富的战斗风格和策略。技能系统：开发者可以轻松创建和管理各种技能

Unity游戏资源学习站 2024-09-25

日语翻译学习 day11

日语翻译学习day11 词语翻译方法：省略事实：日语中的省略（包括书面语和口语）远较汉语和英语常见。一、形式动词的省略情形一：名词+“加以”+动词，这时候直接翻译实义动词即可；如果“加以”本身作为实义动词，可以用「名詞を加える」替换（略显生硬） 1. 根据实际情况加以解决。翻訳：実際の状況に基づいて解決する。 2. 把整个过程加以总结。翻訳：全過程を総括する。 3. 选取典型经验加以推广。翻訳：典型的な経験を選び出して押し広める。 4. 这些问题要加以具体分析。翻訳：これらの問題は具

十六夜深井冰 2024-09-25

二、反应堆生产钚-239

二、反应堆生产钚-239 (1)反应堆辐照核反应堆既可作为科学研究装置，也可作为一种生产设备。有动力堆，有生产堆。核反应堆工作原理如图3.11所示。反应堆里裂变放出的中子，经过减速剂降低能量变成慢中子。这些慢中子，有的与铀-235发生裂变，释放大量能量和继续放出中子；有的则被铀-238俘获而生成超铀元素。镉是专门吸收中子的，控制棒插入深，被吸收的中子多，参加反应的中子就少，裂变功率降低；反之，裂变功率就提高。监测反应堆功率，适当调节控制棒的深浅，就可保证反应堆安全运行。 [图片] 图3.11核反

BBQXBBC 2024-09-25

15.29万元起，2025款瑞虎9和瑞虎9 C-DM正式上市！限时送1万元红包

9月25日，2025款瑞虎9和瑞虎9 C-DM同步上市。其中，2025款瑞虎9推出5种配置（5座/7座），指导价区间为15.29万-20.39万元，购车限时享1万元红包；瑞虎9 C-DM推出2种配置（5座/7座），指导价为16.59万-17.59万元，购车限时享6000元红包。据悉，2025款瑞虎9针对外观、配置等方面进行了升级，瑞虎9 C-DM混动版则搭载了奇瑞鲲鹏超能混动C-DM系统，拥有6种驾驶模式，配有1.5T发动机与电动总成，丰富了奇瑞在新能源领域的产品矩阵。 [图片] [图片] 设计方面，对

车图腾 2024-09-25

三、原子弹设计与实验技术

三、原子弹设计与实验技术原子弹与常规炸弹不同。常规炸弹的炸药没有临界质量问题，装多少都可以，可以先把炸药装好存放，用时只等引信触发即可爆炸。原子弹的核炸药（核燃料）有个临界质量问题。到了临界质量，由于核装料中自发裂变产生的中子，或其他偶然外来的中子，会引起链式裂变反应而造成核事故。因此，组装原子弹在未投入使用前，弹中组装好的裂变燃料必须处于次临界状态，即不能达到临界质量，应该比临界质量少很多，以确保贮存和运输的安全。而在使用时，为了获得一定的威力，又要求弹中的裂变燃料迅速地转变到超临界状态，使裂变链式

BBQXBBC 2024-09-25

RFID仓储管理解析方案

在公司运营管理中，仓库作为连接生产与销售的重要枢纽，其运作效率直接关系到整个供应链的顺畅与成本的控制。接下来我给大家介绍一下利用RFID的方式来对仓储进行管理的具体过程：一．前期的准备1.设备选型与部署选择适合仓储环境的 RFID 标签、阅读器和天线。标签类型应根据货物的特性和存储要求来确定，如抗金属标签用于金属货物，耐高温标签用于特殊环境。合理部署阅读器和天线，确保信号覆盖整个仓库区域，特别是货架、通道和出入口等关键位置。2.系统集成将 RFID 系统与现有的仓储管理系统（WMS）进行集成，实现

条码刘帮主 2024-09-25

win11的AMD R9 7945HX电源管理个人理解

[图片] 名词说明处理器核心放置指在一个物理处理器芯片上如何安排多个‌逻辑核心。‌每个物理核心通常包含独立的‌缓存和‌执行单元，而逻辑核心则是通过‌超线程技术在一个物理核心上模拟多个逻辑核心，从而提高处理器的多任务处理能力。核心放置对性能的影响核心放置不仅影响处理器的性能，还涉及到电源管理和热管理。例如，未被调用的CPU核心会被闲置以节省电力，但在高负载任务时可能会导致性能下降。通过调整电源管理设置，可以优化CPU的核心使用，避免“一核有难，多核围观”的现象，确保在高负载任务时所有核心都能充分发挥

瞬秒爆加速 2024-09-25

Python爬虫逆向爬取拷贝漫画网页端漫画图片

分析网站

爬取数据

推荐体验

相关资讯

stable diffusion真人照片转动漫风格，免费将人物照片转卡通漫画图片

3种方法实现真人照片转动漫风格，免费将人物照片转卡通漫画图片

ai绘画图片漫画怎么做

全栈实操第一步：使用爬虫爬取网页信息

如何用Ai绘画生成好看的漫画图，小白教程一看就会！

近期资讯

【Unity高级天气系统插件】Altos - Volumetric Clouds, Skybox, and Weather

高中地理：27个逢考必考效应，提前掌握悄悄逆袭！

小鹏X9新品上市，暨爸爸再出发首映式

【Unity ARPG框架】ARPG Project 快速构建和迭代动作角色扮演游戏

日语翻译学习 day11

二、反应堆生产钚-239

15.29万元起，2025款瑞虎9和瑞虎9 C-DM正式上市！限时送1万元红包

三、原子弹设计与实验技术

RFID仓储管理解析方案

win11的AMD R9 7945HX电源管理个人理解

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

Python爬虫逆向 爬取拷贝漫画网页端漫画图片

分析网站

爬取数据

Python爬虫逆向爬取拷贝漫画网页端漫画图片