当前位置：首页|资讯

如何用 Scrapy 爬取网站数据并在 Easysearch 中进行存储检索分析

作者：INFINI-Labs发布时间：2024-09-12

做过数据分析和爬虫程序的小伙伴想必对 Scrapy 这个爬虫框架已经很熟悉了。今天给大家介绍下，如何基于 Scrapy 快速编写一个爬虫程序并利用 Easysearch 储存、检索、分析爬取的数据。我们以极限科技的官网 Blog 为数据源，做下实操演示。

安装 scrapy

使用 Scrapy 可以快速构建一个爬虫项目，从目标网站中获取所需的数据，并进行后续的处理和分析。

爬虫编写

编写一个爬虫文件 blog.py ，它会首先访问 start_urls 指定的地址，将结果发给 parse 函数解析。通过这一步解析，我们得到了每一篇博客的地址。然后我们对每个博客的地址发送请求，将结果发给 parse_blog 函数进行解析，在这里才会真正提取每篇博客的 title、tag、url、date、content 内容。

提取完我们想要的内容后，接下来就要考虑存储了。考虑到要对内容进行检索、分析，接下来我们将内容直接存放到 Easysearch 当中。

安装插件

通过安装 ScrapyElasticsearch pipeline 可将 scrapy 爬取的内容存入到 Easysearch 中。

修改 scrapy 自带的配置文件 settings.py ，添加以下内容。

ScrapyElasticSearch 会以 bulk 方式写入 Easysearch，每次批量的大小由 scrapyelasticsearch.scrapyelasticsearch.ElasticSearchPipeline 参数控制，大家可自行修改。

在上述配置中，我们会将爬到的数据存放到 scrapy-yyyy-mm-dd 索引中。

启动爬虫

在 infini_spiders/spiders 目录下，使用命令启动爬虫。

blog 就是爬虫的名字，对应到 blog.py 里面的 name 变量。运行完成后，就可以去 Easysearch 里查看数据了，当然我们还是使用 Console 进行查看。

查看数据

先查看下索引情况，scrapy 索引已经生成，里面有 129 篇博客。

查看详细内容，确保博客正文已经保存。

到了这一步，我们就能使用 Console 对博客进行搜索、分析了。

这次的分享就到这里了。欢迎与我一起交流 ES 的各种问题和解决方案。

推荐体验

相关资讯

全球数据爬取的解决方案-国外数据爬取

引言无论是海外电商用户的消费习惯还是训练自己的通用人工智能chatgpt，都是需要海量和多种类型数据的支持。自然而然也就需要爬取各个网站的数据。而现如今数据爬取的难度越来越大，各个网站都会有限制I

人工智能 ChatGPT

蒋老湿 2024-04-30

如何用ChatGPT抓取网站数据

本文通过实际案例介绍使用 ChatGPT 抓取数据的两种方法。了解如何利用 Scrape 和 Noteable 等插件的强大功能，了解它们的优势和局限，即使不懂代码也能通过人工智能抓取网站数据。

ChatGPT 编程人工智能

我的AI力量 2023-07-30

网页数据爬取cheerio与openai对比与结合

网页数据爬取cheerio与openai对比与结合.cheerio与openai两个包的结合，使用cheerio获取到数据文件后，在让openai进场分析。

July_lly 2024-05-20

如何使用datafocus进行数据分析

首先，通过datafocus的数据收集功能，将需要分析的数据导入到datafocus中。在datafocus中，ChatGPT可以帮助用户自动化数据处理和分析过程。通过ChatGPT的增强分析功能，可以更快速…

DataFocus 2023-11-06

AIGC:聊聊如何用openai帮我们进行情感分析（Huggingface——transformer)

前言 11月7日晚上，各位AI大佬坐不住了，因为openAi的首届开发者大会开始了。大家感兴趣的可以去网上找找视频，如果你对AI也有兴趣，一定不虚此行~今天我们一起来聊聊如何用openai进行情感分析

AIGC OpenAI Hugging Face

来颗奇趣蛋 2023-11-09

近期资讯

Shopify App 开发：商品支付流程完整链路测试

Shopify 项目开发的过程中，最核心的流程之一就是如何完成一个产品的购买流程，也就是订单的支付流程。本文将利用 Shopify 虚假网关来向大家示例一个商品完整支付的流程。

hauk0101 2024-09-13

如何解决闭包引起的内存泄漏问题

闭包示例如下在 JavaScript 中，变量是否会留在内存中取决于它们是否被引用。如果一个变量在任何地方都没有被引用，JavaScript 的垃圾回收器会在合适的时机回收它的内存。 data 变量

我爱写代码Z 2024-09-13

利用观测云实现云资源FinOps优化

通过观测云对云资源的多维度观测和数据收集能力，可以将账单分析和优化的视角从传统财务视角扩展到业务视角，并通过强大的数据处理和清洗能力，提供个性化、定制化的费用聚合分析。

可观测性用观测云 2024-09-13

深入解析循环神经网络（RNN）

循环神经网络（RNN）是处理序列数据的一种强大工具，广泛应用于自然语言处理、时间序列预测等领域。本文将深入探讨 RNN的优势、使用场景、项目案例及其代码实现。

颜淡慕潇 2024-09-13

Babel 总结（二）

Babel 插件 Babel插件的分类根据文章内容,Babel插件主要分为三类: transform插件: 用于转换ES新语法特性例如:转换箭头函数、类、解构赋值等 proposal插件: 用于转

liyf 2024-09-13

从Synchronized 到 CAS，CLH，AQS(AbstractQueuedSynchronizer)

前言先讲讲几个概念，并发，同步异步（先不涉及IO阻塞）并发：在操作系统中，同个处理器上有多个进程（线程）同时运行即并发，并发可分为同步和互斥。同步：分布在不同进程之间的若干代码片段（如具体某个方

南瓜大人 2024-09-13

AI视频百万播放，用这个免费的AI工具，3步教你制作爆款治愈系视频（附完整教程）

今天一位读者发了一个视频链接，问这类治愈系风景的视频是用什么 AI 工具做的？给大家看看，就是下面这些：大家是不是也经常在网上刷到这类治愈系风景的视频？一些唯美的画面，配上一段安静的音乐，几秒的

程序员X小鹿 2024-09-13

Process.env在TS里的最佳打开方式

在TS的项目开发中，经常会出现process.env无法自动补齐的情况。而且会被推断成string或者undefined。

叶知秋水 2024-09-13

Nest.js 实现数据权限控制

在实际项目开发中我们不仅要控制一个用户能访问那些资源，还需要控制用户只能访问资源中的某部分数据。比如一个用户可以访问用户列表资源，但只能看到自己本部门下的用户数据，也只能操作(增、删、改、查)自己本

haiweilian 2024-09-13

高性能服务-ElasticSearch篇

1 介绍 Elasticsearch是一个基于Apache Lucene的开源分布式搜索和分析引擎，旨在实现云计算时代的实时搜索、稳定、可靠、快速、安装使用方便。它通常用于处理海量的文本数据，提供强大

dongfeng3692 2024-09-13

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1