Web检索是AI大模型应用的一个热门应用方向。其涉及的主要步骤如下:
参考:https://python.langchain.com/docs/use_cases/web_scraping
(1)用户提问,联网检索
(2)通过URLs记载网页HTML数据
(3)加载到的数据通过转换,获取关注的内容,形成文本
(4)对文本进行分块、向量化、存储
(5)调用大模型进行总结、答案生成
其实就是RAG的基本流程,只不过知识库不再局限在你自己的知识库,而是利用在线检索,搜罗互联网上的数据作为相关知识。
搜罗数据的过程,可以有两种方法,一种是调用检索的API,例如GoogleSearch的API,直接获取检索结果。另一种方法,就是靠爬虫,将网页数据抓取下来,存入向量数据库使用。
本文我们探讨一下爬虫的相关的使用方法。
LangChain中,将爬虫功能分成了两个模块,Loading
和 Transforming
。
• Loading
模块的功能是将 URL 加载转换成 HTML 内容。封装的类包括:AsyncHtmlLoader
类、AsyncChromiumLoader
类等。
• Transforming
模块的功能是将 HMTL 内容转换成需要的文本。封装的类包括:HTML2Text
类、Beautiful Soup
类等。
• AsyncHtmlLoader
:使用aiohttp库生成异步HTTP请求,适用于更简单、轻量级的抓取。
• AsyncChromiumLoader
:使用Playwright启动Chromium实例,该实例可以处理JavaScript渲染和更复杂的web交互。Chromium是Playwright支持的浏览器之一,Playwright是一个用于控制浏览器自动化的库。
• HTML2Text:将HTML内容直接转换为纯文本,而无需任何特定的标记操作。它最适合于目标是提取人类可读文本而不需要操作特定HTML元素的场景。
• Beautiful Soup:对HTML内容提供了更细粒度的控制,支持特定的标记提取、删除和内容清理。它适用于需要提取特定信息并根据需要清理HTML内容的情况。
urls = ["https://mp.weixin.qq.com/s/Zklc3p5uosXZ7XMHD1k2QA"]
from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import BeautifulSoupTransformer
# Load HTML
loader = AsyncChromiumLoader(urls)
html = loader.load()
print("============= html =====================")
print(html)
# Transform
bs_transformer = BeautifulSoupTransformer()
docs_transformed = bs_transformer.transform_documents(html, tags_to_extract=["span"])
print("================= doc_transformed ===============")
print(docs_transformed)
(1)该程序使用了 AsyncChromiumLoader
类来加载URL为HTML内容。
注意:AsyncChromiumLoader
接收的参数是一个URL数组,这意味着它可以同时加载多个URL。
(2)使用了 BeautifulSoupTransformer
类作为transform来将HTML内容转换成文本内容
注意:transform_documents
函数中的 tags_to_extract
参数,指定了将 HTML 中的什么 tag 内的内容提取成文本。
• URL转HTML内容结果如下:
• Transform步骤后的结果:
可以看到经过 Transform 步骤后,出现了我们需要的文本信息。
原网页内容如下:经过对比,发现提取的文本丢失了很多内容。主要的原因是tags_to_extract
参数设置的问题。
1.4 效果改善
HTML脚本语言的常用的文本标签 tags 大体有 <h>, <p>, <li>, <div> 和 <a> :
• <h1> 到 <h6>:标题标签,用于定义标题的级别,<h1> 是最高级别的标题,依次递减。
• <p>:段落标签,用于定义段落。
• <a>:链接标签,用于创建超链接,通过href属性指定链接目标。
• <span>:内联容器标签,用于包裹一小段文本或行内元素。
• <div>:块级容器标签,用于组合和布局其他元素。
• <strong>:强调文本标签,使文本加粗显示。
• <em>:强调文本标签,使文本以斜体显示。
• <br>:换行标签,用于插入一个换行符。
要改善上面的提取结果,使其能提取出更多的文本,我们可以修改提取的 tags 参数,如下,提取出<span>, <p> 和 <code> 的内容:
docs_transformed = bs_transformer.transform_documents(html, tags_to_extract=["span", "code", "p"])
修改后运行效果如下:已经将里面的文字和代码全部提取出来了(虽然还有些特殊符号,不过没关系,后面可以再过滤一层去掉):
tags_to_extract
的参数那上面我是怎么确认要提取 "span", "code", "p"
这三个tag内的文本的呢?
(1)打开你要爬取的网页,按 F12 打开网页调试工具
(2)找到 “元素” 选项卡,然后点击左上角的这个图标(如图)
(3)将鼠标悬浮在你想提取的文字上面,它就会自动展示当前文字所在的标签 tag 是什么。如下面图片:
(4)将这些tag全部填到参数里,就OK了。
该方法是在以上方法的基础上,在得到文本后,再利用大模型,从文本中二次提取出所关注的文本内容。
这种方法的好处在于,对于网页内容和结构变化时,我们不需要再去频繁的调整提取tag等参数,而是最后利用大模型统一提取关心内容即可。
def scraping_with_extraction():
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0613")
from langchain.chains import create_extraction_chain
schema = {
"properties": {
"article_title": {"type": "string"},
"article_content": {"type": "string"},
"article_example_python_code": {"type": "string"},
},
"required": ["article_title", "article_content", "article_example_python_code"],
}
def extract(content: str, schema: dict):
return create_extraction_chain(schema=schema, llm=llm).run(content)
import pprint
from langchain.text_splitter import RecursiveCharacterTextSplitter
def scrape_with_playwright(urls, schema):
from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import BeautifulSoupTransformer
loader = AsyncChromiumLoader(urls)
docs = loader.load()
bs_transformer = BeautifulSoupTransformer()
docs_transformed = bs_transformer.transform_documents(
docs, tags_to_extract=["span", "code", "p"]
)
print("Extracting content with LLM")
# Grab the first 1000 tokens of the site
splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
chunk_size=1000, chunk_overlap=0
)
splits = splitter.split_documents(docs_transformed)
# Process the first split
extracted_content = extract(schema=schema, content=splits[0].page_content)
pprint.pprint(extracted_content)
return extracted_content
extracted_content = scrape_with_playwright(urls, schema=schema)
scraping_with_extraction()
(1)schema定义
定义一个模式来指定要提取的数据类型。在这里,key的名称很重要,因为这是告诉LLM我们想要什么样的信息。所以,尽可能详细。
(2)正常走上面的流程,获取网页数据 docs_transformed
(3)代码中还做了 split,将全部文本分块了,可能是为了避免超出 LLM 的Token长度限制?
(4)最重要、最灵魂的几句,将文本内容,和模式传入 create_extraction_chain
来获取输出:
def extract(content: str, schema: dict):
return create_extraction_chain(schema=schema, llm=llm).run(content)
extracted_content = extract(schema=schema, content=splits[0].page_content)
输出的结果不是很好。
create_extraction_chain
源码解析该函数源码如下:
其做的事儿,也比较简单,就是通过 _get_extraction_function
函数将上面我们定义的 schema
转换成了 function calling 中的 function 的结构。
然后创建了一个 LLMChain 链。
看下它内置的Prompt,让大模型提取出在 information_extraction
函数中定义的 properties
相关信息 :
_EXTRACTION_TEMPLATE = """Extract and save the relevant entities mentioned \
in the following passage together with their properties.
Only extract the properties mentioned in the 'information_extraction' function.
If a property is not present and is not required in the function parameters, do not include it in the output.
Passage:
{input}
"""
很明显,这个 Prompt 比较简单,要想大模型提取的结果好,information_extraction
函数中定义的 properties
必须要尽可能详细。怎么提供详细的说明呢?看下我之前的Function calling的文章,可以看到参数下面可以加一个描述来详细描述该参数的含义。
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/1ed67d5c1fa449cbbe642d444536b78c.png#pic_center =400x) 仿照这个方法,我们可以优化schema:
schema = {
"properties": {
"文章标题": {"type": "string", "description": "文章题目"},
"文章正文全部内容": {"type": "string", "description": "文章的正文内容,不要包含Python代码,只输出文字"},
"文章中的示例Python代码": {"type": "string", "description": "文章中的Python代码,只输出代码,用markdonw格式输出,可能存在多段代码,多段代码之间分开"},
},
"required": ["文章标题", "文章正文全部内容", "文章中的示例Python代码"],
}
还有一种方法,create_extraction_chain
函数的参数接收一个额外的 Prompt,我们也可以通过此参数来调优提取结果。
然而最终结果并没有多少改善...... 待继续研究怎么优化。
该方法有点过于依赖大模型的能力,并且会大量消耗Token,目前还没看到有实际的落地效果,处于探索阶段。
如果 想要更多AI大模型学习资料可以找我拿