随着ChatGPT的问世,人们开始认识到大语言模型(LLM,Large language model)和生成式人工智能在多个领域的潜力,如文稿撰写、图像生成、代码优化和信息搜索等。LLM已成为个人和企业的得力助手,并朝着超级应用的方向发展,引领着新的生态系统。本文介绍如何基于PolarDB PostgreSQL版向量数据库和LLM构建企业专属Chatbot。
越来越多的企业和个人希望能够利用LLM和生成式人工智能来构建专注于其特定领域的具备AI能力的产品。目前,大语言模型在处理通用问题方面表现较好,但由于训练语料和大模型的生成限制,对于垂直专业领域,则会存在知识深度和时效性不足的问题。在信息时代,由于企业的知识库更新频率越来越高,并且企业所拥有的垂直领域知识库(例如文档、图像、音视频等)往往是未公开或不可公开的。因此,对于企业而言,如果想在大语言模型的基础上构建属于特定垂直领域的AI产品,就需要不断将自身的知识库输入到大语言模型中进行训练。
目前有两种常见的方法实现:
综上所述,微调的方案投入成本较高,更新频率较低,并不适合所有企业。提示调整的方案是在向量库中构建企业的知识资产,通过LLM+向量库构建垂直领域的深度服务。本质是利用数据库进行提示工程(Prompt Engineering)将企业知识库文档和实时信息通过向量特征提取然后存储到向量数据库,结合LLM可以让Chatbot的回答更具专业性和时效性,也更适合中小型企业构建企业专属Chatbot。
在机器学习领域,为了能够处理大量的非结构化的数据,通常会使用人工智能技术提取这些非结构化数据的特征,并将其转化为特征向量,再对这些特征向量进行分析和检索以实现对非结构化数据的处理。将这种能存储、分析和检索特征向量的数据库称之为向量数据库。
基于PolarDB PostgreSQL版构建的ChatBot的优势如下:
重要
本文提到的“大型语言模型(LLM)”来自第三方(统称为“第三方模型”)。阿里云无法保证第三方模型的合规性和准确性,也不对第三方模型以及您使用第三方模型的行为和结果承担任何责任。因此,在访问或使用第三方模型之前请进行评估。另外,我们提醒您,第三方模型附带有“开源许可”、“许可证”等协议,您应仔细阅读并严格遵守这些协议的规定。
阿里云提供云速搭CADT平台模板,该方案模板已预部署了ECS以及PolarDB PostgreSQL版数据库,并且预安装了前置安装包,能够帮助您快速体验专属ChatBot,您可以前往云速搭CADT控制台,参考大模型结合POLARDB PG数据库构建企业级专属Chatbot进行体验。
说明
如需升级内核小版本,请参见版本管理。
嵌入
嵌入(embedding)是指将高维数据映射为低维表示的过程。在机器学习和自然语言处理中,嵌入通常用于将离散的符号或对象表示为连续的向量空间中的点。
在自然语言处理中,词嵌入(word embedding)是一种常见的技术,它将单词映射到实数向量,以便计算机可以更好地理解和处理文本。通过词嵌入,单词之间的语义和语法关系可以在向量空间中得到反映。
OpenAI提供Embeddings能力。
本文展示的专属ChatBot的实现流程分为两个阶段:
第一阶段:数据准备
第二阶段:问答
流程图如下:
第一阶段:数据准备
本文以2023年PolarDB PostgreSQL版的产品功能动态文档的文本内容为例,将其拆分并存储到PolarDB PostgreSQL版数据库中,您需要准备自己的专属领域知识库。
数据准备阶段的关键在于将专属领域知识转化为文本embedding,并有效地存储和匹配这些信息。通过利用LLM的强大语义理解能力,您可以获得与特定领域相关的高质量回答和建议。当前的一些开源框架,可以方便您上传和解析知识库文件,包括URL、Markdown、PDF、Word等格式。例如LangChain和OpenAI开源的ChatGPT Retrieval Plugin。LangChain和ChatGPT Retrieval Plugin均已经支持了基于PGVector扩展的PostgreSQL作为其后端向量数据库,这使得与PolarDB PostgreSQL版集群的集成变得更加便捷。通过这样的集成,您可以方便地完成第一阶段领域知识库的数据准备,并充分利用PGVector提供的向量索引和相似度搜索功能,实现高效的文本匹配和查询操作。
1.连接PolarDB PostgreSQL版集群。
2.创建测试数据库,以testdb为例。
CREATE DATABASE testdb;
3.进入测试数据库,并创建PGvector插件。
CREATE EXTENSION IF NOT EXISTS vector;
4.创建测试表(本文以polardb_pg_help_docs为例),用于存储知识库内容。
CREATE TABLE polardb_pg_help_docs (
id bigserial PRIMARY KEY,
title text, -- 文档标题
description text, -- 描述
doc_chunk text, -- 文档分块
token_size int, -- 文档分块字数
embedding vector(1536)); -- 文本嵌入信息
5.为embedding列创建索引,用于查询优化和加速。
CREATE INDEX ON polardb_pg_help_docs USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100);
说明
向量列创建索引的更多说明,请参见PGVector。
6.在PyCharm中,创建项目,然后打开Terminal,输入如下语句,安装如下依赖库。
pip install openai psycopg2 tiktoken requests beautifulsoup4 numpy
说明
如果psycopg2有安装问题,请考虑采用源码编译方式。
7.创建.py文件(本文以knowledge_chunk_storage.py为例),拆分知识库文档内容并存储到数据库中,示例代码如下:
说明
如下示例代码中,自定义的拆分方法仅仅是将知识库文档内容按固定字数进行了拆分,您可以使用LangChain和OpenAI开源的ChatGPT Retrieval Plugin等开源框架中提供的方法进行拆分。知识库中的文档质量和分块结果对最终的输出的结果有较大的影响。
import openai
import psycopg2
import tiktoken
import requests
from bs4 import BeautifulSoup
EMBEDDING_MODEL = "text-embedding-ada-002"
tokenizer = tiktoken.get_encoding("cl100k_base")
# 连接PolarDB-PG数据库
conn = psycopg2.connect(database="<数据库名>",
host="<PolarDB PostgreSQL版集群连接地址>",
user="<用户名>",
password="<密码>",
port="<数据库端口>")
conn.autocommit = True
# OpenAI的API Key
openai.api_key = '<Secret API Key>'
# 自定义拆分方法(仅为示例)
def get_text_chunks(text, max_chunk_size):
chunks_ = []
soup_ = BeautifulSoup(text, 'html.parser')
content = ''.join(soup_.strings).strip()
length = len(content)
start = 0
while start < length:
end = start + max_chunk_size
if end >= length:
end = length
chunk_ = content[start:end]
chunks_.append(chunk_)
start = end
return chunks_
# 指定需要拆分的网页
url = 'https://help.aliyun.com/document_detail/602217.html?spm=a2c4g.468881.0.0.5a2c72c2cnmjaL'
response = requests.get(url)
if response.status_code == 200:
# 获取网页内容
web_html_data = response.text
soup = BeautifulSoup(web_html_data, 'html.parser')
# 获取标题(H1标签)
title = soup.find('h1').text.strip()
# 获取描述(class为shortdesc的p标签内容)
description = soup.find('p', class_='shortdesc').text.strip()
# 拆分并存储
chunks = get_text_chunks(web_html_data, 500)
for chunk in chunks:
doc_item = {
'title': title,
'description': description,
'doc_chunk': chunk,
'token_size': len(tokenizer.encode(chunk))
}
query_embedding_response = openai.Embedding.create(
model=EMBEDDING_MODEL,
input=chunk,
)
doc_item['embedding'] = query_embedding_response['data'][0]['embedding']
cur = conn.cursor()
insert_query = '''
INSERT INTO polardb_pg_help_docs
(title, description, doc_chunk, token_size, embedding) VALUES (%s, %s, %s, %s, %s);
'''
cur.execute(insert_query, (
doc_item['title'], doc_item['description'], doc_item['doc_chunk'], doc_item['token_size'],
doc_item['embedding']))
conn.commit()
else:
print('Failed to fetch web page')
8.运行python程序。
9.登录数据库使用如下命令查看是否已将知识库文档内容拆分并存储为向量数据。
SELECT * FROM polardb_pg_help_docs;
第二阶段:问答
1.在python项目中,创建.py文件(本文以chatbot.py为例),创建问题并与数据库中的知识库内容比较相似度,返回结果。
# 连接PolarDB PostgreSQL版集群数据库
conn = psycopg2.connect(database="<数据库名>",
host="<PolarDB PostgreSQL版集群连接地址>",
user="<用户名>",
password="<密码>",
port="<数据库端口>")
conn.autocommit = True
def answer(prompt_doc, prompt):
improved_prompt = f"""
按下面提供的文档和步骤来回答接下来的问题:
(1) 首先,分析文档中的内容,看是否与问题相关
(2) 其次,只能用文档中的内容进行回复,越详细越好,并且以markdown格式输出
(3) 最后,如果问题与PolarDB PostgreSQL版不相关,请回复"我对PolarDB PostgreSQL版以外的知识不是很了解"
文档:
\"\"\"
{prompt_doc}
\"\"\"
问题: {prompt}
"""
response = openai.Completion.create(
model=GPT_COMPLETIONS_MODEL,
prompt=improved_prompt,
temperature=0.2,
max_tokens=MAX_TOKENS
)
print(f"{response['choices'][0]['text']}\n")
similarity_threshold = 0.78
max_matched_doc_counts = 8
# 通过pgvector过滤出相似度大于一定阈值的文档块
similarity_search_sql = f'''
SELECT doc_chunk, token_size, 1 - (embedding <=> '{prompt_embedding}') AS similarity
FROM polardb_pg_help_docs WHERE 1 - (embedding <=> '{prompt_embedding}') > {similarity_threshold} ORDER BY id LIMIT {max_matched_doc_counts};
'''
cur = conn.cursor(cursor_factory=DictCursor)
cur.execute(similarity_search_sql)
matched_docs = cur.fetchall()
total_tokens = 0
prompt_doc = ''
print('Answer: \n')
for matched_doc in matched_docs:
if total_tokens + matched_doc['token_size'] <= 1000:
prompt_doc += f"\n---\n{matched_doc['doc_chunk']}"
total_tokens += matched_doc['token_size']
continue
answer(prompt_doc,prompt)
total_tokens = 0
prompt_doc = ''
answer(prompt_doc,prompt)
2.运行Python程序后,您可以在运行窗口看到类似如下的对应答案:
说明
您可以对拆分方法以及问题prompt进行优化,以获得更加准确、完善的回答,本文仅为示例。
如果未接入向量数据库,OpenAI对于问题“列举2023年PolarDB PostgreSQL 14版本新增功能点”的回答往往与阿里云不相关,例如:
在接入存储在PolarDB PostgreSQL版数据库中的专属知识库后,对于问题“列举2023年PolarDB PostgreSQL 14版本新增功能点”,我们将会得到只属于阿里云PolarDB PostgreSQL版数据库的相关回答。
根据上述实践内容,可以看出PolarDB PostgreSQL版完全具备构建基于LLM的垂直领域知识库的能力。
相关参考
通过查看GitHub页面可以了解更多信息:https://github.com/openai/openai-cookbook/tree/main/examples/vector_databases/PolarDB
点击立即免费试用云产品:https://click.aliyun.com/m/1000373503/
原文链接:https://click.aliyun.com/m/1000378537/
本文为阿里云原创内容,未经允许不得转载