科技云报道：向量数据库：AI时代的下一个热点

作者：科技云报道发布时间：2023-08-03

AI大模型

科技云报道原创。

最近，又一个概念火了——向量数据库。

随着大模型带来的应用需求提升，4月以来多家海外知名向量数据库创业企业传出融资喜讯。

4月28日，向量数据库平台Pinecone宣布获得1亿美元（约7亿元）B轮融资；
4月22日，向量数据库平台Weaviate宣布获得5000万美元（约3.5亿元）B轮融资；
4月6日Chroma获1800万美元种子轮融资；
4月19日Qdrant获750万美元种子轮融资。

国内方面，星环科技、北交所云创数据等公司的股价连续异动，其中云创数据自底部以来股价已接近翻倍。

7月4日，腾讯云正式发布向量数据库Tencent Cloud VectorDB，预计8月上线腾讯云官网。

一连串的市场动作，都展示了向量数据库的爆红。那么，什么是向量数据库，到底有啥用？

什么是向量数据库？

当你在网上看到一张壁纸，你想知道这是哪个国家的美景，却不知道如何搜索；或者，在阅读一篇文章时，你想深入了解这个话题，寻找更多的观点和资料，却不知道该如何精确描述。

这时，你需要的是一个能够理解你的意图，为你提供最相关的结果，让你轻松找到你想要的信息的工具。

这就是向量数据库（Vector Data Base），它就像一个超级大脑，帮助你解决这些问题。

所谓向量数据库，是一种专门用于存储、管理、查询、检索向量的数据库，可以把复杂的非结构化数据通过向量化，处理统一成多维空间里的坐标值。

目前，向量数据库主要应用于人工智能、机器学习、数据挖掘等领域。

具体来看，向量数据库被广泛地用于大模型训练、推理和知识库补充等场景：

●支撑训练阶段海量数据的分类、去重和清洗，给大模型的训练降本增效；

●通过新数据的带入，帮助大模型提升处理新问题的能力，突破预训练带来的知识时间限制，避免大模型出现幻觉；

●提供一种私有数据连接大模型的方式，解决私有数据注入大模型带来的安全和隐私问题，加速大模型在产业落地。

简而言之，向量数据库可以解决大模型预训练成本高、没有“长期记忆”、知识更新不足、提示词工程复杂等问题，突破大模型在时间和空间上的限制，加速大模型落地行业场景。

向量数据库的发展

在向量数据库出现之前，大家普遍使用的是关系型数据库，如MySQL、Oracle等，这些数据库以表格的形式存储数据，适合存储结构化数据。但对于非结构化数据，如文本、图像、音频等，处理起来就相对困难。

此外，关系型数据库在处理大规模数据时，性能会下降，不适合大数据处理。这就像是在一个拥挤的图书馆里找一本书，你知道它在哪个书架上，但是找到它还需要花费大量的时间。

而向量数据库和传统数据库的不同点在于，向量数据库处理的是各种AI应用产生的非结构化数据，通过近似查进行模糊匹配，输出的是概率上的提供相对最符合条件的答案，而非精确的标准答案。

举例来说，传统数据库做图片检索可能是通过关键词去搜索，向量数据库是通过语义搜索图片中相同或相近的向量并呈现结果。理论是向量之间的距离越接近，就说明语意越接近，效果也有最相似。

随着时间的推移，向量数据库开始在不同的领域和应用中不断成长和进化。从20世纪90年代末到2000年初，美国国立卫生研究院和斯坦福大学都开始使用向量数据库。

2005年到2015年间，随着基因研究的深入和加速，向量数据库也在并行中增长，像UniVec 数据库这样的工具在2017年就已经被广泛使用，它们在基因序列比对、基因组注释等领域发挥了重要作用。

2017年和2019年之间，向量数据库开始爆炸式增长，它被应用于自然语言处理、计算机视觉、推荐系统等领域。这些领域都需要处理大量和多样化的数据，并从中提取有价值的信息。

向量数据库通过使用诸如余弦相似度、欧氏距离、Jaccard 相似度等度量方法，以及诸如倒排索引、局部敏感哈希、乘积量化等索引技术，实现了高效和准确的向量检索。

目前各大厂商使用的推荐系统、以图搜图、哼唱搜歌、问答机器人等应用，其内核都是向量数据库。

在今年，向量数据库开始被用于与大语言模型结合的应用。

它为大语言模型提供了一个外部知识库，使得大语言模型可以根据用户的查询，在向量数据库中检索相关的数据，并根据数据的内容和语义来更新上下文，从而生成更相关和准确的文本。

这些大语言模型通常使用深度神经网络来学习文本数据中隐含的规律和结构，并能够生成流畅和连贯的文本。

向量数据库过使用诸如BERT、GPT等预训练模型将文本转换为向量，并使用诸如FAISS、Milvus等开源平台来构建和管理向量数据库。

总体而言，向量数据库成功地解决了很多挑战，并为人们带来了很多价值。

针对传统关系型数据库难以处理的大规模数据、低时延高并发检索、模糊匹配等领域，向量数据库通过数据的向量化来满足特定需求，尤其适用于人工智能领域。

让行业大模型具备know how能力

随着AI大模型的崛起，向量数据库的爆红也就不难理解。

一是，在现实世界里，非结构化数据是“主流”。根据Gartner的数据，非结构化数据占企业生成的新数据比例高达90％，并且增长速度比结构化数据快三倍。

而生成式AI大模型进一步带来了非结构化数据的暴增，也相应推动了对向量数据库的需求。

向量数据库的一大优势在于，能够通过机器学习方法处理和理解来自不同源的多种模态信息，如文本、图像、音频和视频等。

二是，越来越多的大模型从业者认为，所有的行业都值得被AI重新做一遍。

因此，建立在不同行业的垂直大模型，成为大家的切入点，而向量数据库是行业大模型具备“行业knowhow”能力的必经之路。

这背后是，AI大模型的产生，需要经历大量反复的训练和调试。虽然通用AI大模型能回答一般性问题，但在垂直领域服务中，其知识深度、准确度和时效性有限。

而利用向量数据库结合大模型和自有知识资产，可以构建垂直领域的AI能力。向量数据库存储和处理向量数据，提供高效的相似度搜索和检索功能。

正如东北证券观点，AI化的本质则是向量化，向量化计算成本高昂，海量的高维向量势必需要专门的数据库进行存储和处理，向量数据库应运而生。

向量数据库在拓展AI全新应用场景的同时，也将对传统数据库产品形成替代，进而成为AI时代的Killer App。

目前，向量数据库是一个亟待引爆的蓝海市场。

据公开资料显示，向量数据库市场空间巨大，尚处于从0-1阶段，预测到2030年，全球向量数据库市场规模有望达到500亿美元，国内向量数据库市场规模有望超过600亿人民币。

未来随着生成式AI大模型开发量和使用量的增长，向量数据库的应用有望快速增长。

而国内外众多玩家如传统数据库厂商、初创数据库厂商、云厂商、跨界厂商等都已跃跃欲试，提前开始布局向量数据库，做好了应对AI大模型时代的准备。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

近期资讯

荣耀官宣成为《哪吒之魔童闹海》官方合作伙伴，2025魔法科技年货节开启

12月23日，荣耀终端有限公司CEO赵明在荣耀Magic7RSR保时捷设计及影像技术发布会上，宣布荣耀成为电影《哪吒之魔童闹海》（下称“哪吒”）官方合作伙伴，并同步开启2025荣耀魔法科技年货节活动，为消费者奉上“套福气”、“购喜乐”、“抢好运”、“添年味”、“传欢乐”等一系列“精彩节目”，以体验卓越的荣耀产品及诚意满满的互动和福利惊喜，...

央广网 2024-12-26

性价比优选，美的BC-93MF：93升单门一级能效小冰箱

在冰箱领域，美的不断推出满足不同用户需求的产品，从大型多门冰箱到小型单门冰箱，每一款都体现了美的对品质的执着追求。此外，冰箱还具备39分贝的低噪音运行，488×450×835mm的外形尺寸，以及22.9千克的产品重量，使得这款冰箱不仅实用而且便携。

小米地瓜 2024-12-26

手机免打扰模式设置指南：助你专注与宁静生活

特别是在想要专注工作、休息或者与朋友家人相处的时刻，频繁的打扰实在是让人难以忍受。今天，我们就来聊聊如何设置免打扰模式，让你的手机在需要专注的时候，帮你屏蔽那些不必要的干扰。

新报观察 2024-12-26

国网湖北电力充电桩年充电量首次突破5亿千瓦时

12月26日，记者从国网湖北省电力有限公司获悉，截至目前，国网湖北电力的充电桩年充电量首次突破5亿千瓦时，达5.01亿千瓦时，同比增长51.82%。近年来，为满足飞速增长的充电需求，国网湖北电力加快推进充电基础设施建设，不断优化完善充电网络布局。“2024年，除年度充电量取得历史性突破外，单日充电量、充电设施可用率均创历史新高。”

极目新闻 2024-12-26

如何顺畅地推荐微信好友，增进社交联系的技巧与方法

新报观察 2024-12-26

小米推出全新REDMI Book 16 2025笔记本电脑性能超强智能识别场景

小米全新REDMIBook162025笔记本电脑于12月26日官宣，该产品以“轻薄/性能/续航”为设计目标，旨在满足用户对多方面需求的平衡。REDMIBook162025现已开始接受预约，并将于Turbo4新品发布会上正式发布。去年11月底发布的RedmiBook162024售价为4399元起。

中关村在线 2024-12-26

七工匠 18mm F5.6 全画幅镜头新品 12 月 30 日发售

IT之家12月26日消息，七工匠今日宣布其18mmF5.6全画幅饼干镜头将于12月30日上市发售，详细信息届时才会公布。从海报来看，这款镜头将提供E卡口、Z卡口、L卡口三个版本可选，采用手动对焦方式且光圈非常小，其价格预计不会太贵，IT之家后续将保持关注。

IT之家 2024-12-26

珠海科创储能取得转移机构专利，解决现有技术的电芯模组在转移过程中安全性较低的问题

金融界2024年12月26日消息，国家知识产权局信息显示，珠海科创储能科技有限公司取得一项名为“转移机构”的专利，授权公告号CN222203891U，申请日期为2023年12月。专利摘要显示，本实用新型提供了一种转移机构，该转移机构用于将抓取的电芯模组放置到预定位置，该转移机构包括主体部、第一定位组件、第二定位组件和推动组件。

金融界 2024-12-26

一加Ace5系列发布 Pro版首发电竞Wi-Fi芯片G1

12月26日，一加Ace5系列正式发布，其中标准版搭载高通骁龙8Gen3芯片，Pro版本搭载骁龙8至尊版处理器，并首发电竞Wi-Fi芯片G1与第二代1.5K东方屏，同时配备13根电竞天线和游戏云计算专网，全系搭载ColorOS15系统，支持与iPhone隔空互传及一碰互传功能，同时支持一键问屏、AI修图、AI学习等多项AI功能。

证券时报 2024-12-26

“马上消费”智慧农业项目“富慧养”荣获中国创新方法大赛银奖丨马上消费

在近日于重庆圆满落幕的2024年中国创新方法大赛电视擂台赛中，由中国科学技术协会与重庆市人民政府携手打造的这一科技盛会，见证了马上消费金融股份有限公司(简称“马上消费”)以“富慧养”智慧农业技术项目荣膺银奖(全国一等奖)的辉煌时刻，其在金融行业的创新实力得以璀璨展现。

中国财富网 2024-12-26

科技云报道：向量数据库：AI时代的下一个热点

推荐体验

相关资讯