生成人工智能今年已经受到了科技界内外的广泛关注。无论是查特普特的散文或者稳定扩散的艺术,2022提供了对人工智能颠覆创意产业的潜力的见解。
但在头条新闻的背后,2023年带来了人工智能的一个更重要的发展:人工智能的崛起向量数据库.
虽然它们的影响不太明显,但矢量数据库的采用可能会彻底颠覆我们与设备交互的方式,同时大大提高我们在大量行政和文书任务中的生产率。
最终,向量数据库将成为实现人工智能承诺的社会和经济变革的必要基础设施。
而不…是向量数据库?要理解这一点,我们必须理解它所解决的根本问题:非结构化数据。
数据库是软件行业持续时间最长、弹性最大的垂直行业之一。数据库和数据库管理解决方案的总支出重复从2017年的386亿美元到2021年的800亿美元。自2020年以来,由于大规模转向远程工作后的进一步数字化,数据库进一步巩固了其作为增长最快的软件类别之一的地位。
然而,现代数据库仍然受制于一个持续了几十年的问题:非结构化数据的问题。这是全球存储的高达80%的数据,这些数据没有经过格式化、标记或结构化,因此无法快速搜索或调用。
对于结构化数据和非结构化数据的简单类比,想象一个每行有多列的电子表格。在这种情况下,一行“结构化数据”填充了所有相关的列,而一行“非结构化数据”则没有。在非结构化条目的情况下,数据可能已经被自动导入到该行的第一列中;现在需要有人拆分该单元格并将数据填充到相关的列中。
为什么非结构化数据是一个问题?简而言之,它使得在数据库中分类、搜索、检查和使用信息变得更加困难。然而,我们对非结构化数据的理解是相对于数据通常的结构化方式而言的。
缺少标签或未对齐的格式意味着非结构化条目可能会在搜索中被遗漏,或者被错误地从过滤中排除/包括。这给许多数据库操作带来了出错的风险,我们必须通过手动构造数据来解决这个问题。这通常需要我们手动检查非结构化条目。这并不意味着数据本身一定是非结构化的;它只是比我们通常的数据存储方式需要更多的手动干预。
我们经常听说人工审查的负担,例如数据科学家花费80%的时间关于数据准备。但实际上,在某种程度上,这是我们都在做的事情,或者至少是生活在。如果您不得不与文件浏览器斗智斗勇,在您的硬盘上找到一些东西,或者花费大量时间筛选出不相关的搜索引擎结果,那么您很可能受到了非结构化数据问题的困扰。
这种浪费在人工格式化、审核和过滤上的时间并不是一个新问题,也不仅仅是数字问题。例如,图书管理员根据杜威十进制系统手工排列图书。非结构化数据问题只是一个基本挑战的数字版本,自从我们发明书写以来,人类就一直面临着每一项记录任务:我们需要对信息进行分类,以存储和使用它。
这就是向量数据库特别令人兴奋的地方。矢量数据库不是依靠不同的类别和列表来组织我们的记录,而是将它们放在地图上。
向量数据库使用了机器学习和深度学习呼叫向量嵌入。向量嵌入是一种将文本中的单词或短语映射到高维向量的技术,也称为单词嵌入。这些向量以这样的方式学习,语义相似的单词在向量空间中靠得很近。
这种表示允许深度神经网络更有效地处理文本数据,并且已经证明在各种自然语言处理任务中非常有用,例如文本分类、翻译和情感分析。
在数据库环境中,向量嵌入实际上是我们想要测量的一组属性的数字表示。
为了创建嵌入,我们采用经过训练的机器学习模型,并指示它监控数据集中条目的那些属性。
例如,在文本串的情况下,模型可以被告知记录平均单词长度、情感分析分数或特定单词的出现。
最后的嵌入采用一系列数字的形式,对应于在财产审计中记录的“分数”。向量数据库获取向量嵌入的分数,并将其绘制在图上。我们在向量嵌入中测量的每一个属性都构成了图的一个维度,这导致它通常比我们通常可以想象的三维要多得多。
有了所有这些信息,我们仍然可以计算任何一个嵌入与另一个嵌入之间的“距离”,就像在任何其他图中一样。也许更重要的是,我们可以用一种新的方式来搜索数据。通过生成一个输入搜索查询的矢量嵌入,我们在图上画出一个我们想要定位的点。然后,我们可以发现离我们的搜索点最近的嵌入。
向量嵌入并不是所有事情的完美解决方案。它们通常是以无人监督的方式学习的,这使得很难解释它们的含义以及它们如何对整体模型性能做出贡献。预训练嵌入还可能包含训练数据中存在的偏见,如性别、种族或政治偏见,这些偏见可能会对模型性能产生负面影响。
矢量数据库不依赖于标记、标签、元数据或其他通常用于结构化数据的工具。相反,因为矢量嵌入可以跟踪我们认为相关的任何属性,所以矢量数据库允许我们基于总体相似性.
尽管当前对非结构化数据的搜索涉及人工审查和解释,但矢量数据库将允许搜索实际反映意义而不是像关键词这样的表面属性。
这一变化将彻底改变数据处理、记录保存以及大多数行政工作和文书工作。由于“假阳性”搜索结果的减少以及对系统的预筛选和格式化查询的需求的减少,向量数据库可以极大地提高知识经济中几乎任何工作的生产率和效率。
除了提高管理效率之外,这些先进的搜索功能将使我们能够依靠数据库更有效地进行创造性和开放式的查询。
这是对生成式AI崛起的理想补充。因为矢量数据库减少了结构化数据的需求,所以我们可以通过自动化处理用于训练和生产的非结构化数据的大部分工作来大大加快生成式人工智能模型的训练时间。
因此,许多组织可以简单地将其非结构化数据导入向量数据库,并告诉它他们希望在嵌入中测量哪些属性。有了这些生成的嵌入,组织可以通过简单地搜索向量数据库来收集任务信息,从而快速训练和部署生成模型。
向量数据库将极大地提高我们的生产力,并彻底改变我们对计算机的查询方式。总之,这使得向量数据库成为未来十年最重要的新兴技术之一。