亚马逊云科技一直致力于推进生成式AI普惠化,以降低AI/ML门槛,助力千行百业,充分释放生成式AI潜力,加速数智转型与创新。接下来分享由亚马逊云科技高级开发技术推广工程师Brooke Jamieson整理总结的生成式AI词汇表的N-Z部分内容!
N:代表神经网络(Neural Network)
神经网络是人工智能对于人类大脑处理信息过程的一种模仿,通过每层或者说“神经元”中的关联节点对数据进行学习,并随着时间推移不断提升性能。神经网络使得计算机可以处理像图像和文字解读等复杂的任务,所以它在图像识别、语音转换文本、自然语言处理、以及个性化推荐等服务的实现中至关重要。神经网络可以学习并模仿输入输出数据间复杂且非线性的关系。
O:代表基础模型优化(Optimization)
在AI/ML中,优化意味着通过调整超参数对模型进行微调以提高性能。这些超参数属于外部配置变量,例如神经网络中的节点数量或学习率等超参数在模型训练开始之前就已设定。使用贝叶斯优化或网格搜索等方法寻找这些超参数的最优值称为超参数调优,此过程可以确保模型获得最优结果和精确度。
P:代表提示工程(Prompt Engineering)
提示工程(Prompt Engineering)是设计和精炼提示或输入激励以引导大型语言模型生成特定输出的过程。这涉及谨慎选择关键字,提供上下文,以及在构建输入时,对模型要有具体的引导以使其产生期望的回复。无需通过微调复杂定制,通过提示工程即可控制模型的风格,语调和专业知识。在提示工程上预先投入精力,即便在未知数据或数据有限的情况下,模型生成也能表现良好。
Q:代表量化(Quantisation)
通常来说,量化涉及将连续值转化为离散值。连续值是你可以测量的东西,并且可以在一定区间内取任何值(例如,温度值可以是26.31°),离散值则是孤立的点集(例如,海滩上的可卡犬的数量)。在机器学习的背景下,量化在神经网络中发挥作用,此时它表示将权重和激活转换为低精度值。这是一个重要的转换过程,特别是如果模型需要在内存有限的设备上运行,因为它可以帮助减少神经网络的内存要求、功耗和延迟。
R:代表负责任的人工智能(Responsibility)
AI中的责任是指在AI模型的开发和应用中持有的认知和道德原则,专注于公平性、有害性、真实性、隐私和知识产权等原则。生成式AI的复杂性(可以生成一系列内容)在定义和执行道德原则上提出了特殊的挑战。开发负责任的AI的策略包括谨慎输入训练数据、开发防护模型以过滤不必要的内容,以及在各个领域持续合作以确保AI系统对所有用户都具备创新性、可靠性并尊重隐私。
S:代表Amazon SageMaker
Amazon SageMaker是亚马逊云科技提供的一项全面托管的机器学习服务,使数据科学家和开发者能够轻松构建、训练和部署ML模型。它提供了一个集成的Jupyter Notebook,用于数据探索、分析和模型开发,而无需管理服务器。SageMaker还提供优化算法,并支持自定义框架,使其成为机器学习任务的灵活且可扩展的解决方案。
T:代表Transformers模型
Transformers是一项在2017年的研究论文《注意力是你所需要的一切》(Attention Is All You Need)中提出的颠覆性技术。Transformer架构是矩阵计算和神经网络的结合,其关键能力是将“注意力机制”应用到输入数据的相关部分。Transformers允许语言模型并行处理数据,并考虑句子的整个语境,而不仅仅是最后几个词。这些特性使Transformers能有效处理大量数据,对推动生成式AI的发展起到了关键作用,并形成了能执行复杂任务的大型语言模型的基础。
U:代表无监督学习(Unsupervised Learning)
无监督学习是一种在无标签数据上训练的算法,输出时也没有对应的标签。它可以用于自主发现数据中的隐藏模式、关系和结构,且没有给定的目标值。应用包括将类似的内容进行聚类,如将新闻文章分类,或检测网络流量中的异常,即可能存在的安全漏洞。无监督学习就像我去往一个新的城市,在没有地图指引的情况下,我会自己探索,找出地标、布局和城市中的商店模式,自主地进行探索。
相反,有监督学习是在有标记的数据上进行训练,同时提供输入和对应的输出。模型通过理解输入和期望输出之间的关系来进行预测或决策。例如,利用楼盘位置和房间数量等特征来预测房屋价格,或从标记过的数字图像中识别手写数字。有监督学习就像对着参考答案做作业一样——问题(输入数据)和答案(输出标签)都已提供,所以你可以通过看问题和答案来学习。一旦一个模型(或者说学生)经过有监督学习训练,他们可以对新的未见过的数据做出预测,就像在考试中考到类似的题目一样。
V:代表向量数据库(Vector Databases)
向量数据库是一种专用数据库,支持存储和检索代表各种类型数据的高维向量。它可以用于在N维空间中有效和快速地查找最近邻,因此对于语义搜索、向量搜索和多模态搜索等任务非常有用。向量数据库在生成式AI应用的背后起着关键作用,因为它们可以支持定制语言模型,提高准确性,并为对话式搜索或根据文本提示生成图像等独特的用户体验提供基础。
W:代表模型权重(Weights)
权重是神经网络中使用的数值,用于确定神经元之间连接的强度,特别是在像在2017年的研究论文《注意力是你所需要的一切》(Attention Is All You Need)中提出的Transformer这样的系统中。这些权重在注意力机制中起着关键作用,因为它们可以让网络专注于输入的特定部分,使模型能够生成更具上下文相关性的输出。你可以把权重看作是在训练过程中进行微调的参数,帮助模型理解和处理数据中的复杂关系和模式。
X:代表可解释AI(XAI)
可解释的人工智能(通常简称为XAI)对于建立对AI系统的信任和信心至关重要,特别是当AI做出的决策可能产生重大后果时。可解释性有两个关键方面:可诠释性和可解释性。可诠释性意味着理解AI模型的内部工作机制,如权重和特征,以理解如何生成预测及其原因。另一方面,可解释性使用与模型无关的方法来用人类的语言描述AI模型的行为,即使对于“黑箱”模型也是如此。一个模型注重可诠释性还是可解释性,取决于具体的使用案例、数据类型和业务需求,这可能涉及在实现高性能和保持解释模型行为的能力之间进行权衡。
Y:代表你可以在亚马逊云科技构建这一切
(You Can Build on Amazon Web Services)
25年以来,亚马逊一直致力于开发人工智能和机器学习技术,许多开发者选择在亚马逊云科技构建、训练和部署他们的AI/ML模型都不是偶然。
Z:代表零样本学习(Zero-Shot Learning)
零样本学习是一种机器学习技术,这种技术可以让模型对在训练阶段未见过的数据进行预测或分类。这个概念利用向量将输入(例如文本或视频)映射到一个语义空间,在这个空间中,意义被聚集起来。在这里,模型可以基于接近已知概念的程度,通过分析向量之间的距离,在语义空间中进行分类或预测。零样本学习对自然语言处理(NLP)等领域非常有用,它提供了灵活性,扩展了如Transformers和基础模型等预训练模型的应用。