今天分享的是AIGC系列深度研究报告:《AIGC专题:跨越ChatGPT大模型和AI2.0的未来演讲》。
(报告出品方:财经年会)
报告共计:20页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
WebGPT
搭建基于文字的页面浏览环境,教GPT3上网查询;
生成结果的同时生成引用来源;
相对GPT3改进:大幅提升生成内容信息量和事实性。
InstructGPT→ChatGPT
RLHF: 基于用户反馈的强化学习;
将语言模型的输出与用户的意图align起来。
持续多轮对话能力:
记住历史信息和人的反馈·拒绝不适当的请求·挑战不正确的前提·承认错误和无法回答的问题持续选代大幅提升了对用户意图的理解和结果的准确性;保持对话一致性;允许用户提供后续更正。
支持多种任务:
艺术创作:改写/续写故事,创作短剧、食谱;技术创作:编码,Debug,解释代码,iOS APP;办公学习:写办公邮件,写总结报告,写技术博客;逻辑推理&数学推理:SAT考试。
局限性:
可能会产生不正确的信息;可能会产生有害的指令或有偏见的内容;对 2021 年后的世界和事件的了解有限。
AI1.0:模型/编程为中心
训练用的数据是从机器学习发展过程中外生的。
聚焦模型特征,算法设计,和定型的结构设计。
AI2.0:数据为中心
数据的规模和质量日益成为获得理想结果的关键要素。
模型可以相对固定,主要关注数据的定义、管理、切割、扩充,增加、修正等。使得数据更有效。
有计划的标注、分类和迭代数据是关键。
专项领域的专家(SMES)参加是发展过程的内在组成部分,以专家的知识编码。
1.基础模型:Transformer成为基础架构,走出NLP,走向计算机视觉领域、AIforScience(特别是结构生物学蛋白质和RNA结构预测)和人工智能生成内容AIGC。[技术膨胀期]
2.生成式人工智能:Difusion Models突飞猛进,匹敌GAN。[技术膨胀期]
3.以数据为中心的人工智能:从模型为中心到数据为中心。[技术萌芽期]
4.因果人工智能:因果关系与人工智能的结合。[技术萌芽期]
5.复合型人工智能:“连接主义”(Connectionism)与“符号主义”(Symbolism)相结合。[技术萌芽期]
6.神经AI:神经科学与人工智能交叉研究。[技术萌芽期]
·随着大量数据的产生,科学数据已成为科学研究的关键成果和重要的战略性资源,科研也步入了数据密集型的“第四范式时代”。1998年图灵奖得主吉姆·格雷在2007年提出的科学方法革命的“范式转换”’。科学研究的范式可以分为四类,
·传统的实验归纳。
·模型推演。
·仿真模拟和数据密集型科学发现(Data-IntensiveScientificDiscovery)。
·新的信息技术已促使数据密集型科学发明,即科学研究的“第四范式”。
构建一个猜测或假设和有关联方面变量的模型,通常用观察到的大规模这些变量的实体价值,用数据主动的猜测产生模型。
DeepMind 构建一个由数学家和监督ML模型(NN)相互作用的两个工作流,数学家提出假设,(一个由两个变量的方程,投入inputX(z)and产出Y(z)).计算机产生大量数据的变量实体,NN模型模拟拟合数据,决定最接近的相关投入X(z),数学家进一步微调和优化假设。程序重复,直到假设被大规模数据支持。
报告共计:20页
海量/完整电子版/报告下载方式:公众号《人工智能学派》