GPT-4如何与流数据融合为实时生成式AI赋能？

作者：IT168企业级发布时间：2023-07-24

如今，几乎所有企业都希望把ChatGPT纳入业务场景，但如何不会“竹篮打水一场空”，让技术真正为业务服务呢？实践说明，将ChatGPT的通用能力与企业自有数据需求结合在一起，是最快捷的落地方式！

大模型VS传统机器学习建模

试想一下，如果一家航空公司引入了人工智能技术，智能客服会在任何时间任意地点实时响应客户服务。比如：乘客要问把滑雪板带上飞机要多少钱？按照传统的服务方式，要转好几个流程，等很久，但ChatGPT可以在几秒钟给出答复。再具体一点，如果乘客的问题是，我的航班延误了吗? 我可以升级到头等舱吗? 我明天的班机还在候补名单上吗?传统的服务方式是，系统首先要确定你是谁，你要乘飞机去哪里，预订什么时候的机票?你订了哪家航空公司的机票?没有几分钟的时间，根本搞不定！但是通过OpenAI创新，无论多个性化的服务，都可以提供服务。

值得一提的是，单纯引入ChatGPT通用模型，并不能直接服务于业务，因为企业的个人数据无法与开放数据连接，自然无法应用于具体的业务场景，这也是很多企业基于通用模型建立私域模型的根本原因。所以，行业大模型的难点在于，如何安全地将内部数据提供给ChatGPT。

在传统机器学习建模中，大多数的数据工程都在模型创建阶段，企业需要一个特定的数据训练环境，并通过特征工程来获得正确的模型，一旦训练完成，企业就有了一个一次性的模型，它可以完成手头的任务，但除此之外别无其他用处。并且，大多数针对特定问题的经验和智慧，都是在实际训练时形成的。由于训练通常是批处理的，所以数据流也是批处理的，需要从数据湖、数据仓库或其他面向批处理的系统中输出。

但是对于大语言模型环境中，模型和数据的关系恰恰相反，大模型通常由一个巨大的通用数据集产生，通过深度学习算法进行一次端到端学习来构建，从而产生一个具有广泛能力和可重用性的模型。

这意味着OpenAI和Google提供的服务主要是基于可重用的预训练模型提供功能，而不是要求为每个问题重新创建模型。这就是为什么ChatGPT对这么多开箱即用的东西很有帮助的根本云原因。在这个范例中，当企业想要根据模型构建一些特定的应用时，可以在每个提示符中进行操作，数据工程必须在时间允许范围内进行操作。如此一来，数据流问题也从批处理转向实时处理。

数据流从批处理到实时处理的转换

那么，ChatGPT到底是如何与数据结合，进行工作的呢？ChatGPT，或者真正的GPT模型，基本上是一个非常大的神经网络，通过来自互联网的文本进行训练。也就是说，通过对大量数据的训练，GPT已经能够学会如何像人类一样交谈，并且非常聪明。

ChatGPT最吸引人的一个方面是，它可以记住之前的对话。例如，如果你问它“意大利的首都是什么?”，它会正确地回答“罗马”。如果你接着问“它成为首都有多久了?”，它就能推断出“it”指的是罗马作为首都，并正确地回答为1871年。它是如何做到的呢?

ChatGPT有一个叫做上下文窗口的东西，它就像工作记忆的一种形式。OpenAI的每个模型都有不同的窗口大小，由输入和输出命令的总和限制。当命令数量超过窗口大小时，最旧的命令将从后面删除。

但是回到前文所述的航空业务场景，我们建立智能客服大模型之前，必须收集所有可能与每个客户相关的信息。包括：客户的身份、即将为客户预订的航班、分配给该航班的飞机座位布局、当前航班的载客量、免费升级奖励积分等等，对于大多数公司来说，这些数据分布在不同的系统中，有不同的数据库、数据仓库、SaaS应用程序、队列和文件系统承载，其中大部分数据都不是为了以低延迟进行交互式查询而构建的，而且没有一个数据是为了便于整合而安排的。这些系统之间的通信是点对点的，因此很难获得统一的数据视图。

所以，Kafka事件流是将所有这些系统结合在一起的一个很好的解决方案。通过在每个客户发生变化时访问信息提要，我们可以构建每个客户的统一视图，并且该视图易于以低延迟的方式进行查询。Confluent的连接器可以很容易地从这些孤立的系统中读取数据。由于这些事件流通常包含一些原始信息，因此我们可以将这些数据处理成更精细的视图。流处理可以将单个流转换、过滤和聚合到更适合不同访问模式的视图中，最终将该视图放入关系数据库、键/值存储或文档存储中。

有人可能会说，我们为什么不使用矢量数据库，通过矢量数据库来360度展示数据，这样做不是更简单吗？答案是，对矢量数据库的查询基于嵌入之间的距离检索数据，这不是最容易调试和调优的事情。换句话说，当客户开始与智能客服聊天时，您绝对希望客服知道客户预订的所有航班信息。而不是想让它碰运气，得到一个不确定的回复。因此，在这个案例中，最好只按客户ID查询客户360视图，并将检索到的数据放在第一位。

当然，采取矢量数据库策略，也不是不可以。企业有这个技术能力，通过矢量数据库处理数据，获取正确的信息就变得简单多了。但是，在将提示发送到GPT之前，要对提示本身进行嵌入。然后，使用该嵌入并查询矢量数据库以获取相关信息。该查询的结果成为您添加到提示符前的一组事实，这有助于保持上下文窗口较小，因为它只使用相关信息。

相关资讯

华泰传媒：海外ChatGPT/GPT-4如何赋能应用

海外大模型助力用户活跃度增长，ChatGPT/GPT-4+应用或为最大机会 22年末以来，海外大模型快速更迭，ChatGPT/GPT-4向开发者开放API，且价格下探，带动应用层面持续落地，并从单一

ChatGPT GPT-4

金融界 2023-04-07

新京报 2023-10-27

GPT-4如何与流数据融合为实时生成式AI赋能？

推荐体验

相关资讯

华泰传媒：海外ChatGPT/GPT-4如何赋能应用

GPT-4全新发布，如何为虚拟数字人赋能

亚马逊云科技生成式AI技术赋能BI工具与数据分析

引领变革：生成式AI与数据中心的融合创新

人工智能如何赋能实时互动行业？业界大咖解读机遇与挑战

近期资讯

人工智能助跨境电商更好发展

Rokid 新一代 AR 眼镜将至：拍照翻译、实时导航、AI 语音聊天

空净十大品牌IAM“净润大师”新品首发亮相2024进博会

小米15Pro：徕卡镜头与骁龙8至尊版的完美结合，摄影性能双重王者

佛山市粤成机械制造有限公司取得双层时效炉装置专利，解决材料受热不均及减少能量消耗

任天堂不会追逐开发成本更重视前所未有的游戏创意

直降420元！vivo Y300 Pro：千元档全能王，超值入手正当时

安钛克推出 GSK 850W White 金牌电源：通体白色、定位中端

厦门乃尔申请角位移传感器的加工方法等专利，提高角位移传感器输出精度

小米SU7 Ultra标配激光雷达官方：智驾不可或缺

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响