当前位置:首页|资讯|人工智能|AI大模型

DB 大咖对话 | 数据要素与人工智能对我国数据库技术和产业的影响

作者:InfoQ发布时间:2024-06-28

2024 年,我国数据库正处于蓬勃发展期和关键应用期,在人工智能迅猛发展和数据要素市场化建设的浪潮下,为进一步推动全球数据库产业进步,“2024 可信数据库发展大会”将于 2024 年 7 月 16-17 日,在北京朝阳悠唐皇冠假日酒店隆重召开。

本次大会共设置 1 个主论坛和 6 个分论坛,具体包括金融、电信、能源 & 政务三大行业应用分论坛,以及人工智能与数据库融合、搜索与分析型数据库 & 多模数据库、数据库生态与国际化三大技术生态分论坛。如果你也在关注数据库的当前现状与发展趋势,“2024 可信数据库发展大会”你一定不能错过!报名通道已开启,欢迎提前扫码抢位。

在大会召开前夕,我们特地邀请了部分国产数据库的主要负责人和创始人,分别是涛思数据创始人 & CEO 陶建辉、北京自然原数科技有限公司创始人 & 首席科学家江晶、华为云数据库产品解决方案总监窦德明、阿里云数据库 AnalyticDB PostgreSQL & 生态工具产品部负责人周文超、金篆信科 GoldenDB 高级架构师陆天炜以及人大金仓解决方案总监李世辉,他们围绕云原生数据库、企业级关系型数据库、工业大数据管理、人工智能与数据库等议题,分享了各自的见解。

本期圆桌对话内容整理如下,供读者参考回顾。

1. 在金融、电信等企业级核心系统中,关系型数据库的应用现状是怎样的?

江晶:根据整体的替换情况来看,金融行业的替换速度相对领先,这也有赖于监管政策的持续推动。在全国上千家金融机构中,大家的规划、目标都非常明确,执行步骤也很清晰。

我们观察到金融、电信等企业在选型或者使用过程中的关注点是:第一,关注数据库功能在迁移后能否适配或完全兼容;第二,关注性能能否满足业务需求;第三,关注业务稳定性,即能否持续保障高可用和高可靠的能力,包括多活、灾备等等;第四,关注产品的标准化,即是否易于上手使用;最后,关注技术服务的支持力度,因为任何数据库产品在使用过程中都会遇到技术问题,厂商能否及时跟进,解决的效率与效果如何,也是用户关心的问题。

2. 您观察到工业大数据领域出现了哪些困境?也请您分享下您在开源领域深耕的心得体会

陶建辉:对于制造业来说,搭建一个大数据平台是十分复杂的,它不仅需要一个时序数据库,还需要 Flink 做流计算,需要数仓做批处理、做分析...... 由于其数字化程度相对较低,IT 能力也相对较弱,维护如此复杂的系统对于他们而言也是巨大的挑战。

为了减轻制造业搭建大数据平台的难度,除提供时序数据库,我们还开发了缓存、消息队列、流式计算等等,提供了一个简易的时序大数据平台。但我们仍然难达到行业的要求,因为在工业大数据管理领域,很多人不懂什么是时序数据库,他们希望得到完整的解决方案拿来即用,而我们是一家独立的时序数据库公司,提供不了最终的解决方案。因为我们希望把可视化报表、数据采集等应用层交给第三方公司做,我们只聚焦数据层面。我觉得这个方向是对的,一旦什么东西都做,定制化程度就会变得很深。

谈到开源的价值,这里我想分享开源带给我们的流量:由于 TDengine 的安装量很大,我们销售的线索几乎都来自公司官网,包括发电、烟草、石油等等。截止目前,2024 年通过官网联系产生的有效线索已经超过 900 个。

3. 在数据库替换过程中,企业无疑希望数据库及应用系统的平滑迁移,华为云数据库在这方面有哪些积累和经验?

窦德明我认为数据库的迁移不是简单 1:1 的替换,而是企业 IT 基础设施更新换代的过程,需要多个角色一起协作共同完成。在迁移过程中,主要会面临应用改造周期长、迁移效率低、数据不一致等各种挑战。为了应对这些挑战,华为云数据库团队开发了 GaussDB 配套工具 UGO,它能够自动化地将源数据库中的 DDL、DML 和 DCL 转换为 GaussDB 支持的语法,通过数据评估和对象迁移功能,提前识别潜在的改造工作,提高转化率,最大化降低迁移成本。

此外,华为云还提供了数据复制软件 DRS,利用 CDC 技术实现数据的实时同步,确保数据的零丢失和迁移的时效性。在业务验证方面,DRS 提供一个高级特性流量录制回放,可以捕获源数据库应用下发的的所有 SQL,并在 GaussDB 中进行回放,以评估迁移后的 SQL 性能,必要的情况下再进行调优。UGO+DRS 一站式迁移解决方案,涵盖了迁移评估、SQL 自动转换、SQL 审核、数据在线迁移、数据智能比对、SQL 录制回放,以及数据修复能力,最大程度保证迁移的平滑。同时,在迁移之前,我们会进行详尽的调研和可行性评估,以提前识别迁移风险。迁移完成后,客户的参与同样重要,需要应用开发人员基于应用的测试用例来自动化验证割接的准确性,确保全流程没有问题。

4. 作为国家智库和行业平台的大数据领域负责人,您觉得数据库领域未来会有朝着哪些趋势发展?

姜春宇:第一,我认为云原生能力将继续发展,云厂商的数据库将提供更极致的弹性和性能,这是数据库技术发展的一个持续趋势;第二,智能化趋势日益显著,AI 大模型的崛起对传统的 IT 架构、数据架构和业务架构产生了深远的影响,面向 AI 的数据库将在未来扮演重要角色。例如,向量数据库和多模态数据管理的兴起以及交互方式的变化,都是智能化趋势的体现,除此之外,以 Text2SQL 为代表的自然语言交互管理数据库也是目前人工智能与数据库落地应用的重要方向;第三,软硬件协同优化将成为数据库发展的一个重要方向,随着数据库性能和稳定性达到一定瓶颈,单纯的软件优化可能不再足够,需要与新兴硬件结合进行更深层次的优化,以应对单靠软件难以解决的问题;此外,还有一些新兴的技术方向值得关注,如时序数据库、时空数据库以及车联网和自动驾驶等极端场景下对数据时延的严格要求。

5. 在云计算、大数据和人工智能等技术的推动下,大家认为数据库技术会迎来怎样的发展格局?

江晶:数据库领域正在紧跟大模型技术,尤其在人工智能对数据库本身的研究和研发方面,我认为可以快速落地的几个方面包括:自动实时动态调整数据库参数、人机交互方式的优化、SQL 写法和执行计划的内部调整,以及查询优化器的智能化构建。这些方向将减少对时效性和人为要求的依赖,提高数据库的性能和用户体验。

陶建辉:从时序数据库的角度来看,我认为大模型与数据库的结合主要体现在应用层的优化,尤其是在时序数据的预测和异常检测方面。尽管目前大模型在这些领域的应用效果尚未达到惊艳的水平,但我们仍然在积极探索利用大模型来提升预测准确性和异常检测的效率。

窦德明:我认为 AI 技术在数据库领域的应用不仅仅局限于内核侧,还可以用来提高迁移效率和运维效率。例如 SQL2SQL,通过 AI 技术将一种数据库的 SQL 自动转换为另一种数据库的 SQL,以及利用 AI 技术快速定位、定界乃至修复数据库问题,当然还有很多其他结合点,比如 AI 异构硬件加速等。

6. 国产数据库若想赶超国外领先产品,应该在哪些层面拉开竞争优势?

李世辉:随着数字化转型的深入,新的数据模型和数据类型不断涌现,为国产数据库提供了巨大的发展机遇。在这些新兴领域,国内外产品在技术积累上并没有显著的差距,我们有机会通过创新和快速适应市场变化来获得领先地位。首先,国产数据库需要关注海量数据处理和多模态融合计算等新兴产品的发展,这些领域目前尚未出现能一统天下的产品;其次,数据库的架构设计至关重要,国产数据库应该充分利用当前软硬件技术的快速发展,重新构建、优化数据库架构,以适应新的部署环境;此外,国产数据库还应该加强与本土市场的结合,深入了解国内用户的需求和使用习惯,提供更加符合本土市场特点的产品和服务。

姜春宇:首先,政策的红利是一个不可忽视的因素,它为国内数据库厂商提供了市场空间和发展机遇;其次,国内有丰富的业务场景,如互联网、金融、电信和电力等,为数据库厂商提供了大量的实践机会。这些场景的业务量大,复杂度高,对数据库的性能、稳定性和可靠性提出了更高的要求。这样的考验实际上对国内数据库厂商的产品能力和服务能力进行了有效的锻炼和提升;

此外,国内软件行业的快速发展得益于工程师的红利。过去几十年,中国培养了大量优秀的软件工程师,这些人才在开源社区的推动下,能够快速学习并掌握先进的架构和编码技能,形成了强大的工程技术能力;

最后,国内数据库企业的崛起还得益于本地化优势。与国际厂商相比,国内厂商更接近本土市场,能够更快地响应客户需求,提供定制化的解决方案和原厂支持服务;服务体系的构建也是国内数据库厂商成长的关键。随着产品体系的不断成熟,国内厂商也在逐步完善服务体系,包括实施交付、运维运营、人才培养等。这些服务不仅提高了产品的可用性和易用性,也为行业输送了大量懂得使用和维护数据库的人才。

7. 如何推动国产数据库落地和市场接受度,人大金仓有哪些经验可以分享?

李世辉:首先,针对客户对国产数据库的疑虑,我们从客户的痛点出发,总结出客户不愿用、不会用和不敢用的三个主要问题,构建了全流程的迁移解决方案,包括系统适配到测试验证,推出了"三低一平"的解决方案,即低成本、低难度、低风险的平滑替代,帮助客户减少迁移过程中的顾虑。

其次,人大金仓提供了基于 Oracle、SQLServer、MySQL 等异构数据库的原生兼容能力,以及一体化的智能迁移方案,包括数据库对象迁移、数据迁移和数据一致性比对等;对于不敢用的问题,人大金仓提供了数据在线比对方案和双轨并行方案,确保客户在迁移过程中的业务连续性,减少风险。

接着,人大金仓构建了一套可以让产品快速迭代的体系,简单来说有三个部分:第一部分是高内聚、低耦合的产品架构;第二部分是我们构建了一个专业化、标准化的研发体系,以解决大规模团队协同开发的效率的问题;第三部分是我们打造了一个产品测试的自动化工厂,保证我们的产品的质量能够保持稳定。正是有了这个体系,让我们在面对客户需求的时候能够快速响应,更容易获得客户的信任。

最后,在项目实践上,我们与行业 ISV 进行核心产品的适配,通过与客户核心系统的验证,提高客户对产品的信任度,从而降低项目替代的风险。

8. 我国云原生数据库是否已经实现了“弯道超车”?未来云原生数据库有哪些技术发展方向?

周文超:无疑,云原生数据库技术的发展为中国数据库行业提供了实现"弯道超车"的新机遇。云计算的兴起改变了传统软件系统的基本逻辑,尤其是在资源的池化、解耦以及弹性、高可用性、容器化部署和智能化运维等方面。这些核心能力让云原生数据库在业务高峰期能够支撑峰值负载,同时在低峰期避免资源浪费。

展望未来,我认为云原生数据库的技术发展方向主要包括以下几个方面:一是云原生化,进一步解耦资源,实现更高效的弹性能力。例如,阿里云的 PolarDB 产品实现了计算、内存和存储的三层解耦,可以让数据库独立地进行资源的弹升和弹降,降低资源成本;二是平台化,软件和硬件的协同设计,利用硬件如 RDMA、FPGA 等提升性能和效率。例如,通过在存储设备上使用 FPGA,可以在数据写入时进行透明的压缩和解压,优化存储资源的使用;三是一体化,满足客户对多模态数据融合的需求,例如通过 Zero-ETL 或 HTAP 技术,减少数据在不同处理需求间的转换成本,提高效率;四是智能化,结合 AI 技术,提升数据库的自动化服务能力。例如,利用自然语言处理技术将自然语言转换为 SQL 语句,使数据库能够更好地服务于 AI 应用,同时利用 AI 技术优化数据库的运维和管理。

9. GoldenDB 在金融、电信等行业的核心系统应用情况表现如何?

陆天炜:GoIdenDB 作为金融核心业务的新型数据库解决方案,在金融市场的应用主要聚焦于传统银行业务的替换,如存款、贷款、核算、客户产品计价和总账等关键业务;在证券行业,GoIdenDB 的应用场景扩展到了实时交易之外的领域,如每日的数据上载,上场、复杂查询、营销系统等,GoIdenDB 能够提供与内存数据库相接近的性能,同时保证数据的持久化和一致性。自 2014 年进入金融行业以来,GoldenDB 已经在多家银行实现了核心系统的数据库下移,成为首家支撑大型商业银行核心系统的国产数据库产品。

10. 人工智能与数据库融合发展最先有可能在哪些方向规模化落地?

李世辉:我认为规模化发展取决于市场价值,而市场价值源于需求。随着人工智能技术的快速发展,数据库与 AI 的结合成为推动数据库技术发展的一个重要方向。这种结合主要体现在两个方面:AI FOR DB 和 DB FOR AI。

DB FOR AI,即数据库服务于 AI,是指数据库技术为 AI 应用提供支持,例如通过数据库内置的 AI 计算能力来优化数据处理和分析。目前,许多主流数据库已经具备了 AI 计算能力,这表明 DB FOR AI 的规模化落地可能会更快一些。国外一些数据库厂商甚至已经将 AI 技术与硬件如 GPU、FPGA 等算力结合起来,构建了强大的支撑平台。随着人工智能需求的增长,以及云平台大规模基础设施的部署能力,DB FOR AI 的条件已经相当成熟,预计在业界的落地将会比较迅速。

而 AI FOR DB,即 AI 技术提升数据库内部能力,虽然在数据库的多个环节中都有应用,但相对来说,其发展和应用可能会慢一些。这是因为传统的数据库技术已经非常成熟,经过几十年的发展和优化,AI 技术要想在这些方面取得突破,还需要时间来逐步发展和完善。尽管如此,AI 在数据库的智能运维等方面已经开始发挥作用,许多小的结合点已经展现出 AI 技术的价值。

周文超:一方面,AI FOR DB 在学术界和产业界早已有大量的研究,比如如何使用 AI 来创建智能化的索引,如何优化索引的选择、提高表的 Cardinality 和大小估计的准确性等。最近,随着大语言模型出现,使得 AI FOR DB 在识别和理解用户意图方面进步显著。

另一方面,DB FOR AI 强调了数据库技术在支持人工智能应用,尤其是在推理阶段的重要性。与训练阶段相比,推理阶段更依赖于高效的数据存取和处理能力,结合异构计算硬件(如 GPU、FPGA),数据库在 AI 推理方面能实现更高效、成本更低的解决方案,为数据库技术在未来的发展开辟了新的可能性。

陆天炜:在 AI FOR DB 中,DB 为主体,AI 作为增强。DB 在设计之初就要求准确和稳定,AI 结合人类经验和机器学习来确保这一目标。在 DB FOR AI 方面,AI 作为目标,DB 作为实现工具,尤其在机器训练中,数据标注的存储,训练的语言,DB 都可以发挥作用。在 GoIdenDB 中,AI 不仅用于智能运维,还用于产品测试阶段,通过根据生成测试 SQL 集,来保障优化数据库的质量。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1