随着AI的逐渐普及,人们对它的重要性有了越来越清晰的认知,也产生更强的需求。尤其是企业用户,更希望利用AI的能力为自己的业务提供助力。
但是企业用户们在使用AI的过程中逐渐发现几个痛点:自有非结构化数据的清理问题,AI模型与自身业务的适配问题,AI模型的可控性问题,数据的隐私问题。
Dataiku的创始人Florian Douetteau很早就发现了这些问题。Dataiku被定义为一站式的数据和AI管理及可视化平台,从数据的收集和清洗到模型的建立与可视化,再到数据与模型的可控性,都能在一个平台上完成。
Dataiku目前是估值37亿美元的独角兽,它也连续多年被Gartner评为“数据科学和机器学习平台魔力象限”中的“领导者”,并入选CB Insight的“AI 100”和福布斯的“Cloud 100”、“AI 50”等榜单。同时,Dataiku也在人工智能方面与数据湖和数据仓库领域的领导者Snowflake、Databricks深度合作。
目前生成式AI的创业浪潮中,具有超强技术能力的创业者通常会训练自己的大模型并打造应用,具有产业背景的创业者会着眼于将大模型能力用到自己深耕的细分行业中。Dataiku则结合了数据和AI两方面,希望帮助企业用好自己的数据,打造符合企业业务需求的AI模型,并让AI模型更透明,更可控,企业的数据也得到更好的保护。
Dataiku创始人Florian Douetteau的创业初衷是希望任何企业都能像Meta和Google这种科技巨头一样,将数据和人工智能的能力变得简单和常态化。所以他认为企业不应该用多个不同的工具来管理数据和使用人工智能能力,于是打造了Dataiku这个一体化的平台。
Dataiku的平台包含了从数据准备,机器学习到数据分析应用,使用安全性的全流程。它的典型功能包括:
数据准备-使用可视化配方和生成式AI来清洗、连接、转换和丰富各种类型的数据集。
可视化-通过使用Dataiku的内置能力进行数据分析并生成数据报告。
AutoML-通过引导框架来加速AI和机器学习的模型开发过程,这个框架包括预测、时间序列预测、计算机视觉任务、因果ML等。
DataOps-每个Dataiku项目都有从头到尾的数据转换和移动的可视化流程。
MLOps-在单一平台上开发、部署、监视和维护机器学习模型。
分析应用-创建分析仪表板和数据产品并使商业用户的日常决策变得更容易,这些应用包括生成式AI应用、结果优化的假设分析和交互式网络应用。
可解释性-Dataiku提供了关键的可解释AI能力,包括特征重要性的交互式报告、子群体分析和单个预测解释。这些技术共同帮助解释模型如何做出决策,并使数据科学家和关键利益相关者理解影响模型预测的各种因素。
安全性-通过企业级安全性管理风险,包括SSO和LDAP身份验证、基于角色的访问控制、审计追踪以及可以在用户、连接、项目、计算和全局等级运行的多种精细权限。
可扩展性-通过公共和专有插件以及自定义应用程序,扩展Dataiku的原生能力,例如将NLP、计算机视觉和生成式AI的领先AI服务纳入Dataiku平台并为客户提供帮助。
Dataiku的平台包含了AI从数据,模型到应用的全流程,并且具有对于企业用户十分重要的可解释性和可控性。
特征工程- 特征是训练模型需要用到的规则和属性,例如在自然语言处理任务中,特征可能包括单词、短语、语法规则。数据科学家可以使用Dataiku特征存储库中的参考特征集,并将它们导入到自己的项目中。
通过AutoML创建和交付模型- Dataiku通过指导方法、内置防护措施以及白盒可解释性增强了模型开发过程,因此数据科学家和分析师都可以构建并比较多个可用于业务流程的AI模型。
模型验证和评价- Dataiku AutoML提供了用于验证和评估模型的众多功能,从设计到部署。它会生成一系列交互性的性能和解释报告,包括公平性分析、如果分析和压力测试,提供了团队需要的工具,以解释结果并负责任地交付可靠、准确的模型。
因果机器学习(Causal ML)提升建模- 这项技术能够更准确地理解输入到输出的关系。它使数据团队能够专注于结果以及特定群体中的因果关系,增强对建模结果的理解,同时改善零售和营销案例、融资贷款、医疗治疗和临床试验、人力资源等的应用结果。
监控与漂移检测- 一旦AI项目在业务环境中启动并运行,Dataiku就会监视流程以确保所有流程都按计划执行,并在存在问题时向运维人员发送警报。
模型重新训练和比较- 进入业务流程的AI模型需要根据新数据或变化的条件进行定期更新。团队可以手动重构模型,也可以基于计划或特定触发器(如重大数据或性能漂移)设置自动重新训练。
借助Dataiku中全面的模型比较,数据科学家和ML运维人员可以对候选模型进行冠军/挑战者分析,从而就部署到生业务流程中的最佳模型做出明智的决定。
与生成式AI服务的集成- Dataiku能与包括OpenAI的GPT系列模型及包括Cohere,Anthropic等多家大模型公司的商用模型通过插件集成,并为客户提供丰富选择。
在集成了生成式AI的大模型后,Dataiku不仅能够使用它们的能力(例如文本分类、问答、文本摘要),而且能够提升这些大模型的使用体验。例如,它可以直接在后台集成经过优化的提示词,避免了用户反复迭代和查询以获得高质量结果的复杂过程。
它可以将生成式AI大模型接入到客户自有的完整数据集,并且嵌入到客户的业务流程中。
它也允许使用开源的或私有部署的大模型,并能利用外部工具增强这些模型。
Dataiku的新用例
Dataiku可以用在金融,销售,营销,甚至生产制造领域,而且在交互上有革新。客户不再想看各种各样的复杂仪表板,因为其实这也并不利于定位问题。当客户遇到某个特定问题时,它可以直接提问。例如,装配线3的质量下降了,可能是什么原因?Dataiku的数据分析和AI能力可能就会返回与这个问题相关的内容和建议,帮助解决问题。它能帮助技术专家们更深入的发现、研究并解决问题。
对于未来企业软件的想象,Dataiku创始人Florian Douetteau希望它能够混合视觉和文本,以及潜在的代码表示,客户利用点击或代码与计算机对话,并进行问题的定位和导航,然后完成工作。
Florian Douetteau认为通用生成式AI的有趣之处在于:它就像一块新的乐高积木,为许多垂直行业应用程序提供了新一代的工具。这些垂直行业应用程序可以使用和构建专门的代理,结合多个AI模型和一些业务规则,以智能的方式加速或自动化以往乏味的人工任务。
这会产生很多新一代的创业公司,他们将只专注于解决业务问题,并找到最快的解决方法,而不一定需要具备AI博士学位或部署经验,也不必花费天价的模型训练和部署成本。
在与客户公司的CEO深度交流中,Florian Douetteau发现:他们一边对AI的能力跃跃欲试,因为如果不使用AI,就会被那些更早拥抱AI的对手“干掉”。另一边,他们对于AI的可能性和风险有一定顾虑,这种顾虑主要是合规性因素和监管风险。
海外市场,生成式AI的创业投资已经从基础大模型转向了应用,而随着它应用得越来越广泛,企业在享受AI好处的同时,也会对它的使用成本,数据隐私性,可解释性乃至于是否合规等问题提出疑问和挑战。
在中国市场,“百模大战”结束之后,也同样会进入应用百花齐放的阶段,中国的企业客户们同样会对以上问题产生需求。进入企业市场,让AI更易用,更透明,更可控,应该是未来一个非常有潜力的创业方向。
本文由阿尔法公社原创。
本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:发现非凡创业者的,36氪经授权发布。