DeepSeek R1的推出加快了大语言模型在生成式人工智能领域的商品化和多极化,使未来数据管理战略的重点转向了人工智能(AI)就绪度和数据主权。Gartner预测,到2028年,80%的生成式AI(GenAl)业务应用将在企业现有的数据管理平台上开发,从而使部署的复杂度和交付时间降低50%。到2028年,50%的AI数据管理工作内容将是管理数据主权和多极化AI所带来的偏见,使其至少符合三个地区的法规。
DeepSeek将其R1模型做成开源模型并显著降低了推理和训练成本,引领了大语言型格局的变革。其实在DeepSeekR1推出之前,大语言模型的价格在过去两年中就已大幅下降。
Gartner高级研究总监顾星宇表示:“这些创新势必引发一波成本和能耗下降,进一步压低大语言模型价格,加速模型的商品化。这一战略性举措不仅使大语言模型更加触手可及,而且促进了AI技术格局的全球演变。在这种情况下,特定的大语言模型将不再被视为企业取得GenAl成功的关键差异点。相反,其他企业难以获得或复制的独特内部数据将成为AI之旅成功的唯一竞争优势。”
图1:企业数据 – AI平台的价值金字塔
AI提供商的多极化给各企业机构带来了数据管理挑战,包括更复杂的数据主权和合规要求以及对影子AI和偏见的数据治理。企业必须积极加强数据管理战略,以降低风险并充分利用AI演进动态带来的机遇。
模型提供商的多极化需要更加稳健和合理的数据主权和合规管理
作为一家中国公司,DeepSeek利用其特定的训练数据,满足了中国及周边市场特有的语言、文化和监管要求。这种方法建立了一个独特的“极点”,使其区别于美国流行的GPT-4和Gemini,特别是在法律、政治、文化和技术方面,其中许多与数据有关。这种多极化引起了人们对AI治理和偏见的担忧,特别是在全球政治环境不确定的情况下。
Gartner研究副总裁孙鑫表示:“多极化生态系统有助于打破垄断控制,鼓励创新和韧性,但同时也需要有系统的数据管理框架,以及与数据生态系统供应商建立强有力的伙伴关系,以确保符合数据合规和数据主权的要求。”
知识源与大语言模型的脱钩已变得至关重要
一些GenAl的早期采用者已开始咨询如何用DeepSeek R1替换现有GenAI应用中的大语言模型,这表明他们之前用的与大语言模型紧密耦合的GenAI应用正在成为沉没成本。R1发布后不到两周,OpenAl和Google就分别于2025年2月1日和2月5日发布了最新的大语言模型——o3 mini和Gemini 2.0。企业不应将任何特定大语言模型(包括DeepSeek R1)视为其GenAl计划中的永久组成部分。
Gartner高级研究总监方琦表示:“数据和分析(D&A)领导者应该与AI领导者合作,采用更强健的架构,将大语言模型和企业内部知识源慢慢脱钩。集中管理AI相关的数据战略有助于减少知识孤岛,从而在AI计划规模扩大后提高数据治理的效率。”
将无监督AI使用作为企业运营的新常态
AI推理成本的大幅降低,减少了业务用户与企业数据交互的障碍。围绕DeepSeek的媒体宣传已经导致员工不受管理地使用DeepSeek应用(如移动设备和聊天机器人)。AI正势不可挡地涌向业务的每一个角落。在这种新常态下,以控制为重点的数据治理流程正迅速变得过时,并且会阻碍员工的数据驱动型创新。
数据编织领域的主动元数据,特别是运行时元数据(操作元数据和社交元数据)的管理,是使数据管理团队始终处于企业数据使用前沿的关键方法。Gartner高级研究总监顾星宇表示:“为了应对这些挑战,D&A领导者应优先考虑有助于跨平台输出和导入元数据的工具,从而支持更广泛的协调和优化。评估当前的数据管理能力对于支持高级元数据功能,尤其是运行时元数据共享和元数据标准,以确保互操作性。”
拥抱云部署,获得最佳数据 – AI平台
DeepSeek降低了推理成本,因此可以在各种基础设施(包括本地甚至个人计算机)上进行部署。然而,云数据生态系统提供了独特的优势,包括以较低的前期成本试验新数据管理技术的机会,以及快速适应新AI模式的能力。因此,当前总体趋势仍然倾向于GenAI应用的云部署。
在考虑部署涉及内部数据的GenAl业务应用时,企业应同时评估云部署和本地部署,以确定最适合其需求的方法。
提升数据管理团队的数据和AI素养,充分利用推理模型
DeepSeek R1仍然会产生幻觉,但其推理能力使人类能够以更透明、更高效的方式检查其输出内容。这意味着,在数值预测、代码开发、数据工程等重要业务流程中,GenAl的采用将逐渐增加,但要经过人工审查。
D&A领导者应该为这一变化做好准备,提高数据管理专家的技能水平,使其能够使用由推理模型赋能的AI增强功能。