GenAI步步紧逼，数据治理如何进化？（秃头进化）

数据治理涵盖一系列学科，包括数据安全、管理、质量和编目。这种做法需要定义使用策略、创建主数据源、分析数据集、记录字典以及监督数据生命周期。组织模型通常定义促进战略的首席数据官、制定数据集政策的数据所有者和负责提高数据质量的数据管理员的角色。

Precisly首席技术官TendüYogurtçu博士表示：“数据治理是数据完整性的关键要素，使组织能够轻松地发现、理解和利用关键数据，从而实现准确的报告和明智的决策。”“它提供了对数据含义、谱系和影响的理解，因此企业可以保持合规性，并确保人工智能模型由可靠的数据推动，以获得可靠的结果。”

Yogurtçu表示，数据治理曾经是一项专注于合规性的技术任务。”随着人工智能的日益普及，数据已成为最重要的企业资产，数据治理应成为整个企业的优先事项，”她说。

对于许多尝试GenAI或使用大型语言模型（LLM）构建应用程序的组织来说，数据治理责任更大，员工使用人工智能工具的风险更大，非结构化数据的范围也更广。我咨询了几位专家，了解数据治理必须如何发展，以应对生成人工智能工具和能力所固有的机遇和风险。

GenAI时代，组织获取和使用数据面临着新的风险、挑战和机遇。以下是数据治理团队应对这种情况的四种方式。

审查用于GenAI工具和LLM的数据政策

数据治理部门负责监督数据目录，并传达数据使用政策，以帮助员工访问集中式数据集并使用它们构建机器学习模型、仪表板和其他分析工具。这些部门现在正在更新政策，以确定是否以及如何在LLM和开放的GenAI工具中使用企业数据源。开发人员和数据科学家必须审查这些政策，并与数据所有者就使用数据集支持GenAI实验的问题进行协商。

“随着生成式AI带来更复杂的数据，组织必须拥有出色的数据治理和隐私政策来管理和保护用于训练这些模型的内容，”Egnyte联合创始人兼首席安全官Kris Lahiri表示。“组织必须特别注意这些AI工具使用了哪些数据，无论是像OpenAI、PaLM这样的第三方，还是公司可能内部使用的内部LLM。”

审查GenAI政策中关于隐私、数据保护和可接受使用的规定。许多组织要求在使用数据集进行GenAI用例之前提交请求并获得数据所有者的批准。在使用必须满足GDPR、CCPA、PCI、HIPAA或其他数据合规性标准的数据集之前，请与风险、合规和法律部门协商。

数据政策还必须考虑与第三方数据源合作时的数据供应链和责任。“如果发生涉及在特定区域内受保护的数据的安全事件，供应商需要明确他们及其客户的责任，以妥善缓解这种情况，尤其是如果这些数据旨在用于AI/ML平台，”EDB首席产品工程官Jozef de Vries表示。

对于那些对GenAI机会感到兴奋的人来说，重要的是首先了解他们组织的数据隐私、安全和合规政策。

加速数据质量提升

许多公司提供数据质量解决方案，包括Attacama、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS和Talend。2022年全球数据质量工具市场规模超过40亿美元，预计年增长率将达到17.7%。现在，许多公司都在尝试使用AI工具和LLM，我预计这一增长会更高。

“由于人工智能的质量仅取决于为其提供的数据，因此使用人工智能面临的许多挑战都与数据质量有关，”Piwik Pro首席运营官Mateusz Krempa表示。“数据质量差可能导致误导性或错误的见解，严重影响结果。”

Krempa表示，数据质量的挑战来自于大数据的体量、速度和多样性，尤其是现在LLM利用组织的非结构化数据源。希望开发内部LLM的公司需要将数据质量倡议扩展到从文档、协作工具、代码存储库和其他存储企业知识和知识产权的工具中提取的信息。

“数据治理不仅在为LLM系统提供大量数据方面正在发生变化，而且还在明智和安全地做到这一点，”Hakkoda数据治理负责人Karen Meppen表示。“重点是确保数据不仅规模庞大，而且智能——准确、可理解、注重隐私、安全，并考虑到知识产权和公平性的风险和影响。”

根据业务目标和数据类型，可以使用不同的工具来提高数据质量。

传统的数据质量工具：可以删除重复项、规范化数据字段、根据业务规则验证数据、检测异常并计算质量指标。

主数据管理工具（MDM）：有助于组织连接多个数据源，并为商业实体（如客户和产品）创建真实的来源。

客户数据平台（CDP）：是专门用于集中客户信息并启用市场营销、销售、客户服务和其他客户互动的工具。

预计会有升级和新的数据质量工具，以改善对非结构化数据源的支持，并增加针对GenAI用例的数据质量能力。

Matillion的首席信息安全官Graeme Cantu-Park的另一个建议集中在数据血统的重要性上。“人工智能将需要一种完全不同的方式来审视治理优先级和实践，以便更好地了解为AI应用程序和模型提供数据的数据管道和数据血统。”

数据血统有助于揭示数据的生命周期，并回答关于数据何时、何地、由谁、为何以及如何更改的问题。由于人工智能扩大了数据的范围和使用案例，了解数据血统对于组织中的更多人来说变得更加重要，包括安全和其他风险管理职能的人员。

审查数据管理和管道体系结构

除了政策和数据质量之外，数据治理领导者还必须将其影响力扩展到数据管理和体系结构功能中。主动数据治理提供了一系列功能，使更多的员工能够利用数据、分析——现在还有人工智能——来完成工作并做出更明智的决策。数据的存储、访问、产品化、编目和文档化方式都是组织将数据扩展到GenAI用例中的快速、轻松和安全的因素。Teradata首席产品官Hillary Ashton提出了以下方法来实现最令人兴奋的人工智能用例：

创建可重复使用的数据产品，或精心组织的已知良好数据集，以帮助组织更好地控制和灌输对其数据的信任。
尊重数据的重要性，使更多人能够访问信息，而无需在不同的环境中移动数据。
考虑到可扩展性的人工智能试点计划，包括具有强大治理的人工智能/ML数据管道，也可以实现开放和互联的生态系统。

数据团队的一个关键是确定易于使用并支持多个用例的框架和平台。Ensono总经理兼副总裁Sean Mahoney表示，“治理框架开始变得更加灵活，使团队能够更快地响应技术进步的步伐。”他建议数据治理领导者也要审查并参与这些工具：

用于将数据管理委托给创建数据的人的数据网格。
用于处理生成人工智能和LLM固有的可扩展性和复杂性的矢量数据库。
实时监控工具，可将数据治理扩展到更多系统。

另一个需要考虑的问题是，数据治理、管理和体系结构需要了解有关数据存储的全球法规。EDB的de Vries建议，“企业应实施全球分布式数据库，通过在其区域内保持高度监管的数据来提升其数据治理实践，同时在全球范围内分发限制较少的数据，以提高向人工智能平台提供数据时的灵活性。”

将数据治理扩展到GenAI工作流

数据治理职能部门还必须考虑，使用GenAI工具和LLM的使用政策和最佳实践。

例如，在本文的开头，我明确引用了ChatGPT，以便读者知道响应来自GenAI来源。良好的数据治理要求教育员工提高透明度的程序、允许他们使用的工具以及最大限度地减少数据隐私问题的做法。Forethink首席执行官Deon Nicholas表示：“我看到的最重要的事情是，在保持隐私和真实性的同时，准确利用、共享和学习数据的方法正在兴起。”

“例如，像Perplexity这样基于LLM的搜索引擎总是引用它们的来源，或者像Private AI这样的数据编辑技术，这些技术使你能够在接收或向LLMS发送数据之前清除和编辑PIl。”

数据治理领导者应该考虑的积极措施是创建即时库，员工可以在其中记录他们的即时用例并在组织中共享。该规程扩展了许多数据治理团队已经围绕维护数据目录和数据字典所做的知识管理实践。RelationalAI研究ML副总裁Nikolaos Vasiloglou表示，“LLM的训练语料包括通常存储在知识图谱中的简洁和精心处理的内容，以及通常以提示库形式存在的专家知识。虽然我们对知识图有良好的治理实践，但如何治理后者并不明显。”

我喜欢蜘蛛侠电影中流行的一句话，“有大的权力就有大的责任。”我们看到了GenAI能力的快速发展，问题是数据治理团队是否会站在他们一边。

参考链接：

https://www.infoworld.com/article/3713005/how-data-governance-must-evolve-to-meet-the-generative-ai-challenge.html