数据治理定义角色、职责和流程,以确保整个企业的数据资产的责任和所有权。
来源:Unsplash
一、数据治理定义
数据治理是一种系统,用于定义组织内谁对数据资产拥有权限和控制权,以及如何使用这些数据资产。它涵盖管理和保护数据资产所需的人员、流程和技术。
数据治理研究所将其定义为数据治理是一个规范信息相关流程的系统,通过明确的决策权和责任制,以及一套经组织共识并执行的模型,来指导和控制谁在何时、何种情况下,以何种方式使用何种信息,从而确保信息使用的合规性、有效性和安全性。而数据管理协会(DAMA)国际组织将数据治理定义为是对组织数据资产及其相关来源进行有效管理的一系列活动,包括制定规划、实施监督和执行控制,旨在提升数据价值,支持组织战略目标的实现。
二、数据治理框架
数据治理最好被视为支持组织总体数据管理策略的功能。这样的框架为您的组织提供了一种收集、管理、保护和存储数据的整体方法。为了帮助理解框架应涵盖的内容,DAMA将数据管理设想为一个轮子,以数据治理为中心,以下10个数据管理知识领域从中辐射出来:
1.数据架构:作为企业架构组成部分的数据整体结构和数据相关资源。
2.数据建模和设计:分析、设计、构建、测试和维护。
3.数据存储和运营:结构化的物理数据资产、存储部署和管理。
4.数据安全:确保隐私、机密性和适当的访问。
5.数据集成和互操作性:获取、提取、转换、移动、传递、复制、联合、虚拟化和操作支持。
6.文档和内容:存储、保护、索引和允许访问非结构化源中的数据,并使这些数据可与结构化数据集成和互操作。
7.参考和主数据:通过标准化定义和数据值的使用来管理共享数据以减少冗余并确保更好的数据质量。
8.数据仓库和商业智能(BI):管理分析数据处理并允许访问决策支持数据以进行报告和分析。
9.元数据:收集、分类、维护、集成、控制、管理和传递元数据。
10.数据质量:定义、监控和维护数据完整性并提高数据质量。
在制定策略时,应考虑数据收集、管理、存档和使用等上述各个方面。
【睿观:数据治理应被视为支持组织总体数据管理策略的功能。DAMA的数据管理轮模型是一个非常有用的框架,它以数据治理为中心,辐射出十个数据管理知识领域,为组织提供了一种全面管理数据的方法。下面对这个框架进行理解、优化和补充说明。
(一)DAMA数据管理模型的核心思想:
这个模型将数据治理置于核心位置,强调数据治理是统领所有数据管理活动的基础。其他十个知识领域则围绕数据治理展开,共同构成一个完整的数据管理体系。这意味着,任何数据管理活动都应该在数据治理的指导下进行,以确保数据的一致性、准确性、安全性和合规性。
(二)十个数据管理知识领域的理解和优化:
1.数据架构:描述组织的数据资产、数据流动和数据关系的高层蓝图。它定义了数据如何被组织、存储、访问和使用。
优化描述:数据架构是企业架构的重要组成部分,它定义了组织数据资产的整体结构和组织方式,包括数据实体、数据关系、数据流、数据标准以及数据管理原则,为数据管理提供顶层设计和指导。
2.数据建模和设计:将业务需求转化为数据结构的过程。它包括概念模型、逻辑模型和物理模型的设计。
优化描述:数据建模和设计是对数据进行分析、设计、构建、测试和维护的过程,通过创建概念模型、逻辑模型和物理模型,将业务需求转化为可实施的数据结构,为数据库的构建和数据应用奠定基础。
3.数据存储和运营:负责数据的物理存储、备份、恢复和维护。它确保数据的可用性和可靠性。
优化描述:数据存储和运营关注结构化物理数据资产的存储、部署和管理,包括数据库管理、数据存储介质管理、数据备份与恢复、性能优化以及容量规划等,确保数据的安全性、可靠性和高效访问。
4.数据安全:保护数据免受未经授权的访问、修改、破坏或泄露。它包括身份验证、授权、加密和审计等措施。
优化描述:数据安全旨在确保数据的隐私性、机密性和完整性,通过实施访问控制、加密、审计、漏洞管理等安全措施,防范数据泄露、篡改和丢失等风险,保障数据资产的安全。
5.数据集成和互操作性:将来自不同来源的数据整合在一起,并确保数据能够在不同的系统之间共享和交换。
优化描述:数据集成和互操作性涉及数据的获取、提取、转换、移动、传递、复制、联合、虚拟化和操作,旨在打破数据孤岛,实现不同系统之间的数据共享和协同,支持企业级的数据分析和应用。
6.文档和内容:管理非结构化数据,如文档、图像、音频和视频。它包括内容管理、记录管理和知识管理等方面。
优化描述:文档和内容管理关注非结构化数据的存储、保护、索引和访问,并使这些数据可与结构化数据集成和互操作,通过内容管理系统、知识库等工具,实现对非结构化数据的有效管理和利用。
7.参考和主数据:管理组织的核心数据,如客户、产品和供应商等。它确保数据的一致性和准确性。
优化描述:参考和主数据管理通过标准化定义和数据值的使用来管理共享数据,减少数据冗余,消除数据不一致性,提高数据质量,为企业提供统一的数据视图,支持跨部门、跨系统的数据共享和应用。
8.数据仓库和商业智能(BI):将数据用于分析和报告,以支持决策制定。
优化描述:数据仓库和商业智能(BI)关注管理分析数据处理,并允许访问决策支持数据以进行报告、分析和数据挖掘,通过构建数据仓库、数据集市等,为企业提供数据分析和决策支持能力。
9.元数据:描述数据的数据。它包括数据定义、数据结构、数据来源和数据血缘(lineage)等信息。
优化描述:元数据是关于数据的数据,包括数据的定义、结构、来源、质量、使用等信息,通过收集、分类、维护、集成、控制、管理和传递元数据,实现对数据的有效管理和理解,支持数据发现、数据集成、数据质量管理等活动。
10.数据质量:确保数据的准确性、完整性、一致性、及时性和有效性。
优化描述:数据质量管理关注定义、监控和维护数据完整性,并提高数据质量,通过数据质量规则、数据质量监控工具等,识别和纠正数据错误,提高数据的可信度和可用性。
(三)补充说明:
1.数据治理是核心:数据治理贯穿于所有这些领域,为它们提供指导和约束。它定义了数据管理的原则、政策、标准和流程。
2.相互关联:这十个领域之间是相互关联、相互影响的。例如,数据建模和设计会影响数据存储和运营,数据质量会影响数据仓库和BI的结果。
3.持续改进:数据管理是一个持续改进的过程。组织需要不断地评估和调整其数据管理策略和实践,以适应不断变化的业务需求和技术环境。
通过理解和应用DAMA的数据管理轮模型,组织可以建立一个全面、有效的数据管理体系,从而更好地利用数据资产,支持业务发展和战略目标的实现。】
商业应用研究中心(BARC)警告称,数据治理是一项高度复杂且持续进行的计划,而不是一项大爆炸式的举措,而且它有可能导致参与者随着时间的推移失去信任和兴趣。为了解决这个问题,BARC建议从可管理或特定于应用程序的原型项目开始,然后根据经验教训在整个公司范围内推广。
BARC建议采取以下步骤实施:
1.明确目标并了解利益
2.分析当前状态和增量分析
3.制定路线图
4.说服利益相关者并预算项目
5.制定和规划数据治理计划
6.实施数据治理计划
7.监视和控制
三、数据治理与数据管理
数据治理只是数据管理整体学科的一部分,尽管它很重要。数据治理涉及角色、职责和流程,以确保数据资产的责任和所有权,而DAMA将数据管理定义为一个总体术语,描述用于规划、指定、启用、创建、获取、维护、使用、存档、检索、控制和清除数据的流程。
虽然数据管理已成为该学科的常用术语,但它有时被称为数据资源管理或企业信息管理(EIM)。Gartner将EIM描述为一种综合学科,用于构建、描述和管理跨组织和技术边界的信息资产,以提高效率、提高透明度并实现业务洞察。
四、数据治理和人工智能
在新一代人工智能时代,旧的数据治理模式可能需要进行调整,以适应所需的自动化数据管道。同样,随着监管环境的发展,合规性可能会成为一个不断变化的目标。这些问题需要端到端的数据管理和数据治理策略,涵盖数据旅程的每一步:提取、存储和查询数据,分析、可视化和运行人工智能和机器学习模型。
AWS认为治理需要关注两个新兴领域:
许多LLM用例依赖于从非结构化数据源(包括文档、成绩单和图像)以及数据仓库中的结构化数据中提取的企业知识。非结构化数据通常存储在孤立的系统中,并且不像结构化数据那样严格地进行管理或治理。
与传统应用程序相比,新一代人工智能应用程序引入了更多的数据交互,需要将数据安全、隐私和访问控制策略作为新一代人工智能用户工作流程的一部分来实施。
有关这些问题和其他问题的更多信息,请参阅人工智能项目数据管理中需要做好的3件事。
五、数据治理的重要性
大多数公司已经对单个应用程序、业务部门或职能部门实施了某种形式的治理,即使这些流程和职责是非正式的。作为一种实践,它是关于对这些流程和职责建立系统的、正式的控制。这样做可以帮助公司保持响应能力,特别是当公司规模扩大到个人执行跨职能任务不再有效时。只有在企业建立了系统的数据治理之后,才能实现数据管理的几个总体优势。其中一些好处包括:
1.通过整个组织内一致、统一的数据提供更好、更全面的决策支持
2.制定明确的流程和数据变更规则,帮助企业和IT变得更加敏捷和可扩展
3.通过提供中央控制机制降低数据管理其他领域的成本
4.通过重复使用流程和数据来提高效率
5.提高对数据质量和数据处理文档的信心
6.提高对数据法规的遵守程度
六、数据治理的目标
目标是建立标准化、集成、保护和存储公司数据的方法、职责和流程。根据数据治理研究所的说法,数据治理计划的普遍目标包括:
1.实现更好的决策
2.减少运营摩擦
3.保护数据利益相关者的需求
4.培训管理层和员工采用常见的数据问题处理方法
5.建立标准、可重复的流程
6.通过协调努力降低成本并提高效率
7.确保流程透明度
根据BARC的说法,组织的主要目标应该是:
1.降低风险
2.建立数据使用的内部规则
3.实施合规性要求
4.改善内部和外部沟通
5.增加数据价值
6.促进上述事项的管理
7.降低成本
8.通过风险管理和优化帮助确保公司的持续存在
BARC指出,此类计划总是涵盖企业的战略、战术和运营层面,并且必须将其视为持续的、迭代的过程。
七、数据治理原则
根据数据治理研究所的说法,所有成功的数据治理和管理计划的核心都是八项原则:
1.所有参与者在相互交往中都必须保持诚信。在讨论数据相关决策的驱动因素、制约因素、选择和影响时,他们必须诚实坦率。
2.数据治理和管理流程需要透明度。所有参与者和审计人员必须清楚数据相关决策和控制是如何以及何时被引入到流程中的。
3.受数据治理约束的数据相关决策、流程和控制必须是可审计的。它们必须附有文档以支持合规性和运营审计要求。
4.他们必须明确谁负责跨职能数据相关的决策、流程和控制。
5.他们必须明确谁来负责管理活动,这些活动是个人贡献者和数据管理员群体的责任。
6.程序必须以一种在业务和技术团队之间、以及在创建和收集信息的人员、管理信息的人员、使用信息的人员和引入标准和合规性要求的人员之间引入制衡的方式定义职责。
7.该计划必须引入并支持企业数据的标准化。
8.程序必须支持参考数据值以及主数据和元数据的结构和使用的主动和被动变更管理活动。
八、数据治理最佳实践
数据治理策略必须进行调整,以最好地适应组织的流程、需求和目标。不过,有六个核心最佳实践值得遵循:
1.识别关键数据元素并将数据视为战略资源
2.为整个数据生命周期制定政策和程序
3.让业务用户参与治理过程
4.不要忽视主数据管理
5.了解信息的价值
6.不要过度限制数据使用
有关正确实施数据治理的更多信息,请参阅良好数据治理的6个最佳实践。
九、数据治理面临的挑战
良好的数据治理并非易事。它需要团队合作、投资和资源,以及规划和监控。数据治理计划面临的一些主要挑战包括:
1.缺乏数据领导力:与其他业务功能一样,数据治理需要强大的执行领导力。领导者需要为治理团队指明方向,制定组织中每个人都应遵循的政策,并与公司其他领导者进行沟通。
2.缺乏资源:数据治理计划可能会因预算或人员投入不足而陷入困境。数据治理必须由某人负责并付费,但它很少能自行产生收入。然而,数据治理和数据管理总体而言对于利用数据产生收入至关重要。
3.数据孤岛:数据会随着时间的推移而变得孤立和分散,尤其是当业务线或其他职能部门开发新数据源、应用新技术等时。您的数据治理计划需要不断打破新的孤岛。
有关这些困难和其他困难的更多信息,请参阅需要避免的7个数据治理错误。
十、数据治理软件和供应商
数据治理是一个持续进行的计划,而不是技术解决方案,但有些具有数据治理功能的工具可以帮助支持您的计划。适合您企业的工具将取决于您的需求、数据量和预算。根据PeerSpot的说法,一些比较受欢迎的解决方案包括:
1.Microsoft Purview数据治理:Purview门户是一个统一平台,用于管理和管理跨来源(包括Azure、Microsoft365、本地和多云环境)的数据。
2.Informatica智能数据管理云(IDMC):用于数据治理、元数据管理、屏蔽和转换,IDMC可实现主数据的集中化、管理ETL流程、确保数据质量并保持合规性。
3.Collibra治理:Collibra是一款企业级解决方案,可自动执行许多治理和管理任务。它包括策略管理器、数据帮助台、数据字典和业务词汇表。
4.Alation数据目录:Alation是一个企业数据目录,可自动按来源索引数据。其主要功能之一TrustCheck为工作流程提供实时护栏。TrustCheck专门用于支持自助分析,它为数据资产附加了指导方针和规则。
5.erwin数据智能(DI)用于数据治理:erwinDI结合了数据目录和数据素养功能,以提供对可用数据资产的了解和访问。它为这些数据资产的使用提供指导,并确保遵循数据政策和最佳实践。
6.Varonis数据治理套件:Varonis的解决方案可自动执行数据保护和管理任务,利用可扩展的元数据框架,使组织能够管理数据访问、查看每个文件和电子邮件事件的审计跟踪、识别不同业务部门之间的数据所有权以及查找和分类敏感数据和文档。
7.AtaccamaONE平台:该数据管理和治理解决方案支持数据分析、数据质量管理、数据集成、主数据管理和元数据管理,所有这些都有助于组织了解其数据的质量和结构。
8.SAS信息治理:通过结合数据管理功能和搜索工具,SAS信息治理使用户能够查找、分类和保护数据。
9.SAP数据治理:SAP数据治理整合和管理整个企业的主数据。它使用预构建的数据模型、规则、工作流和用户界面来帮助用户快速部署任务。
10.IBM数据治理:IBM数据治理利用ML来收集和管理数据资产。集成的数据目录可帮助企业查找、管理、分析、准备和共享数据。
十一、数据治理认证
数据治理是一个系统,但GRC认证和主数据管理认证可以帮助您的组织获得优势,其中包括:
1.认证治理风险与合规(CGRC)
2.认证信息管理专家(CIMP)主数据管理
3.数据保护认证(CDP)
4.认证公共部门数据治理专家(PSDGP)
5.风险与信息系统控制认证(CRISC)
6.风险管理保证认证(CRMA)
7.企业IT治理认证(CGEIT)
8.DAMA认证数据管理专业人员(CDMP)
9.数据治理和管理专业人员(DGSP)
10.GRC专业人士(GRCP)
11.信息治理专业人员(IGP)
12.主数据管理认证(MDM)
13.SAP认证应用程序助理–SAP主数据治理
有关认证,请参阅十大治理、风险与合规性认证和十大值得关注的主数据管理认证。
十一、数据治理角色
每个企业的数据治理结构不同,但也有一些共同点。
(一)指导委员会
治理计划遍布整个企业,通常始于由高级管理人员组成的指导委员会,通常是负责业务线的C级人员或副总裁。《获得治理:建立世界级数据治理计划》一书的作者MorganTemplar表示,指导委员会成员的职责包括制定具有具体成果的总体治理战略、支持数据管理员的工作以及让治理组织对时间表和成果负责。
(二)数据所有者
Templar表示,数据所有者是负责确保特定数据域内的信息在各个系统和业务线之间得到管理的人。他们通常是指导委员会的成员,但可能不是投票成员。数据所有者负责:
1.批准数据词汇表和其他数据定义
2.确保整个企业信息的准确性
3.直接数据质量活动
4.审查并批准主数据管理方法、结果和活动
5.与其他数据所有者合作解决数据问题
6.对数据管理员发现的问题进行二级审查
7.向指导委员会提供有关其数据领域的软件解决方案、政策或监管要求的意见
(三)数据管家
数据管理员负责数据的日常管理。Templar表示,他们是理解和传达信息含义和用途的主题专家,他们与整个组织的其他数据管理员合作,作为大多数数据决策的管理机构。数据管理员负责:
1.成为其数据领域的主题专家
2.识别数据问题并与其他数据管理员合作解决
3.担任数据管理委员会成员
4.就数据政策和委员会活动提出、讨论和投票
5.向数据所有者和数据域内的其他利益相关者报告
6.跨业务线开展跨职能工作,确保其域内的数据得到管理和理解