你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
ChatGPT:生成式人工智能时代数据战略的新挑战
作者:CIO.com&睿信咨询 来源:CIOCDO 发布时间:2024年04月16日 点击数:

在应用人工智能及其生成子集时,CIO必须预见并处理整合到现有企业系统的问题。错误的数据比缺失的数据更有害,因为它会导致错误的决策。即使在人工智能模型的训练中,数据的正确性和质量也是可靠的训练和结果的基础。欧洲AI法案也是如此。首席信息官(CIO)正致力于引导他们的企业实现成熟的数据管理,这可能被证明能够开启新的成长机会。人工智能突显了需要一种策略,该策略包括数据质量、数据所有权、共享和互操作性等概念:只有这样,数据才能成为为商业创造价值的资产。


图片来源:GETTY IMAGES

根据米兰理工大学管理学院大数据与商业分析观察所的数据,意大利公司在数据管理和分析的基础设施、软件和服务方面的投资增长了18%(2023年达到28.5亿欧元),但有多少公司达到了数据成熟度?


报告中包含的数据战略指数显示,只有20%的大型意大利公司拥有先进的数据战略。然而,与2022年的15%相比,这一比例正在增长。此外,考虑到中小型企业,"不成熟"企业的比例缩小到了32%。这也得益于生成式人工智能的推动:ChatGPT前所未有地突显了拥有高质量数据以训练算法的重要性。换句话说:当CIO努力构建坚实的企业数据战略时,人工智能和生成式AI将挑战提升到了新的水平。


“通过定义涉及所有企业参与者和专门的测量工具的过程,来获得数据质量,”意大利国家工伤保险机构(INAIL)的数据与分析办公室经理Francesco Saverio Colasuonno强调。 “为改善数据质量采取的后续行动可以是过程上的,也可以是应用上的,并包括围绕数据治理定义一个组织模型,为各种涉及人员(数据科学家、数据工程师、数据所有者、数据管理员等)分配明确的角色和任务。


这使得有一个责任制度(谁负责数据的准确性?)并能正确地指导那些将在数据价值链中担任特定角色的人的培训路径。


数据是企业的重要资产,其管理和分析是寻找和量化该资产价值的过程。将这些数据分析的输出实施到业务战略中,就是激活那个价值。IT是使整个过程成为可能的工具,”拥有包括医疗和制造业在内的企业资深经理经验的企业数据架构师Gianpaolo Vitulano表示。


从这个角度看,根据Vitulano的说法,ChatGPT的出现引入了一个巨大的机遇:“生成式AI在数据治理中有所帮助,并因此激活数据的商业价值。”


如何衡量数据战略的成熟度 米兰理工大学的数据战略指数通过衡量三个领域来评估公司的成熟度:数据管理与架构(技术管理、数据整合和信息资产治理的手段、技能和过程)、商业智能与描述性分析(基础BI工具和技能)以及数据科学(基于数据分析的预测性和优化分析)


在公共管理领域,有一个额外的参数进入了数据治理:关于开放数据的成熟度。2023年,意大利在欧盟国家排名中位列第7位,成熟度水平为92%(较上一版提高了一个百分点)。这个指数衡量的是各国推动数据公开和重复使用的能力,符合2019/1024 EU关于开放数据的指令。它基于自我评估测试,但可以指示对公共管理机构来说,拥有明确的数据策略、影响度量和确保质量的能力有多么关键。


意大利国家工伤保险机构(INAIL)拥有大量的数据资产,是积极实施数据治理的公共机构之一,包括互操作性要求、人工智能项目和生成式人工智能实验。数据战略和数据治理不仅基于技术,还涉及文化和组织方面:因此,自2015年以来,国家工伤保险机构已将其IT功能转变为一个真正的数字部门。


Colasuonno强调,“这证明了技术创新和组织创新必须并行进行:没有可以脱离技术的组织创新项目,同样,数字化带来了对组织和流程的创新。”


一、数据策略的工作组和数据生态系统


意大利国家工伤保险机构(INAIL)的数据策略在操作上转化为一个由10个“模块”组成的项目架构,每个模块都专注于数据策略的一个具体焦点(例如架构、数据织物(data fabric)、数据网格、人工智能、商业智能、与国家平台的整合、数据质量、语义模型等),工作组包括IT和更广泛的商业代表。


【睿观:数据策略个焦点领域都是数据策略的关键组成部分,为企业提供了一套完整的视角和方法来处理和利用数据。通过专注于这些领域,企业能够更有效地管理其数据资产,激发数据的潜力,并实现数据驱动的转型。

1. 架构

  • 架构关注于如何构建和维护数据流通的基础设施,包括数据的收集、存储、处理和分发。理想的架构应该支持高效的数据访问和分析,同时确保数据的安全性和合规性。

2. 数据织物

  • 在数据管理领域,“数据织物”是一个较新的概念,其核心目的是创建一个灵活、可扩展且高度整合的数据管理环境,支持数据的实时访问和分析。数据织物设计是为了使得数据的存储、管理、分析和使用可以在跨越不同数据中心、云服务和边缘位置的广泛分布式环境中无缝进行。数据织物的特点包括:

    (1)集成性它能够整合来自多个源,包括传统数据库、现代数据湖、实时数据流和无结构数据的数据。

    (2)抽象化数据织物通过提供统一和抽象的数据访问层来隐藏底层的复杂性,使得最终用户和应用程序不需要关心数据实际存储的具体技术细节。

    (3)自服务数据访问数据织物通常支持数据自服务能力,允许业务用户直接访问和分析数据,而无需经过IT部门的复杂查询和数据提取过程。


    (4)数据治理和安全性数据织物内建了数据治理的工具和策略,确保数据的质量、合规性和安全性不会因为其高度分散和开放的特性而受到威胁。

    (5)支持多种数据处理和分析数据织物支持包括机器学习、流处理和批处理在内的多种数据处理和分析技术。

    总之,数据织物不是一种具体的技术或产品,而是一个全面的架构和方法论,旨在解决现代复杂的数据环境中的挑战。通过构建数据织物,组织可以加速数据驱动决策的过程,并更好地实现数据资产的价值最大化。

3. 数据网格

  • 数据网格是一种组织模型,旨在结合分布式的数据资源、技术、应用和人员,支持数据的共享和协作。数据网格的目的是去中心化数据管理,使数据的消费变得更接近数据的生产地点,从而提高灵活性和响应速度。

4. 人工智能

  • 人工智能(AI)关注于使用算法来模拟人类智能的各个方面,包括学习、推理和自我修正。在数据策略中,AI可以用来提高数据分析的深度和广度,自动化决策过程,并通过预测分析来提升业务的绩效。

5. 商业智能

  • 商业智能(BI)是用于分析和报告业务信息的技术和实践。它利用数据集、软件和服务来转换数据成有价值的洞察,帮助企业做出更加明智的决策。

6. 与外部平台的整合

  • 与其它平台的整合涉及将企业数据战略与外部数据平台和政策框架相对接,以确保合规性、数据共享和互操作性。这种整合可以帮助企业更有效地参与到外部项目、标准和规则中去,提高数据的社会经济价值。

7. 数据质量

  • 数据质量管理是确保企业数据准确、完整、可信和适时的持续过程。高质量的数据是进行有效数据分析、实现数据治理和满足业务目标的基础。

8. 语义模型

  • 语义模型试图以一种更贴近人的理解方式来表达数据之间的关系和含义。通过使用诸如本体(ontology)、分类和语义网络等工具,语义模型能够增强数据的互操作性和可发现性,帮助机器和人更好地理解和使用数据。


Colasuonno声明,“IT认为可以单独进行数据治理项目是一个严重的错误,没有业务部门的宝贵贡献是不行的。”他说,“今天我们不能再按照孤立的方式前进:IT必须在数据管理中让业务部门参与进来,让这些功能在阅读和分析信息时拥有信任和自主权。为此,采用一个共同的词汇是关键,它能够消除两个功能之间的距离。”


INAIL在2023年定义的数据策略密切关联于开放数据的范式。目标是发展与数据管理和使用相关的技术和执行能力,不仅在机构内部,也在整个生态系统内,因为INAIL必然需要与公共行政的其他部分进行对话。因此,数据策略与负责公共行政数据治理的实体共享,特别是数字化转型部、AgID和意大利国家统计局(Istat)。为确保互操作性,采用了公共数据平台,如PDND(国家数字数据平台)。


Colasuonno解释说,“在数字化过程中,‘数据利他主义’的概念正在成形:信息不属于实体,而是属于公民和企业,它们必须有可能在尊重隐私和安全的前提下使用这些信息。”他说,“另一方面,开放数据为公共和私人运营商提供了基于数据创造特定服务和产品的可能性,例如,用于预防事故和健康安全的护理管理。


二、数据平台在关键任务流程中的作用


正确实施数据策略使公司能够访问对经济结果有用的知识库,Enterprise Data Architect Vitulano强调。“可以识别减少成本和时间的过程,通过引入更多的自动化,以及最有前景的市场,对于我们想要提供的产品类型,或者那些因为流失风险而需要采取行动的客户,以及提供最高质量原材料的供应商,等等”,Vitulano强调。


Colasuonno确认数据策略“与数字战略紧密连接并起功能作用”:它应服务于超越IT实现的目标。这个过程从识别“关键数据”开始,即追求数字化目标的基础数据,并继续确定要发展的技术、文化和组织能力。方法的定义导致了技术选择,对于INAIL来说意味着能够实现数据虚拟化的可扩展架构。事实上,在数据策略中,CIO经常需要在数据的物理映射(复制)和虚拟化数据的逻辑架构之间做出选择。


“对我们来说,虚拟化数据是有区别的。我们选择的数据平台,由Denodo提供,对我们来说是一个重要的技术使能者,因为它满足了INAIL快速创建使用来自不同来源数据的BI解决方案的需求,并具有动态特性”,经理观察到。“目前我们正在为一些选定的关键任务应用测试新的数据平台,如自我清算过程。但我们期望将其扩展到其他用例。”


三、数据湖和BI的数据增值


许多公共行政部门致力于在它们的数字化转型中对数据进行增值。例如,托斯卡纳大区正在基于一个公共数据存储策略向前推进,该策略由区域创新、开放政府和开放数据增值的规范路径所规定。在2023年,该政府机构启动了一个广泛的项目,在POR FESR(由欧洲区域发展基金支持的区域操作计划)21-27的范围内,该项目预计整合区域数据湖并在托斯卡纳市推广数据驱动的倡议(预计在2024年6月之前发出一个价值140万欧元的通知,随后托斯卡纳大区将进行其他投资)。整个项目是通过涉及公共服务公司、市镇和省份,即整个生态系统的参与设计的,因为创新之旅的成功与各种参与者一起前进的能力有关。


“对我们来说,适当的治理至关重要,它具有中长期的视角和短期的操作行动,通过涉及利益相关者,展示数据驱动方法的用处,并促进数据的正确使用以改善过程和领土治理以及支持决策”,斯蒂法诺·丘奥弗(Stefano Ciuoffo)——托斯卡纳大区数字基础设施和创新、合作企业、简化政策、制度政策、与地方机构的关系、合法性、安全和移民的区域评议员强调。斯蒂法诺·丘奥弗(Stefano Ciuoffo)还强调开放数据在促进透明度和基于开放信息资产的参与过程中的价值:这是另一种方式来吸引生态系统。


“当然,治理设计中自带的是个人数据保护和网络安全的考虑,”丘奥弗继续说。


当前,托斯卡纳大区拥有一个区域数据湖和多个支持主要利益相关者的商业智能系统(卫生、与地区农业、内部ERP流程、地区流动性和旅游等相关的流程)。此外,该区域正在逐步引入其他数据导向技术,如无人机和卫星技术用于测量并丰富区域信息资产,以及作为机器学习形式的人工智能,用于区域内各个区域的大数据上的预测性分析。


“2024年,”丘奥弗宣布,“将是托斯卡纳大区更新其区域数据策略的一年,以进一步推动在所有层面上对数据的增值:在地方机构、对公民和企业以及面向区域管理部门、机构和机构的方面,也考虑到人工智能所带来的推动力。”


四、人工智能治理和通用人工智能(AI)


在INAIL,Colasuonno实施的数据策略也奠定了技术和组织基础,使该机构能够通过商业智能、预测性分析和人工智能增值数据。


人工智能治理和通用AI Colasuonno实施的数据策略为INAIL奠定了技术和组织基础,使该机构能够通过商业智能、预测分析和人工智能来增值数据。


INAIL已经使用人工智能数年。例如,它已经开发了基于机器学习的多个项目,旨在提高机构流程的效率,包括人事、技术精算预算、反欺诈和监察、法律事务、企业激励和医疗法律领域。特别是在最后一个领域中,机构的数据财富,包含了数十年关于事故、残疾等级、必要治疗等的评估,可以训练模型来帮助医生决定特定事故属于哪种情况。


目前,该机构正在探索将通用AI应用于研究和使用(不仅是INAIL的用户,还包括企业和公民)其广泛的内部知识库,并使用自然语言。


Colasuonno表示:“INAIL意在把握人工智能为公共行政和国家内部提供的机会,但始终尊重人的基本权利。”“人工智能的使用必须是道德的、非歧视性的、符合隐私规则的,并且要减轻它带来的风险。”


他强调的风险包括:滥用人工智能技术——因此在预期价值面前花费过多——或相反,最小限度的使用阻碍了从中获益。通过治理达到两者之间的平衡——再次——:“人工智能治理”,Colasuonno清楚地表示,“与数据治理紧密相连。”


五、CIO的任务:确保数据的质量和可用性


Vitulano确认:CIO承担着确立确保数据质量的精确治理的战略角色。


“在许多情况下,除非是技术用户,否则不能提供原始数据给业务部门,因为它可能是无法识别的,而且,最重要的是,它会因经过不同处理以供使用而被修改。因此,需要对其进行筛选和认证,以便最终用户有信心使用的数据是正确的、可靠的和可识别的。这是工业数字化进程中非常重要的一个方面,作为IT经理,我总是依靠自动化工具来处理输入——否则,这是一个容易出错、成本高昂且没有附加值的任务——并使用清晰的命名,以便从词汇表到商业智能再到分析产品上的可视化。”


这些最后的工具是商业部门人员进行交互的设备:最终产品的质量和可接近性对决策过程至关重要,技术团队有责任实施适当的解决方案以确保数据的可靠性。


在担任CIO的经历中,Vitulano一直致力于数据命名,例如他在国际医疗行业公司担任经理时期。在这里,精确地管理数据过程对于一方面确保数据安全(由于分类为个人和敏感数据)和另一方面确保IT解决方案在业务价值交付过程中正常工作至关重要,即能够与各种内外部使用者中心共享数据。


六、GPT:让数据治理更高效? 


然而,今天,随着GPT模型的出现,数据治理可能达到新的效率水平。Vitulano解释:“生成式人工智能可以提供一个框架来管理和组织数据,并确保它们是准确的、一致的和安全的。” “GPT模型可以作为数据目录解决方案的有价值补充,用于映射和分类数据资产,激活和监控数据治理,提高基于数据的决策质量,并确保更好的合规性。”


对于数据治理的另一个GPT用途可能是以支持用户在数据查找和与授权方共享数据方面的形式。Vitulano举了一个例子:CIO可能已经构建了一个分析产品,而通用AI将有能力通过迅速获取信息和分析来增加它的价值,或者甚至提供关于如何将某些信息,如KPI,为另一个项目重复使用的建议。


Vitulano声明:“GPT有潜力在使用数据资产方面提高效率,避免重复,并加快获取信息和决策的速度。” “这样,间接地,GPT可能促进以数据为驱动的文化,其中每个人都有助于公司的成功。”


但是,永远不要缺少治理:在应用人工智能及其生成子集时,CIO必须预见并处理整合到现有企业系统的问题,以及使用的数据的正确性问题,这些数据用于训练人工智能系统,取决于业务对提供信息的信任。


意大利国家工伤保险机构(INAIL)的数据与分析办公室经理Colasuonno总结说:“错误的数据比缺失的数据更有害,因为它会导致错误的决策。即使在人工智能模型的训练中,数据的正确性和质量也是可靠的训练和结果的基础。欧洲AI法案也是如此。