必要的数据集成、建模和维护为高级分析和人工智能应用程序奠定基础。如果没有它,数据就很难访问,即使可以进行分析,也会产生不准确的结果。
图源:RAWPIXEL(图片上传者,可以译为用户RAWPIXEL,或者RAWPIXEL)
当全球科技公司Lenovo开始利用数据分析,这帮助其游戏笔记本电脑确定了一个新的市场利基,并为远程诊断提供了动力,使其客户从服务器和其他设备中获得最大收益。
Comcast(康卡斯特,是美国一家主要有线电视,宽带网络及IP电话服务供应商,总部位于宾夕法尼亚州的费城,拥有2460万有线电视用户,1440万宽带网络用户及560万IP电话用户,是美国最大的有线电视公司。康卡斯特亦是美国第二大互联网服务供应商,仅次于AT&T。)正在使用数据分析降低其大数据的安全成本并提高其率,以更好地了解攻击来源,更有效地做出反应,并提高其预测未来威胁的能力。
在第一商业银行,执行总裁兼首席运营官Gregory Garcia(格雷戈里·加西亚)希望利用统一的实时数据来监测风险,例如空置率提高,这一风险可能会使商业地产所有者更难支付抵押贷款。
但是,要实现所有这些目标,以及利用企业数据开展生成式人工智能应用,以简化业务和开发新服务,需要一个适当的基础。这项艰苦且持续的工作包括集成数据孤岛、数据建模和分析,以及维护好数据。
一、集成数据孤岛
在Lenovo(联想),客户授权使用日志显示,相当数量的客户使用其消费级IdeaPad(联想推出的笔记本系列产品。)笔记本电脑打游戏,而不是高端游戏笔记本电脑。作为回应,Lenovo(联想)推出了一系列新的入门级游戏笔记本电脑和台式机,现在被称为Lenovo LOQ(新的电竞子品牌,原本应该是IdeaPad Gaming 系列,但Lenovo 认为一台笔电同时挂着「IdeaPad」和「Gaming」的名称,容易让消费者混淆其定位,因此将其独立出来。虽然说它依然是位阶在Legion 系列之下的「入门」电竞系列,但联想重新设计了其外观,让它更接近Legion 系列的电竞风格。),以迎合新玩家首次进军游戏的需求,联想智能设备集团云和软件业务全球工程主管Girish Hoogar(格力士·胡戈)说。
它还利用设备数据开发了联想设备智能,该智能模型利用人工智能驱动的预测分析,帮助客户理解并主动预防和解决潜在的IT问题。Lenovo(联想)表示,Lenovo Device Intelligence(联想设备智能。可协助企业级IT管理员监控、诊断和补救PC问题,并帮助在潜在的系统故障或性能问题发生前进行预测。)还可以帮助优化IT支持成本,减少员工停机时间,改善用户体验。
但在整合所需的数据之前,Lenovo(联想)必须克服人们对共享潜在敏感信息的担忧。Hoogar(胡戈)通过员工培训解决方案披露相关的信息(如错误修复通知或软件更新),来缓解这种担忧。
过去,First Service Credit Union(第一服务信用社)的首席数据主管Ty Robbins(泰·罗宾斯)很难整合许多信用合作社运营的数据(那些传统的、非关系型、通常存在专有表格中的数据)。他说:“你必须是数据交互的编程语言专家,了解每个数据源中每个数据元素的关系,更不用说了解它与其他数据源中元素的关系了。”
他说,使用元数据驱动的Cinchy Data Collaboration Platform(Cinchy数据协作平台。将数据从应用程序中解放出来,并允许客户将数据作为产品进行管理和控制,从而消除了未来数据集成的需要。其结果是形成了一个更加灵活的数据生态系统,可以简化更改,快速加快业务成果,并促进整个企业的协作智能。)可以将典型的建模和集成工作从18个月减少到6周。这也有助于他使信用合作社数据民主化,从而可以用于改善客户服务,通过各种类型的数据自动化的维护,让数据更容易被找到,还提供监管链和审计控制,以帮助满足监管需求。
在Ocean Technologies Group(OTG,海事知识和技术解决方案提供商),首席技术官Ian Hepworth(伊恩·赫普沃斯)不仅必须整合来自由OTG平台管理的2万艘船只的维护和船员数据,还必须整合来自OTG收购的六家公司的数据。除了保持当前数据的准确性和可访问性外,该公司还希望利用几十年的历史数据来识别船舶运营的潜在风险和改进的机会。
Hepworth(赫普沃斯)说,每家被收购的公司都有多个具有不同primary key(主键。也称为主码或主关键字,用于惟一地确定一个元组的属性或属性组/复合主码。每个关系都有一个并且只有一个主码。)的数据集。他补充说:“我们需要一个聪明的工具,来帮助我们熟练地将这些数据放入数据仓库,并使我们能够开始构建客户视图。”他说,使用SnapLogic(全球集成平台服务/iPaaS市场的主要供应商)的集成平台,他的开发人员无需为每个数据源手动构建API(应用程序编程接口),就可以协助清理数据,并将其快速、高效地存储在仓库中。他说,SnapLogic不仅减少了员工的工作量,而且还提供了一个API,允许OTG的客户从那里下载数据。
二、建模、理解和转换数据
公司执行副总裁、CISO(Chief information security officer,首席信息安全官)兼首席产品隐私官Noopur Davis(努浦·戴维斯)表示,Comcast(康卡斯特)面临着收集大量有关潜在安全和可靠性问题的信息的挑战,但没有简单的方法来理解这一切。
在将其昂贵的内部数据湖转移到云端后,Comcast(康卡斯特)创建了一个三层架构。第一种方法将一整年的原始数据保存在较低成本和较低速度的存储中,用于低频率的用例,如法医分析。Davis(戴维斯)说,第二种方法存储目前需要的数据,“具有元数据,完全标准化,并按时间序列存储”,分析师可以更及时的检索。第三层,在最昂贵但性能最高的存储上,包含数据集市和数据仓库,这些仓库配置有最频繁的用例和人物角色匹配的数据链接。
Comcast(康卡斯特)将其预测分析的重点放在了对业务连续性至关重要的部分安全基础设施上,比如其零售店的安全WiFi。与其他企业一样,该公司正在转向使用数据结构,允许多个授权用户从单个“真实来源”访问数据,而不是为每个需要的新用户制作副本。Davis(戴维斯)说,这样做的目的与其说是减少削减数据传输或存储成本,不如说是让数据管理员更容易管理数据。她说,Comcast(康卡斯特)还通过退役数据管理工具,实现了数亿美元的成本规避,这些工具的功能现在由数据湖提供服务。
在管理客户忠诚度、在线订购和其他系统的付费电子通信公司Paytronix(为餐馆和便利店提供数字客户参与服务。),数据科学主任Jesse Marshall(杰西·马歇尔)希望减少数据转换的自定义编码——将数据的转换、清理和结构化转换为可用于分析和报告的形式。
他说,为了让他的员工摆脱维护和修复过去的转换,以便他们能够专注于新项目,他使用了Coalesce(是一家数据转换公司,随着 Coalesce 数据转换平台的推出,它正在从隐身状态中脱颖而出,简化了数据的建模、清理、治理和文档记录。)的数据转换工具,该工具为Paytronix提供了一个创建转换的拖放界面,并使解决数据转换问题更容易,并在公司基础设施发生变化时维护这些转换。
轻松创建新转换的能力使企业能够尝试更多的分析方法,找到意想不到但有价值的赢家。他说:“在旧世界,如果我们有10个有用的分析想法,我们只有时间研究其中的四个。我们希望团队尝试每一个想法,即使其中60%失败了。”
三、长期维护和保护数据
尽管企业范围内需要更多更好的数据,但说服业务部门或董事会为正在进行的数据治理工作提供资金以确保数据准确、及时和安全却很难。
商业房地产服务公司JLL(仲量联行。与第一太平戴维斯、高力国际、世邦魏理仕、戴德梁行同为世界知名的五大房地产咨询机构,连续三年入选福布斯白金400强企业的房地产投资管理及服务公司。)的首席技术主管Yao Morin(姚莫林)将数据维护比作管道,在管道出现故障并造成混乱、紧迫的问题之前,没有人会想到这一点。她说,为了获得所需的资金,数据从业者必须继续向商业领袖展示数据的价值,以及如果我们不维护数据,它将如何毫无用处。
在JLL(仲量联行)的案例中,这种价值包括在新冠肺炎封锁后工人重返办公室时,满足客户(以及占用其大楼的租房者)对新型信息的需求。这包括员工是孤立地坐在办公桌前,还是在拥挤的会议室开会,会议室里的空气质量,以及办公室附近有哪些设施(如餐厅)可以吸引他们回来。
虽然高级管理层的支持对持续的数据管理至关重要,但Lenovo(联想)的Hoogar(胡戈)称,做这项工作是集体责任。他说,建立基础水平支持的一种方法是在每个部门找到数据爱好者,并通过课程与其他数据倡导者或数据委员会的定期会议来培养他们的技能。他说,持续的教育、培训和技能提升对于更好的数据管理也至关重要。
第一商业银行的Garcia(加西亚)说:“首席信息官们遇到的问题是,许多董事会和银行的首席执行官自认不是商业贷款机构,而不愿雇佣数据分析师,因为他们不把他们视为能产生收入的资源。但是,一家拥有十几位数据分析师的金融机构,如果能正确地将实时数据业务化,可能比一大批贷款人在没有适当分析指导的情况下,漫无目的地试图扩大投资组合更有效。”
四、提前准备
从数据建模到安全,标准化是数据获取的首要工作。Morin(莫林)说:“我们对许多数据接收过程进行了模板化处理,”他需要添加元数据和数据字典,以便业务领导者能够知道他们可以从数据湖中获得什么信息。“如果没有这些模板,就很难在事后添加这些信息。”
First Service Credit Union(第一服务信用社)的Robbins(罗宾斯)敦促进行全面、预先的数据建模,以创建易于理解的数据,并以新的方式进行分析。例如,一个询问信用合作社每月收到多少存款的查询,当生成相关报告并询问收到存款的新账户数量需要从头开始,这浪费了宝贵的时间。他说:“有了元数据平台,你可以在一个视图中汇编所有根据这些元素调整的数据,这样你就可以简单地对这些数据进行任何一个报告。”。
Comcast(康卡斯特)等公司表示,除了这些日常福利外,正确的数据架构和基础设施使公司能够比预期更快地开发出令人兴奋的生成人工智能应用程序。但在获得这些好处之前,“你必须做好基础设施和数据清理,”Davis(戴维斯)说,“这需要大量繁重的工作,但完成了这些工作,人们就能做出惊人的事情。”
作者:Robert Scheier(罗伯特·谢尔)