你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
五个CIO应该警惕的IT运营管理风险
作者:CIO.com 来源:CIOCDO 发布时间:2024年07月25日 点击数:

首席信息官们在推动技术创新和转型时,必须警惕技术债务、团队压力、监控导致的文化问题、第三方数据泄露以及云债务等风险。通过加强风险管理和优化实践,IT领导者能在实现组织使命和业务目标的同时,确保运营的效率和安全。


图源:YAKOBCHUK VIACHESLAV(图片上传者,可以译为用户YAKOBCHUK VIACHESLAV,或者YAKOBCHUK VIACHESLAV) / SHUTTERSTOCK

作为数字化转型的领导者和前首席信息官,我有一种思维习惯。我称之为生存本能:必须不断发现、评估、减轻或管理可能扰乱组织忠于使命和实现目标的风险。


这个组织的转型是否足够快?利益相关者是在泥潭挣扎还是不开心?敏捷团队是否因太多的优先事项而过度紧张?作为一名数字化的开拓者,我的很多偏执都涉及到可能破坏转型的问题,但真正让我夜不能寐的是运营和安全风险


其中许多问题属于外部威胁类别,首席信息官必须投资于安全最佳实践,并制定监控和响应计划,以便在问题出现时进行应对。虽然安全风险令人望而生畏,但心理治疗师提醒我们应避免在无法控制的领域过度紧张。首席信息官必须尽最大努力保护组织,并推动投资和实践,以最大限度地降低安全风险。


但运营风险是另一回事,对可能出现的问题保持适度的偏执可能会有所帮助。许多运营风险看似无害,但它们可能突然显现,并使IT进入救火模式。在许多情况下,询问足够多的“如果”问题,并规划一系列情景,可以帮助您区分低影响风险和值得投入资源来最小化或补救的更高运营风险。


尽管以下许多问题看起来似乎是低风险的运营问题,但随着时间的推移、增长或其他变化,它们可能变得难以管理首席信息官们面对的这五种风险,并在它们成为有影响的问题之前寻求补救措施。


一、关键任务系统的技术债务不断增加


首席信息官们有充分的理由对不断上升的技术债务以及支持遗留系统超过其生命周期的影响感到压力。


当另一个组织的困境出现在新闻中时,首席信息官们往往会向同行建议永远不要浪费一场危机。例如,Free Application for Federal Student Aid/美国联邦学生援助免费申请/FAFSA计划的启动被推迟了一年,给许多寻求联邦学费援助的大学生造成了混乱。尽管许多人因此指责国会,因其管理该计划存在潜在问题,但其实一个主要的根源原因是该计划需要重新设计并彻底改造20多个系统,其中一些系统近50年来都没有更新过。


这包括用Cobol(一般指COBOL语言。 COBOL语言,Common Business-Oriented Language,是一种面向过程的高级程序设计语言,主要用于数据处理,是国际上应用最广泛的一种高级语言。开发的系统,这些系统连接了来自数量惊人的机构的私人信息,这就是为什么政府问责局在2019年将其列为最需要现代化的10个系统之一。


遗留硬件系统是一个日益严重的问题,需要迅速采取行动。”LeanTaaS是一家位于硅谷的医疗软件公司,专注于通过数据挖掘和机器学习进行预测分析,并运用云端解决方案改善医疗机构服务水平和提升医疗资源利用率。公司的产品iQueue利用专有算法,将可用资产与需要它们的患者和临床医生进行匹配,考虑了数百个现实世界中的操作限制,并通过比较预期绩效与实际绩效来自我完善,从而改善患者的流通效率和员工满意度,同时减少等待时间和运营成本。)的安全与合规总监Bill Murphy(比尔·墨菲表示:随着这些系统的老化,雇主在获取替换硬件和招聘具有必要维护技能的人员方面面临困难。忽视及时解决技术债务可能会导致灾难性后果。”


如今,首席信息官们需要考虑的一个问题是,软件开发中生成式人工智能是否会导致代码级技术债务。或者,有机会使用代码副本或生成AI低代码功能来简化和减少代码。


企业在创新和竞争中严重依赖软件,而这些软件往往充斥着质量不佳的代码,导致技术债务不断增加,”SonarSonarSource,是一家提供代码质量管理解决方案的公司,其旗舰产品是 SonarQube,这是一个开源的代码分析平台,用于持续分析和评估项目源代码的质量。SonarQube 能够检测项目中的重复代码、潜在的 bug、代码规范问题、安全性漏洞等问题,并通过 web 用户界面展示出来。它支持 25 种以上编程语言的代码扫描和分析,包括 Java、Python、C#、JavaScript、Go 和 C++ 等,涵盖了编程语言的静态扫描规则,能够与代码编辑器、CI/CD 平台以及源代码管理/SCM集成。)首席信息官Andrea Malagodi(安德里亚·马拉戈迪表示,“人工智能可能加剧这个问题,因为它没有优先考虑质量,就像人类输出一样,它产生的代码存在安全、可靠性和可维护性问题。


背负着越来越多技术债务的首席信息官们必须将偏执变成行动计划,传达当今的问题和未来的风险。其中一种方法是定义并寻求与董事会和执行委员会达成不可谈判的协议,概述何时升级遗留系统必须优先于其他业务目标的标准。


二、团队压力和职业倦怠


压力和倦怠是首席信息官们应该为自己、队友和同事担心的严重问题。例如,在2024 CISO Burnout Report/2024年的首席信息安全官倦怠报告中,80%的首席信息安全官将自己归类为压力很大63%的人表示他们在任职管理角色时几乎没有得到任何支持,50%的人表示由于工作压力而失去了团队成员。


安全角色的压力和倦怠是已知的问题,因为与这些角色相关的时间以及从安全问题中恢复的巨大压力,同时最大限度地减少了业务影响。但是,当团队感到交付能力、解决缺陷和跟上最新技术的压力时,开发人员的角色也会感到压力。


现在,将数据、机器学习和人工智能添加到推动整个组织压力的领域。在数据连接报告中,三分之二的IT员工表示,他们被访问工作所需数据所需的技术资源数量所淹没,其中81%的人认为他们组织中的其他员工也是如此。


首席信息官应该是转型的推动者——这可能会造成压力——同时采取积极和持续的措施来减轻组织和整个公司的压力。由于企业对提供新技术能力、领导转型管理活动和确保系统正常运行的期望更高,倦怠的风险也在增加。首席信息官们应该推广断开联系和减轻压力的方法,例如改善沟通、简化运营和设定现实的目标。


三、监控扼杀IT文化的做法


关于IT运营的压力,首席信息官们需要关注的一个明确领域是监控服务、对应用程序性能问题发出警报以及满足Service Level Objectives/SLO服务等级目标,‌是指为服务定义的具体、‌可衡量的目标,‌这些目标通常与服务的某个或多个服务等级指标/‌Service Level Indicators/SLI‌相关联。‌SLO定义了服务的性能标准,‌即服务应达到的特定水平或范围,‌以确保服务的质量和可靠性。‌这些目标可以是关于服务的可用性、‌响应时间、‌吞吐量等方面的具体指标。‌)。一方面,IT运营部门应该执着于是否有足够的监控和自动化来确保系统运行良好,而不会让最终用户升级问题,也不会让高管利益相关者表达不满。另一方面,拥有过多的监控工具、成千上万的警报以及定义不清的 SLOs 会形成一种普遍的 IT 事件救火文化。


工程团队正在浪费宝贵的时间追逐警报,”Logz.io是一家提供基于云的日志管理平台的公司,它构建于开源的 ELK 栈Elasticsearch、Logstash 和 Kibana之上,提供实时、可操作的日志数据分析服务。Logz.io 的服务有助于 DevOps 和运维工程师快速定位和解决问题,它可能成为 Splunk 的有力竞争者之一。)的联合创始人兼首席技术官Asaf Yigal(阿萨夫·伊格尔)表示:首席信息官们需要设定目标,确保重点是对底线有直接影响的应用程序和基础设施错误,这些才是应该立即引起注意的警报。


作为一名首席信息官,我担心在执行会议上向我报告一次监控工具没有捕捉到,自动化也无法修复的IT中断。我还担心IT投入运营的时间比例越来越高,这削弱了创新和转型的努力。


首席信息官们应该使用这些指标来判断对运营的偏执何时需要采取行动:


l员工报告了许多监控应该捕获的系统性能问题。

lNetwork operations centers/NOCs网络运行中心,是指管理网络运行的机构。通常主要是指因特网的运行管理中心。中心的职责是网络运行操作、删络故障处理和网络维护,保证网络的正常运行。)和Site Reliability Engineers/SREs网站可靠性工程师,是专门从事网站或系统可靠性和性能优化的工程师。SREs的主要职责是通过软件工程的方法开发自动化系统,‌以替代重复和手动操作,‌从而提高系统的可靠性和性能。‌他们的目标是改善系统的正常运行时间,‌理想情况下,‌公司追求的是“五个九”的可用性,‌即99.999%的可用性,‌这意味着每年只有不到五分钟的系统停机时间。‌)正在响应日益增多的警报,从这些问题的Mean Time To Recovery/MTTR(恢复平均时间)也在增加。

l高管们不愿意投资于创新或与 IT 合作,因为观念上或现实中 IT 系统的表现不佳。

面临日益增长的监控工具和警报的IT环境的首席信息官可能希望研究AIopsArtificial Intelligence for IT Operations,智能运维。是指利用人工智能等技术,精准地管控和分析IT系统中的海量运维数据,并通过自动化、智能化的方式来优化运维流程、提高运维效率和运维质量。AIOps的特点是利用机器学习、深度学习等AI技术,对运维类数据进行分析和处理,从而对运维目标进行健康度评估、智能定位和异常分析,甚至发现潜在问题,提升目标系统的可用性和稳定性。AIOps将会成为IT运维的重要发展方向,帮助企业更加高效、智能地实现数字化转型。)解决方案,这些解决方案有助于集中可观察性数据,并使用机器学习将大量系统警报关联到数量较少的可管理事件中。


四、第三方数据泄露

首席信息官在推动数据驱动型组织方面的人工智能战略和目标导致了许多第三方合作伙伴、解决方案和SaaS一般指软件运营服务。是指用户获取软件服务的一种新形式。它不需要用户将软件产品安装在自己的电脑或服务器上。)工具的加入。安全和数据治理是一个日益严峻的挑战,根据The 2024 Third-Party Risk Management Study/2024年第三方风险管理研究,61%的公司报告了第三方数据泄露或安全事件,比去年增加了49%


对第三方数据泄露和安全事件保持警惕,Prevalent是一家专注于网络安全和风险管理的公司,提供先进的技术和解决方案,帮助企业识别和管理第三方风险。其服务可能包括自动化风险评估、持续监控和利用人工智能工具简化工作流程和风险分析。)首席运营官兼首席战略官Brad Hibbert(布拉德·希伯特)警告称:“为了降低严重的第三方数据泄露的风险,请围绕统一的内部控制评估和持续的网络监控自动化您的第三方风险管理流程,纠正发现的问题,并利用新的人工智能工具来简化工作流程和风险分析。


鉴于托管企业数据的系统数量不断增加,对这些系统的更改速度加快,以及SaaS提供商对其服务条款的频繁政策更改,首席信息官们完全有理由多疑。生成式人工智能一剂新的催化剂,根据the AI at work pulse survey/工作中的人工智能脉搏调查,54%的员工表示他们依赖人工智能工具,而51%的员工有鼓励使用人工智能的经理。在许多组织中,添加SaaS生成式人工智能工具的速度超过了IT、信息安全和数据治理工作。与此同时,根据第三方风险管理研究,组织只管理了他们三分之一供应商的风险。


考虑到需要与越来越多的全球第三方组织合作,一旦数据离开企业,用传统安全方法保护外围就变得无效”Seclore是一家专注于数据为中心的安全平台的公司,提供市场上首个完全基于浏览器的安全解决方案,使组织能够灵活地利用最佳解决方案来发现、识别、保护和分析数据的使用情况,无论是在组织内部还是外部。Seclore 的自动化安全流程能力使组织能够以最小的摩擦和成本充分保护信息。目前,29 个国家/地区的 2000 多家公司正在使用 Seclore 来实现其数据安全、治理和合规目标。)首席执行官兼联合创始人Vishal Gupta(维沙尔·古普塔)表示,“以保护网络边界的方法来保护安全已不再足够,安全团队必须转而采取主动的以数据为中心的安全方法,通过将保护措施直接围绕数据本身来进行。


在与商业领袖讨论shadow IT影子IT,也称为Stealth IT、Client IT、Fake IT,是组织中的信息技术/IT系统是由组织内部建立并且使用,但没有正式的组织核可,而系统是由IT部门以外的部门订定规格并且布署。有些人认为影子IT是重要的创新来源,这些系统可做为是未来核可IT方案的原型。)和定义公民数据科学治理时,我经常引用超人谚语:“能力越大,责任越大。许多人希望从分析和机器学习中获得所有好处,但在接受主动的数据治理方面却行动迟缓。再加上追求生成人工智能助手的混合,首席信息官们更有理由在今天的偏执变成明天的商业危机之前,加强数据治理。


五、不断增加的云债务


在过去的十年中,首席信息官们已经将IT基础设施从数据中心转变为混合云和多云,同时使用devopsDevelopment和Operations的组合词,过程、方法与系统的统称。用于促进开发-应用程序/软件工程、技术运营和质量保障-QA部门之间的沟通、协作与整合。)自动化来支持敏捷开发和数据科学团队满足自助式基础设施需求。根据20246月的云计算统计数据,89%的企业表示使用多云解决方案,82%的企业表示管理云支出已成为首要任务。


SADA一家一流的云解决方案提供商,专门从事技术咨询、IT服务、应用程序开发和托管服务。)FinOps云计算支出。Finance和DevOps的组合词,是一种管理实践,用于优化和管理云计算基础设施的财务绩效。它涉及工程、财务、技术和业务团队之间的数据驱动的支出决策协作。FinOps的目标是在速度、成本和质量之间做出权衡,并提高云投资的业务价值。)首席财务分析师Robin Roacho(罗宾·罗阿丘)表示:首席信息官们应该在没有明确理由的情况下注意云计算成本的增加,并建议:


l在确立成本所有权时,确保资源被标记和分类。

l确认财务模型准确地解释了预算到实际的差异。

l培养方法论,对现有工作负载进行审查,以优化和现代化。

l在出现意外支出时创建或调整警报系统。


人工智能工作负载会增加额外的消费,特别是对于开发LLM大型语言模型。是使用深度学习算法处理和理解自然语言的基础机器学习模型。这些模型在大量文本数据上进行训练,以学习语言中的模式和实体关系。LLM可以执行多种类型的语言任务,例如翻译语言、分析情绪、聊天机器人对话等。)能力的组织。例如,一项基准测试报告称,在AWS亚马逊云科技-连续12年被Gartner评为“全球云计算领导者”。为全球客户提供以云服务器、云存储、数据库、机器学习为主的基础设施和云解决方案,助您发展出海业务和企业在本地上云。)推荐的默认实例上托管LLM Falcon 180B项目每月至少需要花费23000美元。

虽然公共云报告了近期的云计算成本,首席信息官们可以部署FinOps最佳实践来管理云计算的成本,但碳影响是另一个需要考虑的挑战。


Fusion Fund融合基金,是一家专注于投资前沿科技领域的风险投资基金,致力于支持和推动技术创新,特别是在人工智能、生物医疗、新能源等领域。)的创始人兼管理合伙人Lu Zhang(·表示,人工智能技术在2022年消耗了大约460太瓦时的电力。Zhang说:这些数据凸显了一个日益增长的担忧,如果要让人工智能成为可持续未来的一部分,就必须解决这个问题。展望未来,人工智能算法的不断改进并将可再生能源整合到数据中心中都至关重要。


Mastek是一家全球性 IT 解决方案公司,专注于利用创新技术为客户提供定制化的解决方案,包括软件开发、咨询和数字转型服务。)首席信息官Mahesh Juttiyavar(马赫什·朱蒂亚瓦尔建议:通过FinOps,我们可以防止云成本意外,同时坚持ESG从环境、社会和公司治理三个维度评估企业经营的可持续性与对社会价值观念的影响。ESG评价体系又称ESG Ratings/ESG评级,是由商业和非营利组织创建的,以评估企业的承诺、业绩、商业模式和结构如何与可持续发展目标相一致。它们首先被投资公司用来筛选或评估其各种基金和投资组合中的公司。求职者、客户和其他人在评估商业关系时也可以使用这些评级,而被评级的公司本身也可以更好地了解他们的优势、劣势、风险和机会。)原则,实现可持续和负责任的IT未来。这一整体战略确保了弹性和长期成功。


当我们考虑到当今首席信息官所继承的技术债务时,它们是前任理性商业决策的副产品,也是治理和管理其长期影响的斗争的副产品。如今,围绕压力文化、数据泄露、IT运营需求和云基础设施消费的短期思考可能成为新危机的下一个前沿。首席信息官们应该对这些不断增加的风险保持警惕,并在速度、敏捷性和创新与谨慎的风险管理实践之间取得平衡。


作者:Isaac Sacolick(艾萨克·萨科利克)

Isaac Sacolick(艾萨克·萨科利克),数字化转型学习公司StarCIO的总裁,指导领导者采用所需的实践,以领导其组织的转型转型。他是《Digital Trailblazer(数字开拓者)》和亚马逊畅销书《Driving Digital(驱动数字)》的作者,讲述了敏捷规划、开发、数据科学、产品管理和其他数字化转型最佳实践。Sacolik是公认的顶级社交首席信息官,也是数字转型的影响者,在InfoWorldCIO.com、他的博客socialAgiletransformation以及其他网站上发表了900多篇文章。本文中表达的观点是Isaac Sacolick(艾萨克·萨科利克)的观点,不一定代表IDG通信公司,其母公司,子公司或附属的公司的观点。

译者:宝蓝


【睿观:IT运营风险管理:关键问题及解决方案概述】

现代IT领导者需要重视和解决几个关键的运营风险,以避免业务的削弱。这些风险包括不断增加的技术债务、团队压力和职业倦怠、监控导致的IT文化问题、第三方数据泄露以及不断增加的云债务。


一、技术债务的不断增加

技术债务,尤其是支持遗留系统超过其生命周期,持续给首席信息官带来压力。例如,美国联邦学生援助免费申请(FAFSA)项目因技术债务问题被推迟一年。首席信息官必须制定明确的协议,优先升级遗留系统以应对技术债务。


二、团队压力和职业倦怠

CISO倦怠报告显示,首席信息官、信息安全官和开发人员都面临高压和倦怠风险。数据、机器学习和人工智能等技术的不断演进增加了IT团队的压力。首席信息官应采取措施减轻压力,改善沟通、简化运营,并设定现实的目标。


三、监控导致的IT文化问题

IT领导者需要确保监控、报警和SLO的设置不会导致“救火”文化。设定明确的优先级,聚焦对业务有直接影响的问题是关键。应用AIops解决方案能有效集中可观察性数据,并减少系统警报数量。


四、第三方数据泄露

随着组织对第三方解决方案和SaaS工具依赖的增加,数据泄露和安全事件的风险也上升。实施统一内部控制评估和监控、自动化第三方风险管理流程至关重要。 加强数据治理、确保数据安全措施围绕数据本身。


五、不断增加的云债务

多云和混合云环境的普及增加了云计算成本管理的挑战。实施FinOps最佳实践,如明确成本所有权、准确预算模型和优化现有工作负载,能有效控制云计算成本。关于环保,关注人工智能和大规模云计算的能耗和碳排放问题也日益重要。


六、IT风险管理建议

  1. 技术债务管理:

    • 确立不可谈判协议,优先升级遗留系统。

    • 使用生成AI低代码功能降低技术债务。

  2. 减轻团队压力:

    • 改善团队沟通和工作环境。

    • 简化运营并设定合理目标。

  3. 优化监控与报警:

    • 集中可观察性数据,使报警更具针对性。

    • 引入AIops解决方案,提高问题关联和管理效率。

  4. 第三方数据安全管理:

    • 自动化第三方风险管理流程。

    • 聚焦数据为中心的安全策略。

  5. 全面管理云债务:

    • 实施FinOps管理实践。

    • 关注能耗和碳排放,推进绿色IT。