可扩展性问题一直困扰着计算和网络工作,但现在环境更加复杂且更具挑战性,需要从多个维度进行综合考虑。通过优化流程、提升IT运营效率、简化架构、加强数据管理、合理利用人工智能等手段,企业可以更好地应对可扩展性的挑战,实现持续发展。
图源:Myrarte via Alamy Stock
随着企业的成长和技术栈变得更加复杂,可扩展性仍然是一个首要问题。
“公司在物理和虚拟空间中扩展都面临重大挑战。虽然跨区域的整体运营方法具有优势,但它也引入了复杂性,”高级分析软件提供商Seeq(是一家位于华盛顿州西雅图的制造业和工业物联网/IIoT高级分析软件提供商。Seeq专注于为工业物联网处理制造数据,提供快速诊断系统问题和预测维护需求的功能。其软件可以对用户的数据进行分析,使用户能够在数分钟内得到可行的解决方案,并支持快速查看和共享数据分析结果。)的首席技术官Dustin Johnson(达斯汀·约翰逊)说,“云可以提供帮助,但它并不总是一个放之四海而皆准的解决方案,特别是在计算需求方面。对于人工智能工作负载的专业资源,如GPU(图形处理器,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备。如平板电脑、智能手机等上做图像和图形相关运算工作的微处理器。),与标准流程的CPU一样至关重要,像Kubernetes(是一个开源自动化工具,它可以帮助企业部署、扩展和管理容器化的应用程序。最初由谷歌开发,但现在由云原生计算基金会/CNCF维护,它帮助公司在一组机器上自动化容器化应用程序的部署和扩展,重点是容器和存储协调、自动扩展、自我修复以及服务发现和负载平衡。功能包括自动检测错误和故障并从中恢复的能力,用于管理流量的内置负载平衡,以及在考虑需求、资源和成本的同时自动扩展应用程序的能力。)这样的技术允许有效的集群和扩展。然而,应用程序必须设计得能够充分利用这些特性,否则它们将无法实现这些好处。”
涉及的技术种类繁多,造成了显著的复杂性。
“如今,垂直整合的技术堆栈并不实际,因为公司依赖于不同的应用程序、基础设施、AI/ML工具和第三方系统,”Johnson(约翰逊)说,“集成所有这些组件——确保兼容性、安全性和可伸缩性——需要在整个技术领域进行仔细的协调。”
一个常见的错误是将可扩展性视为一个狭窄的技术问题,而不是系统设计的一个基础方面。以短期的、拼凑的心态来处理它,长远来看会限制灵活性,并可能使应对不断增长的需求变得困难。
以下是2025年需要更好地扩展的一些其他事项。
1.流程
许多组织仍然有手动流程,这些流程阻碍了速度和规模。例如,如果用户需要提交一个新服务器的工单来实施一个新项目,必须有人写工单,有人接收工单,有人必须激活它,然后必须对其进行处理。这是一个完整的步骤序列。
“这不是一种可扩展的运行环境的方式,所以我认为通过利用自动化来扩展流程是一个非常重要的话题,”IBM(国际商业机器公司或万国商业机器公司,总公司在纽约州阿蒙克市。IT公司-国际商业机器公司。1911年托马斯·约翰·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 31万多人,业务遍及160多个国家和地区。)的创新部门总经理兼首席技术官、IBM院士Hillery Hunter(希拉里·亨特)说,“对此有很多不同的答案,从自动化到人们谈论的内容,比如IT运维或编排技术。如果有一位首席信息官试图扩展某事物,并且需要分别从首席信息安全官、首席风险官或首席数据官团队获得许可,这种审批的序列化会阻碍速度和可扩展性。”
想要实现更高速度的组织应该使其成为高层管理团队成员的共同责任。
“你不只是想在你的组织中自动化低效的事情。你真的想转变业务流程,”Hunter(亨特)说,“当你将IT、信息和安全的所有者汇聚一堂时,你消除了决策过程的序列化,你消除了说“不”的冲动,并创造了一个集体的动力来说“是”,因为每个人都明白转型是相互的,是一个团队目标。”
2.IT运营
IT总是面临着在不牺牲质量的情况下更快交付的压力,但是用更少的资源做更多事情的压力让IT领导和他们的员工不堪重负。
“可扩展性需要通过更高的效率和自动化来实现,并使用AIOps(智能运维。是指利用人工智能等技术,精准地管控和分析IT系统中的海量运维数据,并通过自动化、智能化的方式来优化运维流程、提高运维效率和运维质量。AIOps的特点是利用机器学习、深度学习等AI技术,对运维类数据进行分析和处理,从而对运维目标进行健康度评估、智能定位和异常分析,甚至发现潜在问题,提升目标系统的可用性和稳定性。AIOps将会成为IT运维的重要发展方向,帮助企业更加高效、智能地实现数字化转型。)等来监督环境,并确保在你扩展时,你保持你的安全和弹性标准。”亨特说:“我认为在那些流程崩溃之前,不会重新设想IT和应用程序管理中的自动化程度。投资可能不够快,所以他们不能足够快地进行扩展。”
3.架构
为了快速进入市场,初创公司可能会受到诱惑,从现有的预制组件中构建一个新的服务,这些组件可以以“大致合适”的方式组合在一起,但会展示出业务理念。这可能会导致无意中创建出非常复杂的系统,由于其纯粹的复杂性而无法扩展。虽然这种方法在开始时可能效果很好,但在以后获得业务批准来完全重新架构一个正在显示成功迹象的工作服务可能非常困难。
“首先,在解决方案的架构阶段要非常小心,因为复杂性会致命。这不仅仅是一个可靠性或安全性的论点,这在很大程度上是一个可扩展性的论点,”云备份和恢复平台Keepit(是一家专门为企业提供云到云备份服务的公司,成立于2007年,总部位于丹麦哥本哈根。其主要为企业提供Office 365、Google Apps和Salesforce的云备份和SaaS工作负载保护服务。)的首席技术官Jakob Østergaard(雅各布·厄斯特高)说,“复杂的结构很容易导致无法简单地‘用硬件解决问题’的情况,这可能导致业务和工程方面的挫败感。”
他建议:“以批判的心态开始,知道在良好的架构上的前期投资将多次回报自己。”
4.数据可见性
组织一直在不断地致力于使数据货币化。为此,他们需要在整个生命周期中大规模地积极管理这些数据。
“虽然在过去几十年中,云计算已经越来越受欢迎,但仍然存在很多困惑,这导致了一些挑战,包括了解你的云数据存储在哪里、它包含什么以及如何确保它得到适当的保护,”数据安全公司Rubrik(是一家提供数据安全解决方案的公司,成立于2013年。其主要产品是一个云数据管理平台,具备与位置无关的内容管理能力,提供云服务+本地混合数据备份解决方案。其平台将备份软件、备份服务器硬件以及备份存储融合为单个备份基础设施,能够根据客户需要将备份分发到其他地方,并在需要时即时从云端恢复数据。)的联合创始人兼首席技术官Arvind Nithrakashyap(阿尔温德·尼特拉卡什亚普)说,“在可扩展性方面,一个盲点是无结构和半结构化数据。”
非结构化数据构成了安全风险,因为它可能包含敏感的业务数据或个人身份信息。由于所有非结构化数据都是使用TCP/IP(Transmission Control Protocol/Internet Protocol,传输控制协议/因特网协议。是Internet最基本的协议,由网络层的IP协议和传输层的TCP协议组成。TCP/IP定义了电子设备如何连入因特网,以及数据如何在它们之间传输的标准。)网络上的标准协议与最终用户应用程序共享的,因此它是威胁行为者的主要目标。由于大多数公司都有混合云和多云实施,所以IT部门需要了解敏感数据在哪里、它正在流向哪里以及它是如何得到保护的。
“对于非结构化数据组合包括数十亿文件和/或数拍字节数据的组织来说,最困难的障碍之一是保持对这些数据集及其使用模式的准确、最新的计数,”Nithrakashyap(尼特拉卡什亚普)说,“[你需要理解]诸如存在多少文件、,它们在哪里,它们有多旧,以及它们是否仍在积极使用等事情。如果没有对关键业务文件的全范围的可靠、最新的可见性,你的组织很容易被你的数据足迹的规模所淹没,不知道关键数据集在哪里,哪些数据集仍在增长,以及哪些数据集已经过时不再使用。”
5.SaaS服务API
API(应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。)是将我们的现代软件驱动的世界连接在一起的粘合剂。Keepit的Østergaard(厄斯特高)表示,他的公司看到软件即服务API的瓶颈,这些API是供应商提供给一般使用的,从明确的节流到慢响应,甚至是间歇性故障。为了在系统之间实现更好、更紧密的集成,API需要扩展到更高体积的使用。
“从根本上说,一个不进行扩展的API是毫无意义的,”Østergaard(厄斯特高)说,“为了让API有用,我们希望它们是可用的。不是一点点,不仅是有时,而是一直并且尽可能多地满足我们的需求。否则,有什么意义呢?”
尽管很难确定一个限制因素,但如果用户体验有任何指示作用,那么似乎一些服务是建立在供应商难以扩展以适应更高使用量的架构之上的。
“这是计算机科学中的一个经典问题——例如,如果一个服务是围绕一个中央数据库构建的,那么添加更多的API前端节点可能对提高API的可扩展性没有任何作用,因为瓶颈可能在中央数据库中,”Østergaard(厄斯特高)说,“如果系统是建立在以中央数据库为其核心功能的基础上,那么用在许多系统上分布得更好的东西来替换那个中央组件可能需要从头开始完全重写服务。对于现实世界的服务来说,使一个服务扩展以适应更高的使用量通常与仅仅在它所运行的云平台上点击‘弹性扩展’按钮有很大的不同”
要扩展解决方案,它必须建立在“尽可能简单”架构上,因为架构复杂性通常是扩展解决方案的主要障碍。一个复杂的架构会使向解决方案投入硬件完全无效。
6.人工智能
随着人工智能使用的加速,云和网络安全的可扩展性变得更加关键。
“大多数公司仍处于人工智能的探索阶段,因此在能力、成本等方面实现扩展所需的条件仍未完全理解。它需要一种持续学习和实验的方法,强烈关注结果,以确定正确的活动优先级,”数字劳动力转型公司Skillsoft(是一家私募股权支持的企业培训软件发行商,业务主要涉及企业教育和培训,拥有在线课程、电子书包、电子影像资料等教育内容。深受疫情冲击,导致因客户数量减少而于2020年6月申请破产。但由于与空白支票公司Churchill Capital Corp II达成合作,时隔一年居然实现了在纽交所曲线上市。)的首席信息官Orla Daly(奥拉·戴利)说。
IT领导者必须确保与业务领导者在预期的结果和关键的成功因素上保持一致。他们还需要了解组织中的技能和资源,定义KPIs(关键绩效指标,是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。KPI可以是部门主管明确部门的主要责任,并以此为基础,明确部门人员的业绩衡量指标。建立明确的切实可行的KPI体系,是做好绩效管理的关键。关键绩效指标是用于衡量工作人员工作绩效表现的量化指标,是绩效计划的重要组成部分。)并填补关键空白。
“没有积极管理扩展需求的团队会发现一方面是次优决策或成本失控,或者是由于没有定义扩展的推动因素和路径而缺乏进展,”Daly(戴利)说,“扩展技术最终是为了实现业务成果,因此继续将活动与公司的优先事项联系起来很重要。人们很容易被新的和令人兴奋的能力所吸引,创新仍然很重要,但当涉及到扩展时,采取深思熟虑和有节制的方法更为重要。”
7.生成式人工智能
组织正在努力以成本效益的方式扩展生成式人工智能。大多数供应商根据代表单词或字符的数字的代币来计费他们的模型。输入和输出代币的成本不同。例如,Anthropic(是一家人工智能初创公司,由前 OpenAI 员工创立,成立于2021年,总部位于旧金山,致力于构建可靠、可解释和可控的人工智能系统。)的Claude 3.5 Sonnet(是Anthropic公司推出的一款AI模型,属于Claude 3.5模型家族中的首个版本。Claude 3.5 Sonnet旨在提高智能水平,超越竞争对手和之前的模型,并在广泛的评估中表现出色,成为行业新标杆。)对每百万个输入代币收费3美元,对每百万个输出代币收费15美元,而OpenAI(在美国成立的人工智能研究公司,核心宗旨在于“实现安全的通用人工智能,AGI”,使其有益于人类。OpenAI于2015年由一群科技领袖,包括山姆·阿尔特曼、彼得·泰尔、里德·霍夫曼和埃隆·马斯克等人创办。)的gpt-4o(GPT-4o的名称中“o”代表Omni,即全能的意思,凸显了其多功能的特性,GPT-4o是OpenAI为聊天机器人ChatGPT发布的语言模型,“可以实时对音频、视觉和文本进行推理,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量,并能够读取人的情绪。可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似。北京时间2024年5月14日凌晨,OpenAI宣布推出GPT-4o,GPT-4o在处理速度上提升了高达200%,同时在价格上也实现了50%的下降,GPT-4o所有功能包括视觉、联网、记忆、执行代码以及GPT Store等,将对所有用户免费开放。5月15日,OpenAI联合创始人兼首席执行官山姆·奥特曼就GPT-4o说明称,尽管GPT-4o的文本模式已经发布,但语音模式还未发布。)对每百万个输入代币收费2.50美元,对每百万个输出代币收费10美元。这两个模型并不相等且支持不同的功能,所以选择并不像“哪个模型更便宜”那样简单。
“生成式人工智能模型的消费者必须在价格、能力和性能之间找到平衡。每个人都希望以尽可能低的价格尽快获得最高质量的代币,”领先的云服务公司和AWS高级服务合作伙伴Caylent(是一家AWS云服务公司,帮助组织在以技术为中心的世界中蓬勃发展。)的首席技术官Randall Hunt(兰德尔·亨特)说。
在数据的“向量化”方面还存在额外的费用,例如将图像、文本或其他信息转换为代表底层数据的语义而不是具体内容的数值格式,称为嵌入。
“嵌入模型通常比大型语言模型更便宜。例如,Cohere(人工智能初创公司。成立于2019年,开发人员可以使用该公司创建的自然语言处理软件为企业构建人工智能应用程序,包括聊天机器人工具和其他可以理解人类语音和文本的功能。2021年11月,该公司宣布与谷歌建立多年合作关系,由谷歌的云部门为Cohere提供训练软件模型所需的计算能力。)的Embed English(Cohere Embed English是一款轻量级的英文嵌入模型,适合需要快速处理文本但又不失准确性的应用。它是由Cohere公司开发的,专门用于文本嵌入/Text Embedding的模型。)嵌入模型每百万个代币收费0.10美元。嵌入可以使用hierarchical navigable small world/HNSW(分层可导航小世界网络算法。是一种用于高效向量检索的图结构算法,特别适用于大规模、高维数据集的相似性检索。它基于小世界网络原理,通过构建一个多层次的图结构,能够快速找到与查询点相似的数据点。HNSW的核心思想是构建一个由多层次小世界网络组成的结构,每一层次的图都可以被视为一个小世界网络,提供快速的局部搜索能力。)和cosine similarity(余弦相似度。是一种衡量两个非零向量之间角度的度量方法,通常用于文本分析、信息检索、推荐系统等领域。它通过测量两个向量之间的夹角的余弦值来评估它们的相似度。余弦相似度关注的是两个向量的方向而不是它们的大小,因此可以很好地捕捉向量之间的相似性而不受向量长度的影响。)等技术来进行相对高效的搜索,这并不重要,但它需要使用针对此类搜索进行优化的数据库扩展或专门的数据存储——进一步增加了成本。所有这些成本都是累加的,并且它可以影响各种人工智能项目的单位经济效益。”
8.运营技术数据
公司正被数据淹没。这适用于大多数组织,但对于不断从设备、传感器、机械等收集operational technology/OT(运营技术或运维技术。OT技术主要用于连接生产现场设备与系统,实现自动控制的工业通讯网络。)数据的工业公司来说尤其如此。工业公司渴望整合OT和IT数据的洞察,以便基于对业务的整体视图进行数据驱动的决策。
“在2025年及以后,能够成功赋予数据上下文并在多样化的OT和IT数据源之间建立高效和安全连接的公司,将最有能力在整个组织中扩展数据,以实现最佳可能的结果,”工业软件公司AspenTech(艾斯本技术有限公司,总部位于美国,为过程行业软件与服务提供商,其主要产品为Aspen Engineering Suite大型通用模拟系统。日前应用最广泛的是其aspenONE软件的V7.X版本。)的首席技术官Heiko Claussen(海科·克劳森)说,“点对点的数据连接可能是混乱和复杂的,导致信息孤岛和瓶颈,这可能使数据对敏捷决策、企业规模的数字化转型计划和人工智能应用的效果降低。”
如果没有OT数据结构,拥有100个数据源和100个使用这些数据源的程序的组织将需要编写和维护10,000个点对点连接。使用OT数据结构,这个数字可以降低到200个连接。此外,这些连接中的许多将基于相同的驱动程序,因此更容易维护和保护。
作者:Lisa Morgan(丽莎·摩根)
Lisa Morgan(丽莎·摩根)是一位自由撰稿人,为InformationWeek撰写有关商业、IT战略和新兴技术的文章和报告。
译者:宝蓝
【睿观:可扩展性问题一直困扰着计算和网络工作,但现在环境更加复杂且更具挑战性,需要从多个维度进行综合考虑。通过优化流程、提升IT运营效率、简化架构、加强数据管理、合理利用人工智能等手段,企业可以更好地应对可扩展性的挑战,实现持续发展。
随着企业规模的扩大和技术复杂性的增加,可扩展性问题日益严峻。企业在扩展过程中面临诸多挑战,如流程、IT运营、架构、数据可见性、SaaS服务API、人工智能、运营技术数据和生成式人工智能等方面的瓶颈。
流程扩展的挑战: 手动流程阻碍了速度和规模,自动化是关键。
IT运营扩展的挑战: IT团队面临着以更少的资源完成更多工作的压力,需要借助AIOps等工具提高效率。
架构扩展的挑战: 复杂的架构限制了扩展性,应在设计阶段注重简单性。
数据可见性扩展的挑战: 非结构化数据管理难度大,需要确保数据安全和可访问性。
SaaS服务API扩展的挑战: API的瓶颈限制了系统的扩展能力。
人工智能扩展的挑战: 人工智能的扩展需要考虑成本、性能和能力之间的平衡。
运营技术数据扩展的挑战: OT数据的整合和利用是工业企业面临的重大挑战。
生成式人工智能扩展的挑战: 生成式人工智能的成本和性能是需要考虑的重要因素。
自动化流程: 通过自动化工具和技术,简化流程,提高效率。
优化IT运营: 利用AIOps等工具,提高IT运营的效率和自动化程度。
简化架构: 在系统设计阶段注重简单性,避免过度复杂化。
加强数据管理: 建立统一的数据管理平台,提高数据可见性和安全性。
优化API设计: 设计可扩展的API,提高系统的响应速度和稳定性。
合理规划人工智能应用: 根据业务需求选择合适的人工智能模型,并优化资源配置。
建立统一的OT数据结构: 提高OT数据的整合和利用效率。
关注生成式人工智能的成本和性能: 在选择生成式人工智能模型时,综合考虑成本、性能和功能。】