你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
从10个入门角度介绍DataOps(数据运营)将如何以协作为导向帮助CIO跨越部门墙?
作者:福建CIO网 来源:CIO.com 发布时间:2023年06月19日 点击数:

DataOps(数据运营,DataOps,即Data和Operations组合,DataOps 的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。)汇集了DevOps团队和数据工程师、数据科学家,提供实现数据主导型企业的工具、流程、技能。



来源:FATOS BYTYQI


一、DataOps是什么?


DataOps(数据运营)是为了提高开发和分析的敏捷性、面向过程的方法论。DevOps团队由数据工程师和数据科学家组成,提供支持重视数据的企业的工具、流程、组织结构。调查公司Gartner进一步说明了这个方法论是“改善整个组织的数据管理者和数据用户之间的沟通、整合、数据流的自动化过程方法”。


二、DataOps的目标


根据Dataversity,DataOps的目标是合理化基于数据和数据分析的应用程序的设计、开发和维护。改善数据管理方法和(数据)产品制作方法,以及时应对业务目标调整。根据Gartner的说法,DataOps也是“通过创建数据、数据模型以及相关成果物的可预测的交付和变更管理,更快地为业务提供价值”的目标。


三、DataOps和DevOps的关系


DevOps(开发与运营一体化)是将开发团队和运营团队组合起来,使其成为负责产品和服务的单一单元,为系统开发生命周期带来持续交付的软件开发方法论。DataOps基于这个概念,加入了数据分析师、数据开发人员、数据工程师和数据科学家等数据专家,数据流的共同开发和整个组织数据的持续使用。


专门从事DataOps的可视化和自动化软件的DataKitchen声称DataOps不仅仅是“数据DevOps”。无论哪种方法都是为了加速软件开发(DataOps是数据开发利用分析的软件),但DataOps需要同时管理数据运营。


四、DataOps的原则


和DevOps一样,DataOps也从敏捷方法中得到了启发。这种方法以满足顾客需求为首要目的,重视持续提供分析的洞察力。


根据DataOps Manifesto,DataOps团队重视功能性分析,用数据分析带来的有效决策信息来衡量其性能。DataOps团队也旨在接受变化,以理解不断进化的客户需求。朝着目标自我进化,优先考虑可持续和可扩展的团队和流程,努力减少“英雄主义”。


另外,DataOps团队从头到尾对数据、工具、代码和环境进行集成与协同,以提供可复用的结果为目标。这种团队对现有数据分析管道进行持续整合优化,定期从顾客、团队成员、运用统计中得到反馈。


五、DataOps的适用范围


现在的企业越来越多地将机器学习纳入大量的产品和服务中,DataOps是以支持机器学习的端到端需求为目的的方法。


Ted Dunning先生和Ellen Friedman先生说:“例如,在引入机器学习环境中,数据科学家在部署过程中将模型移交给运营团队时,提供必要的软件工程师。他在著作《Machine Learning Logistics》中记载了对机器学习训练的支持变得更加可行。


作者还补充说,“DataOps的方法并不局限于机器学习”。采用数据运营的组织对所有以数据为导向的工作都很有效,可以很容易地利用构建全球数据汇聚所带来的好处。”


另外,DataOps也与微服务架构很相配。


六、DataOps的实践


为了充分利用DataOps,Dunning先生和Friedman先生说,企业需要进化数据管理战略,在应对现实事件时处理规模较大的数据。


DataOps建立在DevOps上,兼顾开发、软件工程、架构和规划、产品管理、数据分析、数据开发、数据工程等岗位以建立包含“技能公会”的跨功能团队,通过确保开发者、运营负责人、数据专家之间的协作和沟通更加敏捷高效的方法来管理团队。


根据Dunning先生的说法,数据科学家也可能被列为DataOps团队的主要成员。“这里最重要的是,我认为数据科学家不能呆在象牙塔当中,而让数据开发与运营团队孤立无援。”最重要的一步是实际加入DevOps团队的数据科学家,要与DataOps团队在同一个房间工作,吃同样的饭,听到同样的投诉,自然就会步调一致。”


但是Dunning先生也指出,数据科学家可能不需要经常在DataOps团队。


“一般来说,数据科学家会暂时被分配到团队中,”Dunning先生解释道。数据科学家的能力和感性开始影响周围的人,团队中的可安排专人作为数据工程师,以扮演低预算数据科学家的角色。之后,实际隶属于队伍的数据科学家离开了队伍。队伍的状态是流动的。”


七、DataOps团队要掌握的技能方法


很多基于DevOps的企业已经掌握了DataOps团队的核心。识别出需要数据密集型开发的项目后,只需将接受数据培训的人纳入团队即可。在许多情况下,新人并不是数据科学家,而是数据工程师。DataKitchen向组织提出:寻找专门从事构建和实施能够实现数据组织内协作流程的DataOps工程师的建议——培训从开发到正式交付,能够为按需使用硬件、软件、数据和其他资源而设计协作机制的DataOps人才队伍。


许多团队由拥有重复技能组合的成员组成,另外,个人根据专业性,在DataOps团队中可以扮演多个角色。


根据Forrester的副总裁兼首席分析师Michele Goetz的说法,DataOps团队的主要专业领域包括:


1、数据库

2、整合

3、从数据到过程的整合与协同

4、数据策略的部署

5、数据和模型的整合

6、数据安全和隐私管理


无论构成如何,DataOps团队都必须以用户为中心建立数据驱动满足用户需求的共同目标。


八、DataOps的职务


Goetz先生说,DataOps的团队由以下成员组成。

1、数据专家:支持数据的展现和开发的最佳实践。

2、数据工程师:提供BI、分析、商业应用的临时性系统支持。

3、首席数据工程师:从事产品和面向顾客的成果的开发人员。


九、DataOps的工资


根据PayScale的数据,下面介绍与DataOps相关的最受欢迎的职业和各职业的平均工资。

1、分析经理:$72,000~$134,000

2、助理数据科学家:$61,000~$101,000

3、数据分析师:$46,000~$89,000

4、数据架构师:$81,000~$162,000

5、数据工程师:$67,000~$134,000

6、数据科学家:$70,000~$137,000

7、分析项目总监:$85,000~$177,000


十、DataOps工具


以下是DataOps的代表性工具。

1、Census:从唯一值得信赖的信息来源(数据仓库等)到CRM和广告平台等最先进的系统同步数据的过程,针对反向ETL的运用分析平台。

2、Databricks Lakehouse Platform:整合数据仓库和AI用例的数据管理平台。

3、Datafold:用于检测和修正数据质量问题的数据质量平台。

4、DataKitchen:多工具、多环境数据管道端到端管弦的数据观测、自动化平台。

5、Dbt:用于创建数据管道的数据转换工具。

6、Tengu:管理数据和管道的DataOps协同平台