DataOps(数据运营,DataOps,即Data和Operations组合,DataOps 的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。)汇集了DevOps团队和数据工程师、数据科学家,提供实现数据主导型企业的工具、流程、技能。
来源:FATOS BYTYQI
一、DataOps是什么?
DataOps(数据运营)是为了提高开发和分析的敏捷性、面向过程的方法论。DevOps团队由数据工程师和数据科学家组成,提供支持重视数据的企业的工具、流程、组织结构。调查公司Gartner进一步说明了这个方法论是“改善整个组织的数据管理者和数据用户之间的沟通、整合、数据流的自动化过程方法”。
二、DataOps的目标
根据Dataversity,DataOps的目标是合理化基于数据和数据分析的应用程序的设计、开发和维护。改善数据管理方法和(数据)产品制作方法,以及时应对业务目标调整。根据Gartner的说法,DataOps也是“通过创建数据、数据模型以及相关成果物的可预测的交付和变更管理,更快地为业务提供价值”的目标。
三、DataOps和DevOps的关系
DevOps(开发与运营一体化)是将开发团队和运营团队组合起来,使其成为负责产品和服务的单一单元,为系统开发生命周期带来持续交付的软件开发方法论。DataOps基于这个概念,加入了数据分析师、数据开发人员、数据工程师和数据科学家等数据专家,数据流的共同开发和整个组织数据的持续使用。
专门从事DataOps的可视化和自动化软件的DataKitchen声称DataOps不仅仅是“数据DevOps”。无论哪种方法都是为了加速软件开发(DataOps是数据开发利用分析的软件),但DataOps需要同时管理数据运营。
四、DataOps的原则
和DevOps一样,DataOps也从敏捷方法中得到了启发。这种方法以满足顾客需求为首要目的,重视持续提供分析的洞察力。
根据DataOps Manifesto,DataOps团队重视功能性分析,用数据分析带来的有效决策信息来衡量其性能。DataOps团队也旨在接受变化,以理解不断进化的客户需求。朝着目标自我进化,优先考虑可持续和可扩展的团队和流程,努力减少“英雄主义”。
另外,DataOps团队从头到尾对数据、工具、代码和环境进行集成与协同,以提供可复用的结果为目标。这种团队对现有数据分析管道进行持续整合优化,定期从顾客、团队成员、运用统计中得到反馈。
五、DataOps的适用范围
现在的企业越来越多地将机器学习纳入大量的产品和服务中,DataOps是以支持机器学习的端到端需求为目的的方法。
Ted Dunning先生和Ellen Friedman先生说:“例如,在引入机器学习环境中,数据科学家在部署过程中将模型移交给运营团队时,提供必要的软件工程师。他在著作《Machine Learning Logistics》中记载了对机器学习训练的支持变得更加可行。
作者还补充说,“DataOps的方法并不局限于机器学习”。采用数据运营的组织对所有以数据为导向的工作都很有效,可以很容易地利用构建全球数据汇聚所带来的好处。”
另外,DataOps也与微服务架构很相配。
六、DataOps的实践
为了充分利用DataOps,Dunning先生和Friedman先生说,企业需要进化数据管理战略,在应对现实事件时处理规模较大的数据。
DataOps建立在DevOps上,兼顾开发、软件工程、架构和规划、产品管理、数据分析、数据开发、数据工程等岗位以建立包含“技能公会”的跨功能团队,通过确保开发者、运营负责人、数据专家之间的协作和沟通更加敏捷高效的方法来管理团队。
根据Dunning先生的说法,数据科学家也可能被列为DataOps团队的主要成员。“这里最重要的是,我认为数据科学家不能呆在象牙塔当中,而让数据开发与运营团队孤立无援。”最重要的一步是实际加入DevOps团队的数据科学家,要与DataOps团队在同一个房间工作,吃同样的饭,听到同样的投诉,自然就会步调一致。”
但是Dunning先生也指出,数据科学家可能不需要经常在DataOps团队。
“一般来说,数据科学家会暂时被分配到团队中,”Dunning先生解释道。数据科学家的能力和感性开始影响周围的人,团队中的可安排专人作为数据工程师,以扮演低预算数据科学家的角色。之后,实际隶属于队伍的数据科学家离开了队伍。队伍的状态是流动的。”
七、DataOps团队要掌握的技能方法
很多基于DevOps的企业已经掌握了DataOps团队的核心。识别出需要数据密集型开发的项目后,只需将接受数据培训的人纳入团队即可。在许多情况下,新人并不是数据科学家,而是数据工程师。DataKitchen向组织提出:寻找专门从事构建和实施能够实现数据组织内协作流程的DataOps工程师的建议——培训从开发到正式交付,能够为按需使用硬件、软件、数据和其他资源而设计协作机制的DataOps人才队伍。
许多团队由拥有重复技能组合的成员组成,另外,个人根据专业性,在DataOps团队中可以扮演多个角色。
根据Forrester的副总裁兼首席分析师Michele Goetz的说法,DataOps团队的主要专业领域包括:
1、数据库
2、整合
3、从数据到过程的整合与协同
4、数据策略的部署
5、数据和模型的整合
6、数据安全和隐私管理
无论构成如何,DataOps团队都必须以用户为中心建立数据驱动满足用户需求的共同目标。
八、DataOps的职务
Goetz先生说,DataOps的团队由以下成员组成。
1、数据专家:支持数据的展现和开发的最佳实践。
2、数据工程师:提供BI、分析、商业应用的临时性系统支持。
3、首席数据工程师:从事产品和面向顾客的成果的开发人员。
九、DataOps的工资
根据PayScale的数据,下面介绍与DataOps相关的最受欢迎的职业和各职业的平均工资。
1、分析经理:$72,000~$134,000
2、助理数据科学家:$61,000~$101,000
3、数据分析师:$46,000~$89,000
4、数据架构师:$81,000~$162,000
5、数据工程师:$67,000~$134,000
6、数据科学家:$70,000~$137,000
7、分析项目总监:$85,000~$177,000
十、DataOps工具
以下是DataOps的代表性工具。
1、Census:从唯一值得信赖的信息来源(数据仓库等)到CRM和广告平台等最先进的系统同步数据的过程,针对反向ETL的运用分析平台。
2、Databricks Lakehouse Platform:整合数据仓库和AI用例的数据管理平台。
3、Datafold:用于检测和修正数据质量问题的数据质量平台。
4、DataKitchen:多工具、多环境数据管道端到端管弦的数据观测、自动化平台。
5、Dbt:用于创建数据管道的数据转换工具。
6、Tengu:管理数据和管道的DataOps协同平台