数据工匠俱乐部 昨天
以下文章来源于谈数据 ,作者石秀峰
数据标准化、数据分析、大数据等数据相关的原创和经典摘录文章分享!
作者丨石秀峰
本文把小数据和大数据的基本概念,小数据治理与大数据治理的范围、区别、方法及主要特征介绍比较清晰。
(1)小数据治理靠“人工”,小数据的治理十五字方针:理数据、建标准、接数据、抓运营、重实效。
(2)大数据治理靠“智能”,大数据治理的六字方针:采、存、管、看、找、用。
年前分享的《数据治理治什么,在哪治,怎么治》有朋友留言说对于大数据治理分析的不透彻,因此,笔者将数据治理相关知识再次进行了整理归纳。个人所学有限,数据治理领域涉及知识博大精深,希望各位朋友,多多提意见、多多拍砖,我都将当做最宝贵的财产虚心采纳、不断改进!
小数据治理范围包括:主数据管理、数据标准管理、数据质量管理、元数据管理。小数据的治理讲求的是:有序、量化、精准,小数据的一切工作都是围绕这个目标而开展的。而在小数据治理领域,主数据管理的应用十分典型。虽然说小数据不等于是主数据,但主数据却是一种典型的小数据。主数据治理在小数据治理领域是具备一定的代表性的,完全符合小数据治理的“有序、量化、精准”三大目标。关于什么是主数据、什么是主数据管理,在本公众号以分享过多次,有兴趣的同学可以延伸阅读以下文章:
对于“大数据”我们都知道他的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)。由于这“4V”特点的存在,导致大数据的处理和利用模式,与传统的结构化数据不同。正如研究机构Gartner给出的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
大数据治理从概念上来说与数据治理没有差别,大数据治理也包含元数据管理、数据质量管理、数据安全管理、数据标准管理、数据全生命周期管理等领域。但从本质上而言,由于大数据的4V特点,传统的数据治理模式和技术并不完全适配大数据治理。
首先,传统数据治理重点是建立数据标准,然后在数据的全生命周期过程中来执行数据标准,从而提升数据质量。而大数据治理,数据来源多样化、数据结构多样化,数据传输存储形式的多样化……,这导致从一开始我们就很难为其定义数据标准。甚至有些数据都不知道他现在有什么价值,对于小数据治理如果数据定义、数据价值说不清楚的话,是没有必要纳入数据治理范围的。但大数据治理就是在这大量的看起来没有关系的数据中找关系,没有价值的数据中挖掘价值,这就是大数据治理的魅力所在。
另外,传统的小数据治理更多的是侧重于样本数据的治理,数据库的模式是Schema on Write,即在数据治理之前要先定义好数据的Schema,包括了数据库的表、视图、存储过程、索引等,以及每个数据库条目对应的映射关系等,其采集、处理的过程是基于定义的Schema进行执行的。而大数据治理关注的全量数据,数据库模式是Schema on Read的模式,即在采集各类数据时不需要定义各种数据库对象,整个采集存储过程没有涉及到任何转置,原始数据没有因为需要结构化或匹配差异系统而遭到破坏。
读时模型,作用于数据汇聚存储到数据分析之间,数据先存储,然后在需要分析的时候再为数据设置schema
关于大数据与小数据的区别网上有一段文字总结的非常精彩,这里分享给大家:
第一:大数据重预测,小数据重决定。大数据的分析方式是自下而上的知识发现和预测过程,通过在一堆杂乱无章的数据中找到其背后的规律,所以大数据是从不确定性中找确定性。小数据分析通常会采用统计学方法,分析方式是自上而下。
第二:大数据重感知,小数据重精准。大数据可以做整体上的感知,影响的范围更广,比如舆情监测、流感监测、网络营销、智慧城市等应用。小数据通常更关注数据的真实性和代表性,小数据更聚焦。大数据往往包含了众多真假难辨的数据,而小数据通常对于数据来源有严格的甄别,所以小数据更精准。
第三:大数据重相关,小数据重因果。大数据通常更注重是什么而不纠结于为什么,通过相关性来给出问题的解决方案。小数据是结果导向,更注重现象背后的内在机理,更关注于为什么。
第四:大数据重群体,小数据重个体。大数据的应用通常更注重群体性行为的分析结果,比如网络消费的大数据分析等,小数据往往更注重于个体的行为分析结果,个性化是小数据的重要特点。
数据表示的是过去,但表达的是未来。尽快大数据与小数据从数据处理和应用的角度有着很大的区别,但是对于大数据和小数据并不是“非黑即白”,而在我们的实际应用过程中两者是相辅相成的。我们应用数据不仅需要全量数据,也需要样本数据;不仅要了解相关性,更要明白因果关系;不仅要预见未来,更要量化自我。这就迫使我们从更广泛的角度理解小数据,梳理小数据与大数据的分野,从而将相关思路投射、印证于小数据,考察其核心特点和应用特质。
小数据的治理十五字方针:理数据、建标准、接数据、抓运营、重实效。
理数据:小数据治理追求的量化、精准,是以数据梳理为切入点,摸清楚数据问题的“病因、病理”,然后“对症下药”。理数据通常采用自上而下的方法,从数据问题结果出发,分析数据问题发生的原因。通过数据梳理和溯源、识别关键数据资产,厘清数据资产分布情况、数据质量情况、数据管理情况、数据量及存量、数据使用情况等。
建标准:标准体系的建设是需要结合实际的业务应用及管理需求,建立各专业数据定义和使用的规范及标准,并逐步验证标准设计的合理性和可用性。标准体系包含三个方面:一是制定数据标准,定义数据库表的Schema标准,数据分类、数据编码的标准。二是制定数据管理标准,明确数据管理组织、明确数据管理权责,定义数据管理和使用流程,制定数据管理制度和考核办法。三是制定数据交换标准,数据采集、存储、加工、使用的技术标准、接口标准等。
接服务:搭建数据治理平台,依据设计的数据标准和数据结构,结合当前应用系统的使用情况,选择合适的应用系统,并配置相应的信息化基础设施资源,进行数据源的接入。依据已定义的数据标准、数据质量约束、数据接口规范执行,该过程中需要大量的人工干预以完成数据标准化、数据清洗、新旧编码体系的映射等工作,形成一个标准化的数据环境。
抓运营:在数据的产生和使用过程中,需要根据业务和管理的实际情况对数据标准、数据管理制度进行持续的迭代优化,确保数据标准化的落地,和在在长期运行过程中的数据质量,防止数据质量的劣化。建体系容易、执行难,长期有效的坚持运营才是数据治理成功之本。这个过程,也是培养数据治理人才、建设数据文化的过程。一旦数据治理形成一种文化,当人人都以数据说话、以数据思考、以数据决策的时候,就标志着数据治理的成功,也标志着以数据为驱动的数字化时代来临。
重实效:根据不断变化的管理需求和应用需求,适时的调整现有数据管理活动以及规划未来活动的框架,以适应不断变化的应用需求。数据治理不是为治理数据而治理数据,而是为了更好的服务于业务和管理。数据治理要有一定的前瞻性,既要满足当前企业的业务和管理需求,也应满足企业未来的发展需求。
对于小数据治理本质上是对利益相关者的沟通和协调,用于确保管理和保护重要的关键数据。它涉及到个人,方法和创新的简化协调,其顺序使其能够实现企业的数据价值。可见,小数据的治理更多的是人的因素,所以我们说:小数据治理靠“人工”。
大数据治理的六字方针:采、存、管、看、找、用。
采。很多数据价值的发现是来自对多源、异构数据的关联和对关联在一起的数据分析。将多个不同的数据集融合在一起,可以使数据更丰富,使大数据分析、预测更准确。然而,由于缺乏统一的数据标准设计,多源数据抽取和融合面临的困难是巨大的,人工智能技术的应用就显得十分重要。在数据实体识别方面,利用自然语言处理和数据提取技术,从非结构化的文本中识别实体和实体之间的关联关系。例如:基于正则表达式的数据提取,将预先定义的正则表达式与文本匹配,把符合正则的数据定位出来。基于机器学习模型进行文本识别,预先将一部分文本进行实体标注,产生一系列分词,然后利用这个模型对其他文档进行实体命名识别和标注。在这个过程中指代消解是自然语言处理中和实体识别关联的一个重要问题,比如:某医生,除了其姓名、职务、专业外,在文本中可能还会使用某医生、某大夫、某专家等代称,如果文本中还涉及其他人物,也用了相关的代称,那么把这些代称应用到正确的命名实体上就是指代消除。
存。与传统的小数据治理不同,大数据环境下数据发展呈多样化,传统数据治理强调的建目标、建体系,似乎很难适应大数据的多变。前文我们说过大数据的数据库模式是读时模式(Schema on Read),在数据采集、存储过程中并不关注数据的Schema (即数据结构),而是在数据分析的时候再为数据设置Schema,这就导致为大数据建立统一的Schema标准是行不通的。在大数据治理过程中,强调的是数据的关联性,数据标准是被弱化的。
管。这部分笔者认为与传统的小数据治理没有太大差别,核心是建立数据治理体系和长效运行机制。
看。传统数据治理从理数据、建标准到接数据、抓运营的整个过程中,都是技术+管理共同推进的。也有人说,数据治理太过技术化,做完以后领导看不到效果。大数据治理是不仅让大数据能被管起来,还能被看到。在大数据治理项目建设过程中,利用数据可视化技术,将底层的数据以可视化的方式展示出来,让用户能够看到,在一定程度上也标志着项目的成功。大数据治理中可视化应用包括:数据资产地图、数据热度分析、数据血缘分析、数据质量问题分析等。
找。在业务场景或业务环节中如果能够准确、高效的找到想要的数据?是大数据治理需要研究的一个课题。一般来说通过技术元数据查找相应的数据是比较容易实现的,但是数据治理目标是为业务服务的,业务人员对技术元数据并不清楚、也不熟悉,如何让业务人员像用搜索引擎一样能够找到自己想要的数据,这就需要建立业务元数据和技术元数据的匹配。而在大数据环境下,业务元数据和技术元数据的匹配关系显然不是通过“人工”的方式可以完成的,这就需要借助人工智能技术。在“找”数据的应用中,知识图谱的应用无疑是一种最佳解决方案。知识图谱通过从各种结构化数据、半结构化数据(形如HTML表格、文本文档中)抽取相关实体的属性-值对来丰富实体的描述,形成实体-属性-值,和实体-关系-实体的图谱描述,从而实现数据的快速定位和精准查询。
用。大数据治理对大数据采、存、管、用的规范化管理,是要让数据不仅能够“管得住”、“找得到”,还要让数据能够“用得好”。事实上,大数据的治理从来与大数据的应用相伴相生的,离开应用搞大数据治理是行不通。智能数据服务就是一个集治理与应用为一体的数据服务形式,通过数据服务的形式对外提供数据。也就是说,通过数据接口你就能够找到想要的数据,将数据接口嵌入到各个想要的业务系统中,遇到数据质量问题的时候也能直接定位到问题所在,而不再是等进入到数据治理系统里才能判定出血缘关系。
在不久的将来,大数据、小数据的界限或将被消除,取而代之的是“全域数据”。大数据、小数据都是从技术层面对数据的描述或表达,而全域数据是从业务角度进行定义和描述。对于每个企业的全域数据覆盖范围是不一样的,全域数据涵盖了企业相关的内外部数据,与企业的业务和商业性质息息相关。2019年“数据中台”的概念在全国范围内被推上了一个高潮,也有人将2019年称之为数据中台的元年。所以,未来的数据治理会形成基于小数据治理体系和大数据治理技术,在数据中台落地的数据治理新模式。比如,未来智能交通领域,将有可能用全量实时的数据,来感知城市每辆车所在的具体位置、每个红绿灯路口的车辆信息,并对这些情况进行全局调控,从而大幅提升城市交通运营效率。而实现这一目的,离不开对数据的挖掘和分析,以及人工智能的深度学习。