(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 111274233 A(43)申请公布日 2020.06.12
(21)申请号 2020100442.2(22)申请日 2020.01.15
(71)申请人 云南电网有限责任公司信息中心
地址 650200 云南省昆明市官渡区云大西
路105号云电科技园(72)发明人 田园 马文 原野 李申章
张新阳 李辉 (74)专利代理机构 深圳紫晴专利代理事务所
(普通合伙) 446
代理人 程玉红(51)Int.Cl.
G06F 16/215(2019.01)G06F 9/48(2006.01)
权利要求书1页 说明书3页 附图1页
(54)发明名称
一种基于大数据的数据治理系统及其治理方法
(57)摘要
本发明公开了一种基于大数据的数据治理系统,包括数据采集模块,用于对待处理数据进行采集;数据分类模块,用于对待处理数据进行分类;治理任务分配模块,用于分配数据治理任务;治理任务实施模块,用于对数据治理任务进行实施;数据整合模块,用于对处理后的数据进行整合。本发明能够改进现有技术的不足,提高数据治理的处理效率。
CN 111274233 ACN 111274233 A
权 利 要 求 书
1/1页
1.一种基于大数据的数据治理系统,其特征在于包括:数据采集模块(1),用于对待处理数据进行采集;数据分类模块(2),用于对待处理数据进行分类;治理任务分配模块(3),用于分配数据治理任务;治理任务实施模块(4),用于对数据治理任务进行实施;数据整合模块(5),用于对处理后的数据进行整合。
2.一种权利要求1所述的基于大数据的数据治理系统的治理方法,其特征在于包括以下步骤:
A、数据采集模块(1)对待处理数据进行采集;B、数据分类模块(2)根据预设的数据治理任务对数据进行分类;C、治理任务分配模块(3)对数据治理任务进行分配;D、治理任务实施模块(4)根据数据治理任务分配结果对数据治理任务进行实施;E、数据整合模块(5),对处理后的数据进行整合。
3.根据权利要求2所述的基于大数据的数据治理系统的治理方法,其特征在于:步骤B中,对数据进行分类包括以下步骤,
B1、在预设的数据治理任务中提取分类关键字;B2、对分类关键字进行聚类处理,并建立不同聚类中心之间的关联映射;B3、对每一类的分类关键字进行调整,使得所有聚类中心之间的关联映射线性相关;B4、使用经过步骤B3调整后的聚类中心对数据进行分类。
4.根据权利要求3所述的基于大数据的数据治理系统的治理方法,其特征在于:步骤B2中,聚类后的聚类中心数量不大于20,若聚类后的聚类中心数量大于20,则根据数据量对各个聚类组进行降序排列,保留前20个聚类组,将其余聚类组中的数据根据其与保留的聚类中心的相似度,选择相似度最高的聚类中心进行合并。
5.根据权利要求4所述的基于大数据的数据治理系统的治理方法,其特征在于:步骤C中,对数据治理任务进行分配包括以下步骤,
C1、对数据治理任务进行优先级排序;C2、优先分配高优先级数据治理任务;在实施数据治理任务的同时,将与涉及到的数据聚类组关联度最大的数据治理任务的优先级上调,上调幅度与上述关联度成正比。
6.根据权利要求5所述的基于大数据的数据治理系统的治理方法,其特征在于:步骤D中,对数据治理任务进行实施包括以下步骤,
D1、对数据治理任务进行分解,得到若干个任务节点;D2、在每个任务节点上同步开始数据治理运算,数据治理运算过程中使用其起始的任务节点对处理过的数据进行标记。
2
CN 111274233 A
说 明 书
一种基于大数据的数据治理系统及其治理方法
1/3页
技术领域
[0001]本发明涉及数据处理技术领域,尤其是一种基于大数据的数据治理系统及其治理方法。
背景技术
[0002]数据治理是指对数据中存在的内容不规范、格式不统一等问题进行处理的过程。在数据处理进入大数据时代后,数据治理的重要性日益明显,通过有效的数据治理可以明显提高数据处理的效率。不过,现有的数据治理过程本身就需要消耗大量的运算,不利于对于数据处理整个过程效率的提高
发明内容
[0003]本发明要解决的技术问题是提供一种基于大数据的数据治理系统及其治理方法,能够解决现有技术的不足,提高数据治理的处理效率。[0004]为解决上述技术问题,本发明所采取的技术方案如下。[0005]一种基于大数据的数据治理系统,包括:[0006]数据采集模块,用于对待处理数据进行采集;[0007]数据分类模块,用于对待处理数据进行分类;[0008]治理任务分配模块,用于分配数据治理任务;[0009]治理任务实施模块,用于对数据治理任务进行实施;[0010]数据整合模块,用于对处理后的数据进行整合。
[0011]一种上述的基于大数据的数据治理系统的治理方法,包括以下步骤:[0012]A、数据采集模块对待处理数据进行采集;[0013]B、数据分类模块根据预设的数据治理任务对数据进行分类;[0014]C、治理任务分配模块对数据治理任务进行分配;[0015]D、治理任务实施模块根据数据治理任务分配结果对数据治理任务进行实施;[0016]E、数据整合模块,对处理后的数据进行整合。[0017]作为优选,步骤B中,对数据进行分类包括以下步骤,[0018]B1、在预设的数据治理任务中提取分类关键字;[0019]B2、对分类关键字进行聚类处理,并建立不同聚类中心之间的关联映射;[0020]B3、对每一类的分类关键字进行调整,使得所有聚类中心之间的关联映射线性相关;
[0021]B4、使用经过步骤B3调整后的聚类中心对数据进行分类。[0022]作为优选,步骤B2中,聚类后的聚类中心数量不大于20,若聚类后的聚类中心数量大于20,则根据数据量对各个聚类组进行降序排列,保留前20个聚类组,将其余聚类组中的数据根据其与保留的聚类中心的相似度,选择相似度最高的聚类中心进行合并。[0023]作为优选,步骤C中,对数据治理任务进行分配包括以下步骤,
3
CN 111274233 A[0024]
说 明 书
2/3页
C1、对数据治理任务进行优先级排序;
[0025]C2、优先分配高优先级数据治理任务;在实施数据治理任务的同时,将与涉及到的数据聚类组关联度最大的数据治理任务的优先级上调,上调幅度与上述关联度成正比。[0026]作为优选,步骤D中,对数据治理任务进行实施包括以下步骤,[0027]D1、对数据治理任务进行分解,得到若干个任务节点;[0028]D2、在每个任务节点上同步开始数据治理运算,数据治理运算过程中使用其起始的任务节点对处理过的数据进行标记。
[0029]采用上述技术方案所带来的有益效果在于:本发明通过在进行数据治理之前和治理过程中,分两级对数据进行有效的分类,从而降低了运算的重复性,提高治理运算效率。在治理运算过程中,采用多线同步运算的策略,利用数据标记避免多线运算带来的数据暂存格式复杂的问题,从而有效提高治理运算的效率。附图说明
[0030]图1是本发明一个具体实施方式的原理图。
具体实施方式
[0031]参照图1,本发明一个具体实施方式包括,[0032]数据采集模块1,用于对待处理数据进行采集;[0033]数据分类模块2,用于对待处理数据进行分类;[0034]治理任务分配模块3,用于分配数据治理任务;[0035]治理任务实施模块4,用于对数据治理任务进行实施;[0036]数据整合模块5,用于对处理后的数据进行整合。
[0037]一种上述的基于大数据的数据治理系统的治理方法,包括以下步骤:[0038]A、数据采集模块1对待处理数据进行采集;[0039]B、数据分类模块2根据预设的数据治理任务对数据进行分类;[0040]C、治理任务分配模块3对数据治理任务进行分配;[0041]D、治理任务实施模块4根据数据治理任务分配结果对数据治理任务进行实施;[0042]E、数据整合模块5,对处理后的数据进行整合。[0043]步骤B中,对数据进行分类包括以下步骤,[0044]B1、在预设的数据治理任务中提取分类关键字;[0045]B2、对分类关键字进行聚类处理,并建立不同聚类中心之间的关联映射;[0046]B3、对每一类的分类关键字进行调整,使得所有聚类中心之间的关联映射线性相关;
[0047]B4、使用经过步骤B3调整后的聚类中心对数据进行分类。[0048]步骤B2中,聚类后的聚类中心数量不大于20,若聚类后的聚类中心数量大于20,则根据数据量对各个聚类组进行降序排列,保留前20个聚类组,将其余聚类组中的数据根据其与保留的聚类中心的相似度,选择相似度最高的聚类中心进行合并。[0049]步骤C中,对数据治理任务进行分配包括以下步骤,[0050]C1、对数据治理任务进行优先级排序;
4
CN 111274233 A[0051]
说 明 书
3/3页
C2、优先分配高优先级数据治理任务;在实施数据治理任务的同时,将与涉及到的
数据聚类组关联度最大的数据治理任务的优先级上调,上调幅度与上述关联度成正比。[0052]步骤D中,对数据治理任务进行实施包括以下步骤,[0053]D1、对数据治理任务进行分解,得到若干个任务节点;[0054]D2、在每个任务节点上同步开始数据治理运算,数据治理运算过程中使用其起始的任务节点对处理过的数据进行标记。
[0055]以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
5
CN 111274233 A
说 明 书 附 图
1/1页
图1
6