编辑:[db:作者] 时间:2024-08-25 03:18:13
数据天然具备不同的属性和特色,也一定存在不同的管理主体,出于不同的管理目的、基于不同的数据属性或特色对数据采取不同的分类方法。
不同维度下数据的分类如下:
1. 按数据的构造特色
l 构造化数据
构造化的数据是指可以利用关系型数据库表示和存储,表现为二维形式的数据。
其一样平常特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
l 非构造化数据
非构造化数据是数据构造不规则或不完全,没有预定义的数据模型,未便应用数据库二维逻辑表或自描述措辞来表现的数据。
它实质上是异构和可变的,可同时具有多种格式,包括:文档、文本、图片、音频、视频等。
l 半构造化数据
指非关系模型的,具有基本固定构造模式的数据。它一样平常是自描述的,数据的构造和内容稠浊在一起,没有明显的区分。例如html、日志文件、XML、JSON、E-mail等。
半构造化数据是构造化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型构造,但包含干系标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的构造。
2. 按数据的运用层次
l 第一层:元数据
元数据是关于数据的构造化数据,用于定义和描述其他数据,便于理解、查找、获取、利用和管理数据。根据其属性的不同,元数据可分为业务元数据、技能元数据、管理元数据。
l 第二层:参考数据
参考数据,是数据可能的取值范围及其阐明,是对其他数据进行分类和规范的数据。
l 第三层:主数据
主数据也称为基准数据,是用来描述企业内部核心业务工具的、具有高业务代价的、在企业内被多个业务部门和系统之间共享的、且相对静态的数据,被誉为企业的“黄金数据”。
l 第四层:事务数据
事务数据,也称为活动数据,指的是记录企业经营和管理过程中产生的事务型数据,比如发卖订单,采购订单,报销流程工单等。
l 第五层:剖析数据
剖析数据,指的是由各种事务数据组成的数据,比如各种报表,BI剖析,审计数据等,是由很多事务型数据,进行组合搭建的。
l 第六层:规则数据
规则数据是构造化描述业务规则变量的数据(如会员等级评级规则、数据质量校验规则等),是实现业务规则的核心数据。规则数据不可实例化,规则数据的变更对业务活动的影响是大范围的。
须要解释的是:规则数据,与参考数据、主数据、事务数据、剖析数据等并不是严格的层次关系,而是超过参考数据、主数据、事务数据、剖析数据等四层,参考数据、主数据、事务数据、剖析数据中,都会涉及到对规则数据的调用。
3. 按数据的生产办法
l 原始数据
原始数据是指来自上游系统的,没有做过任何加工的数据。
虽然会从原始数据中产生大量衍生数据,但还是会保留一份未作任何修正的原始数据,一旦衍生数据发生问题,可以随时从原始数据重新打算。
l 衍生数据
衍生数据是指通过对原始数据进行加工处理后产生的数据。衍生数据包括各种数据集市、汇总层、宽表、数据剖析和挖掘结果等等。从衍生目的上,可以大略分为两种情形,一种是为提高数据交付效率,数据集市、汇总层、宽表都属于这种情形。另一种是为办理业务问题,数据剖析和挖掘结果就属于这种。
4. 按描述事物的角度
l 状态类数据
描述客不雅观天下的实体,也即一个个工具,比如人、桌子、账户等等。对付这些工具,各有各的特色,不同种类的工具拥有不同的特色,比如人的特色包括姓名、性别和年事,桌子的特色包括颜色和材质;对付同一种工具的不同个体,其特色值不同,比如张三男20岁,李四女24岁。有些特色稳定不变,而另一些则会不断发生变革,比如性别一样平常不变,但账户金额、人的位置则随时可能变革。
因此,可以利用一组特色数据来描述每个工具,这些数据可以随韶光发生变革(数据的变革一方面依赖于工具的变革,另一方面依赖于变革反响到数据上的韶光差),每个时点的数据反响这个时点工具所处的状态,因此称之为状态类数据。
l 事宜类数据
描述客不雅观天下中工具之间的关系,它们是怎么互动的,怎么发生反应的。我们把这一次次互动或反应记录下来,这类数据称之为事宜类数据。比如客户到商店买了件衣服,这里涌现三个工具,分别是客户、商店、衣服,三个工具之间发生了一次交易关系。
l 稠浊类数据
稠浊类数据理论上也属于事宜类数据范畴,两者的差别在于,稠浊类数据所描述的事宜发生过程持续较长,记录数据时该事宜还没有结束,还将发生变革。比如订单,从订单天生到结案全体过程须要持续一段韶光,首次记录订单数据是在订单生产的时候,订单状态、订单金额后续还可能多次变革。
5. 按数据的存储办法
数据按其存储办法,可以分为关系型数据、键值数据、列式数据、图数据、文档数据等。
l 关系型数据
采取关系数据模型的数据库系统,关系数据模型实际上是表示各种实体及其之间联系的由行和列构成的二维表构造。一个关系数据库由多个二维表组成。表中的每一行为一个元组,每一列为一个属性,对关系型数据库进行操作常日采取构造化查询措辞。
l 键值数据
是一种非关系数据库,它利用大略的键值方法来存储数据。键值数据库将数据存储为键值对凑集,个中键作为唯一标识符。键和值都可以是从大略工具到繁芜复合工具的任何内容。键值数据库是高度可分区的,并且许可以其他类型的数据库无法实现的规模进行水平扩展。
l 列式数据
是一种非关系数据库,以列干系存储架构进行数据存储的数据库,紧张适宜于批量数据处理和即时查询。相对应的是行式数据库,数据以行干系的存储体系架构进行空间分配,紧张适宜于小批量的数据处理,常用于联机事务型数据处理。
l 图数据
是一种非关系型数据库,它运用图形理论存储实体之间的关系信息。比如,社会网络中人与人之间的关系。
l 文档数据
是NoSQL中非常主要的一个分支,它紧张用来存储、索引并管理面向文档的数据或者类似的半构造化数据。
6. 按数据的产生频率
l 批量数据
这种办法下,数据每隔一段韶光供应一次,把该时段内所有变革的数据都供应过来。批量办法时效较低,大部分传统系统都采取T+1办法,业务用户最快只能剖析到前一天的数据,看前一天的报表。
l 实时数据
每当数据发生变革或产生新数据,就会急速供应过来。这种办法时效快,能有效知足时效哀求高的业务,比如场景营销。但该办法对技能哀求更高,必须担保系统足够稳定,一旦涌现数据缺点,随意马虎造成较严重的业务影响。
7. 按数据的利用频率
l 热数据
热数据是须要被打算节点频繁访问的在线类数据。
比如可以是半年以内的数据,用户常常会查询它们。热数据适宜放在数据库中存储,比如MySql、MongoDB和Hbase等。
l 冷数据
冷数据是指离线类不常常访问的数据。紧张用于灾害规复的备份或者由于要遵守法律规定必须保留一段韶光,比如企业备份数据、业务与操作日志数据、话单与统计数据等。
冷数据常日会存储在性能较低、价格较便宜的文件系统里,适用于离线剖析,比如机器学习中的模型演习或者大数据剖析。
l 温数据
温数据是非即时的状态和行为数据,也可以大略理解为把热数据和冷数据混在一起就成了温数据。如果整体数据量不大,也可以不区分温数据和热数据。
8. 按数据的连续属性
l 连续型数据
连续数据类型代表着数据的取值是连续不间断的,可以用某种尺度进行连续的丈量取值,在可能值的有限或无限范围内都可以无限取值。
从统计学上讲,范围是指最高和最低不雅观察值之间的差异。连续数据可以分解为分数和小数,即可以根据丈量精度将其故意义地细分为更小的部分。
例如人的身高,商品的价格,水果的重量等。
l 离散型数据
离散数据是指依赖计数的定量数据类型,仅包括那些只能以整数或整数打算并且是独立的值,这意味着数据不能分解为小数或小数。
例如,学校的学生人数,停车场的汽车数量,实验室的打算机数量,动物园的动物数量等。
9. 按数据的丈量尺度(统计数据的分类)
l 定类数据
名义级数据,表示个体在属性上的特色或种别上的不同变量,仅仅是一种标志,没有顺序关系。
例如,性别“男”编码为1,“女”编码为2。
定类数据是数据的最低级。
l 定序数据
用数字表示个体在某个有序状态中所处的位置,不能做四则运算。
具有内在固有大小或高低顺序,能够对事物进行分类,比较事物之间的大小差异,但不能做四则运算。
例如,“受教诲程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。
定序数据是数据的中间级。
l 定距数据
由定距尺度计量形成的,具有间距特色的变量,表现为数值,有单位,是对事物进行精确描述的数据。
定距尺度不仅能比较各种事物的利害,还能打算失事物之间差异的大小,以是其数据表现为“数值”。
定距数据可以进行加减运算,但不能做乘除运算,其缘故原由为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有)。
例如,每一度的温差都是相同的,为1度;再比如,百分制考试成绩,分值之间的间隔一样平常为10分,即60~70分为一档,70~80分为一档,80~90分为一档。
l 定比数据
是有序的数据排列,存在一个绝对的零点,所描述的都是具有零值基准的变量,包括重量、高度和长度等。如商品的发卖额。
定比数据既有丈量单位,也有绝对零点(可以取值为0),可以做乘除运算。
定比数据是数据的最高级。
不同测度级别的数据,运用范围不同。等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。
一样平常来说,数据的等级越高,运用范围越广泛,等级越低,运用范围越受限。
10.按数据的共享属性
公共数据按照共享属性分为无条件共享类、有条件共享类和不予共享类三种类型。
l 无条件共享类
可以供应给所有公共管理和做事机构共享利用的公共数据属于无条件共享类。
l 有条件共享类
可以按照一定条件供应给有关公共管理和做事机构共享利用的公共数据属于有条件共享类。
l 不予共享类
不宜供应给其他公共管理和做事机构共享利用的公共数据属于不予共享类。
11.按数据的开放属性
公共数据按数据的开放属性,可以分为禁止开放类、受限开放类、无条件开放类等。
l 禁止开放类
开放后涉及国家安全、公共安全、经济安全和社会稳定的;涉及商业秘密、个人隐私的;因数据获取协议或者知识产权保护等禁止开放的;法律、法规规定不得开放的。
l 受限开放类
涉及商业机密、个人隐私,其指向的特定公民、法人或者其它组织赞许开放,且法律、法规未禁止的;开放将严重挤占公共根本举动步伐资源,影响公共数据处理效率的;开放安全风险难以评估的;依法经脱敏、脱密等处理的禁止开放类公共数据,符合受限开放的,应列为受限开放类公共数据。
l 无条件开放类
除禁止开放类与受限开放类公共数据以外的其他公共数据;已脱敏、脱密等处理的禁止开放类与受限开放类公共数据,符合无条件开放的,可列为无条件开放类公共数据。
12.按字段的类型
l 文本类(string、char、text等)
文本类数据常用于描述性字段,如姓名、地址、交易择要等。这类数据不是量化值,不能直接用于四则运算。在利用时,可先对该字段进行标准化处理(比如地址标准化)再进行字符匹配,也可直接模糊匹配。
l 数值类(int、float、number等)
数值类数据用于描述量化属性,或用于编码。如交易金额、额度、商品数量、积分数、客户评分等都属于量化属性,可直接用于四则运算,这天常打算指标的核心字段。邮编、身份证号码、卡号之类的则属于编码,是对多个列举值进行有规则编码,可进行四则运算,但无本色业务含义,不少编码都作为维度存在。
l 韶光类(data、timestamp等)
韶光类数据仅用于描述事宜发生的韶光,韶光是一个非常主要的数据剖析维度。
13.按数据的粒度
l 明细数据
常日从业务系统获取的原始数据,是粒度比较小的,包括大量业务细节。比如,客户表中包含每个客户的性别、年事、姓名等数据,交易表中包含每笔交易的韶光、地点、金额等数据。这种数据我们称之为明细数据。明细数据虽然包括了最为丰富的业务细节,但在剖析和挖掘时,每每须要进行大量的打算,效率比较低。
l 汇总数据
为了提高数据剖析效率,须要对数据进行预加工,常日按韶光维度、地区维度、产品维度等常用维度进行汇总。剖析数据时,优先利用汇总数据,如果汇总数据知足不了需求则利用明细数据,以此提高数据利用效率。
14.按数据的归属主体
l 政府数据
政府数据是指政府所拥有和管理的数据,以及政府因开展事情而产生或因管理做事需求而采集的外部大数据,为政府自有和面向政府的大数据。狭义上确当局数据紧张包括公安、交通、医疗、卫生、就业、社保、地理、文化、教诲、科技、环境、金融、统计及气候等数据。
l 企业数据
企业数据是指所有与企业经营干系的信息和资料,包括企业概况、产品信息、经营数据及研究成果等,也包括企业的商业机密。
l 个人数据
个人数据是指以电子或其他办法记录的能够单独或与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址及电话号码等。
15.按公民个人维度
按照数据是否可识别自然人或与自然人关联,将数据分为个人信息、非个人信息。
16.按公共管理维度
为便于国家机关管理数据、促进数据共享开放,将数据分为公共数据、社会数据。
17.按信息传播维度
按照数据是否具有公共传播属性,将数据分为公共传播信息、非公共传播信息。
18.按行业领域维度
按照数据处理涉及的行业领域,将数据分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生康健数据、教诲数据、科技数据等,其他行业领域可参考GB/T 4754—2017《国民经济行业分类》。
19.按组织经营维度
分为用户数据、业务数据、经营管理数据、系统运行和安全数据。
l 用户数据
组织在开展业务做事过程中从个人用户或组织用户网络的数据,以及在业务做事过程中产生的归属于用户的数据。如个人用户信息(即个人信息)、组织用户信息(如组织基本信息、组织账号信息、组织信用信息等)。
l 业务数据
组织在业务生产过程中网络和产生的非用户类数据。如产品数据、条约协议等。
l 经营管理数据
组织在机构经营管理过程中网络和产生的数据。如经营计策、财务数据、并购及融资信息等。
l 系统运行和安全数据
网络和信息系统运维及网络安全数据。如网络和信息系统的配置数据、网络安全监测数据、备份数据、日志数据、安全漏洞信息等。
20.按组织数据的来源
按组织数据的来源,分为内部数据和外部数据。
内部数据自己单位内部产生的数据。
外部数据指从本单位外部得到的数据。
21.按数据的业务主题
企业或组织常日都有自己的业务分类,基于数据所反响的业务主题,可以将数据按业务板块、数据域、数据主题等层次进行分类。
比如电商企业,按业务域分类,可以分为零售板块、物流板块、金融板块等。
按数据域划分,常日会包括营销域、发卖域、会员域、供应链域、产品域、财务域、人事域等。
总之,数据分类在数据资产管理中的代价很大,但一定要以业务代价为导向,要么提升管理效率,要么能提升客户体验,不要为了分类而分类。(全文完)
干系推举:
数据、信息、知识、聪慧的基本观点及DIKM模型先容、
数据管理、数据管理、数据资产管理等干系观点辨析
万字长文,全面阐述数据管理体系
基于数据运用层次的数据分类模型
戴德遇见,如果以为有用,记得点击右上方的“关注”哟,定期为您分享实用的干货~
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/bx/96216.html
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com