高效验证数据质量,这12个维度应知必会
今天我们先聊聊数据质量,数据是算力、云游戏、人工智能(AI)和机器学习(ML)等等与大数据相关领域的基础,完整的数据类型和足够的数据量,则是机器模型训练场景的首要保证。因此,数据的质量成为各个领域中的重中之重。但这种方式的好处在于,平台先对模板中填写的数据质量进行验证,然后再导入数据库中,再验证数据库中表信息、表字段、字段的码值是否符合数据库的设计要求、数据规则、业务规则等等,减少未知的数据对数据
大数据中有最重要的部分,就是数据治理。数据治理领域包括但不限于以下内容:数据标准、元数据、数据模型、数据分布、数据存储、数据交换、数据生命周期管理、数据质量、数据安全及数据共享服务等等内容。
今天我们先聊聊数据质量,数据是算力、云游戏、人工智能(AI)和机器学习(ML)等等与大数据相关领域的基础,完整的数据类型和足够的数据量,则是机器模型训练场景的首要保证。而数据的正确性,则影响机器人识别事务能力的体现。因此,数据质量是是人工智能(AI)和机器学习(ML)发展的最大障碍。因此,数据的质量成为各个领域中的重中之重。
而数据质量的验证,对于测试人员来说,不是想像中的拿到什么数据就验证什么数据这么简单,因为数据的范围和类型都是未知且广泛的。因此,想做好数据的验证,只能一步步地对数据进行分解,然后再一步步的验证。
一、从数据的维度进行分解,可以分为以下12个维度:
各个维度对应的衡量标准以下:
1、完整性
·定义:必须的数据项已经被记录
· 衡量的标准:业务指定必需的数据是否缺失,不允许为空字符或是空值等。例如,数据源是否完整、维度取值是否完整、数据取值是否完整等。
· 按衡量的标准来设计的测试要点:
2、唯一性
· 定义:指的是某个事物或概念在特定范围内是独一无二的,不存在与其完全相同的事物或概念。
· 衡量的标准:在指定的数据集中是否存在重复值。
· 按衡量的标准来设计的测试要点:
实例:
如为在新增一个数据源时,数据源的名称是唯一的,但当输入同样的数据源名称时,就会给出以下提示:
3、其它的维度
其它维度就不一一详细列举,只简单得做个列表来说明:
根据上面维度的衡量标准,测试人员需要从以下方面进行考虑设计用例:
实例
数据验证时,需要先设计各种数据组合,然后在数据库中直接建表及数据进行验证。但在数据库中直接建表验证,对数据库的伤害无法预估,存在较大的风险。我做过一个项目,有个大数据平台,可以直接在大数据平台验证数据的质量。它需要先在数据模板中填写数据组合,然后通过导入的方式,把数据导入到大数据平台中。如果是导入成功的,表及数据也会在数据库中,建了对应的表和数据。
可以到我的个人号:atstudy-js,这里有10W+ 热情踊跃的测试小伙伴们,一起交流行业热点、测试技术各种干货,一起共享面试经验、跳槽求职各种好用的
欢迎加入 ↓ ↓ ↓
AI测试、 车载测试、自动化测试、银行、金融、游戏、AIGC.
但这种方式的好处在于,平台先对模板中填写的数据质量进行验证,然后再导入数据库中,再验证数据库中表信息、表字段、字段的码值是否符合数据库的设计要求、数据规则、业务规则等等,减少未知的数据对数据库的伤害。如下图所示:
1)导入的平台中的的表信息的字段:
2)表中的字段信息:
3)表字段中字段的码值:
4)数据模板成功导入到大数据平台后,平台就能显示出对应的表及字段信息:
二、数据的质量也可以从特征上分类:
以数据的特征为归纳点,进行数据类型的设计。
三、小结
当然,数据质量的验证远远没这么简单,特别是对大数据平台的使用,是需要好多技术做背景指导。比如说,数据存在哪类数据库,关系型的?非关系型的?Mysql、Oracle、还是高斯、巨杉、金仓?不同的数据库有什么样的特性,每个数据库特有的属性是什么,需要关注哪些点;自定义的表是长什么样,要怎么使用;表中数据又是怎么分配的、怎么存储的等等;这种都是在数据测试过程中需要了解的硬知识。
更多推荐













所有评论(0)