首页 > 如何在HHDI中进行数据质量探查并获取数据剖析报告

如何在HHDI中进行数据质量探查并获取数据剖析报告

通过执行多种数据剖析规则,对目标表(或一段SQL语句)进行数据质量探查,从而得到其数据质量情况。目前支持以下几种数据剖析类型,分别是:数字值分析、值匹配检查、字符值分析、日期值分析、布尔值分析、重复值检查、表达式匹配、参照完整性检查、值分布分析。数据剖析完成后可以通过日志中的链接查看其产生的剖析报告。数据剖析任务可以加入到作业流程中,以支持日常的增量数据探查,任务执行完后每个剖析规则均会返回剖析结果变量,可根据变量的值进行下一步的操作,比如发邮件通知数据的维护人员。

1.) 设定剖析规则

在任务管理中选择新建数据剖析任务,进入任务编辑页面,剖析对象页签中填写源连接和源表,也可在源表查询语句中输入一段SQL,可以对数据进行转换、过滤、获取增量等操作,语句支持嵌入变量。在剖析规则页签中添加多个剖析规则,选择要剖析的字段以及剖析类型,右侧的编辑按钮可进入高级设置页面。

剖析任务在执行成功后,会产生一组剖析结果变量,主要是统计的异常值行数,可以在成功条件页签中判断变量的值,从而进行后续的处理工作。

clipboard

2.) 运行数据剖析

和其它任务一样,数据剖析任务可以添加到作业流程中,可以串行或并行执行,剖析完成的行数将实时显示在日志的插入列中,执行成功后,可以点击执行信息栏中的剖析结果打开剖析报告页面。

clipboard

3.) 查看剖析报告

点击日志中的剖析结果超链接,将弹出剖析报告页面,可查看所有规则的概要信息以及各规则的明细分析结果。

clipboard

点击左侧规则列表,查看各规则的详细分析数据,比如查看值匹配分析:

clipboard

点击红色箭头可以进一步查看明细数据,如点击其空值行数,将显示空值行数的明细数据:

clipboard

转载于:https://www.cnblogs.com/haohedi/p/9672867.html

更多相关:

  • 本文是西门子开放式TCP通信的第2篇,上一篇我们讲了使用西门子1200PLC作为TCP服务器的程序编写,可以点击下方链接阅读:【公众号dotNet工控上位机:thinger_swj】基于Socket访问西门子PLC系列教程(一)在完成上述步骤后,接下来就是编写上位机软件与PLC之间进行通信。上位机UI界面设计如下图所示:从上图可以看出...

  • 我有一个大型数据集,列出了在全国不同地区销售的竞争对手产品。我希望通过使用这些新数据帧名称中的列值的迭代过程,根据区域将该数据帧分成几个其他区域,以便我可以分别处理每个数据帧-例如根据价格对每个地区的信息进行排序,以了解每个地区的市场情况。我给出了以下数据的简化版本:Competitor Region ProductA Product...

  • 作为一名IT从业者,我来回答一下这个问题。首先,对于具有Java编程基础的人来说,学习Python的初期并不会遇到太大的障碍,但是要结合自己的发展规划来制定学习规划,尤其要重视学习方向的选择。Java与Python都是比较典型的全场景编程语言,相比于Java语言来说,当前Python语言在大数据、人工智能领域的应用更为广泛一些,而且大...

  • 这段时间通过学习相关的知识,最大的变化就是看待事物更加喜欢去了解事物后面的本质,碰到问题后解决问题思路也发生了改变。举个具体的例子,我在学习数据分析,将来会考虑从事这方面的工作,需要掌握的相关专业知识这个问题暂且按下不表,那哪些具体的问题是我需要了解的呢,以下简单罗列:1、了解数据分析师这个岗位在各个地区的需求情况?2、数据分析师的薪...

  • 这一节将开始学习python的一个核心数据分析支持库---pandas,它是python数据分析实践与实战的必备高级工具。对于使用 Python 进行数据分析来说,pandas 几乎是无人不知,无人不晓的。今天,我们就来认识认识数据分析界鼎鼎大名的 pandas。目录一. pandas主要数据结构 SeriesDataFrame二...

  • 昨天去面了滴滴,一口气面了三面,考了 promise 和事件循环。之前的猿辅导也考察了这些,几乎所有的大厂中厂都一定会考原生 js 的事件循环队列。今天,我把昨天考察的原题拿出来分析一下。setTimeout浏览器是多线程的,js 是单线程的(因为多线程操作同一个 dom 会有数据不一致的问题),但 js 又支持异步,因此异步就是在...

  • 检查是否安装redis(没有请自行百度安装): phpinfo: 配置thinkphp-queue,没有请执行 composer require topthink/think-queue 加入: 创建 队列 文件: use thinkQueue;class TestQueue {// 测试public function que...

  • 要实现计划任务,首先通过在配置类注解@EnableScheduling来开启对计划任务的支持, 然后在要执行计划任务的方法上注解@Scheduled,声明这是一个计划任务 示例:计划任务执行类 在这个类中的方法上需要@Scheduled注解配合@EnableScheduling使用。 package cn.hncu.p3.p3_ta...

  • cron:计划任务,是任务在约定的时间执行已经计划好的工作,根据配置文件约定的时间来执行特定的任务。 编写测试类继承 IJob ,实现Execute 此方法就是用于定时的任务 配置定时时间: 先创建windows服务,服务创建详情 InstallUitil创建服务 服务创建成功后开起服务即可进行定时任务的执行 定时任务执行结果:...

  • 站立会议:       继续数据库的连接编程。 任务进度:       实现数据的输出。 站立会议照片: 任务看板: 燃尽图: 转载于:https://www.cnblogs.com/cpljlgs/p/5546157.html...