跳转到主要内容
Chinese, Simplified

数据处理和分析离不开数据分析--检查源数据的内容和质量。随着数据越来越大,基础设施向云端转移,数据分析变得越来越重要。需要用有限的时间和资源实现大数据概要分析吗?

 

什么是数据分析?

数据分析是审查源数据、理解结构、内容和相互关系以及确定数据项目潜力的过程。

数据分析是以下工作的关键部分:

  • 数据仓库和商业智能(DW/BI)项目数据分析可以发现数据源中的数据质量问题,以及需要在ETL中纠正的问题。
  • 数据转换和迁移项目数据分析可以识别数据质量问题,您可以在脚本和数据集成工具中将数据从源复制到目标中来处理这些问题。它还可以发现目标系统的新需求。
  • 源系统数据质量项目数据分析可以突出显示存在严重或大量质量问题的数据以及问题的来源(例如,用户输入、接口错误、数据损坏)。

数据分析包括:

  • 收集描述性统计数据,如最小值、最大值、计数和总和。
  • 收集数据类型、长度和循环模式。
  • 用关键字、描述或类别标记数据。
  • 执行数据质量评估,对数据执行连接的风险。
  • 发现元数据并评估其准确性。
  • 确定分布、候选键、候选外键、函数依赖项、嵌入值依赖项,并执行表间分析。

数据分析的类型

数据分析有三种主要类型:

结构发现

验证数据的一致性和格式是否正确,并对数据执行数学检查(例如总和、最小值或最大值)。结构发现有助于了解数据的结构如何,例如,有多少百分比的电话号码没有正确的位数。

内容发现

查看单个数据记录以发现错误。内容发现标识表中哪些特定行包含问题,以及数据中出现哪些系统性问题(例如,没有区号的电话号码)。

关系发现

发现部分数据是如何相互关联的。例如,数据库表之间的键关系、电子表格中单元格或表之间的引用。理解关系对于重用数据至关重要;相关的数据源应该合并成一个数据源,或者以保留重要关系的方式导入。

 

数据分析步骤数据分析的有效过程

数据仓库体系结构之父Ralph Kimball提出了数据分析的四个步骤:

 

  • 在项目开始时使用数据分析来发现数据是否适合分析,并对项目做出“通过/不通过”的决定。
  • 识别并纠正源数据中的数据质量问题,甚至在开始将其移动到目标数据库之前。
  • 在数据从源移动到目标时,确定可以通过提取转换负载(ETL)纠正的数据质量问题。如果需要额外的手动处理,数据分析可以发现问题。
  • 识别意外的业务规则、层次结构和外键/私钥关系,使用它们来微调ETL过程。

数据分析和数据质量分析最佳实践

基本数据分析技术:

 

  • Distinct count和percent标识自然键,每列中的不同值可以帮助处理插入和更新。对于没有标题的表格很方便。
  • 零/空/空值的百分比标识丢失或未知的数据。帮助ETL架构师设置适当的默认值。
  • 最小/最大/平均字符串长度有助于在目标数据库中选择适当的数据类型和大小。允许将列宽设置为刚好足以容纳数据,以提高性能。

高级数据分析技术:

 

  • 密钥完整性使用零/空/空分析确保密钥始终存在于数据中。还有助于识别孤立密钥,这对于ETL和将来的分析是有问题的。
  •  
  • 基数检查相关数据集之间的关系,如一对一、一对多、多对多。这有助于BI工具正确执行内部或外部联接。
  •  
  • 模式和频率分布检查数据字段的格式是否正确,例如电子邮件的格式是否有效。对于用于出站通信的数据字段(电子邮件、电话号码、地址)非常重要。

 

6数据分析工具开源和商用

数据分析是一项繁琐且劳动密集型的活动,可以通过工具实现自动化,从而使大型数据项目更加可行。这些对于数据分析堆栈来说是必不可少的。

开源数据分析工具

1. QuaClient DataCleaner的主要功能包括:

  • 数据质量、数据分析和数据争论
  • 检测和合并重复项
  • 布尔分析
  • 完整性分析
  • 字符集分布
  • 数据差距分析
  • 参考数据匹配

2. Aggregate Profiler(开源数据质量和分析)-主要功能包括:

  • 数据分析、筛选和治理
  • 相似性检查
  • 数据丰富
  • 数据问题或更改的实时警报
  • 带气泡图验证的篮子分析
  • 单一客户视图
  • 虚拟数据创建
  • 元数据发现
  • 异常发现和数据清理工具
  • Hadoop集成

3.Talend Open Studio—一套开源工具,数据质量功能包括:

  • 可定制的数据评估
  • 模式库
  • 图形图表分析
  • 欺诈模式检测
  • 列集合分析
  • 高级匹配
  • 时间列相关
  • 商业数据分析工具

4.Informatica中的数据分析主要功能包括:

  • 模拟数据管理工作流程的数据管理控制台
  • 业务用户异常处理接口
  • 企业数据治理
  • 一次映射数据质量规则并在任何平台上部署
  • 数据标准化、丰富化、重复数据消除和整合
  • 元数据管理

5.Oracle Enterprise Data Quality的主要功能包括:

  • 数据分析、审核和仪表板
  • 解析和标准化,包括构造字段、错填数据、结构不良的数据和注释字段
  • 自动匹配和合并
  • 人工操作案例管理
  • 地址验证
  • 产品数据验证
  • 与Oracle主数据管理集成

6.SAS DataFlux的主要功能包括:

  • 提取、清理、转换、整合、聚合、加载和管理数据
  • 支持面向批量、实时的主数据管理
  • 创建实时、可重用的数据集成服务
  • 用户友好的语义参考数据层
  • 数据来源和转换方式的可见性
  • 可选富集组件

基于云的数据管道中的数据分析:对速度的需求

如本文所述,传统的数据分析是数据工程师在将数据接收到数据仓库之前和期间执行的一项复杂活动。在数据准备好进入管道之前,会对其进行细致的分析和处理(部分自动化)。

 

如今,越来越多的组织正在将数据基础设施移动到云上,并发现只要点击一个按钮,数据摄取就可以发生。云数据仓库、数据管理工具和ETL服务与数百个数据源进行了预集成。但是,如果您可以单击一个按钮并将数据立即移动到目标系统中,那么数据分析呢?

 

数据分析比以往任何时候都更为重要,大量数据流经大数据管道,非结构化数据盛行。在基于云的数据管道体系结构中,您需要一个自动化的数据仓库,它可以自己处理数据分析和准备工作。与使用数据分析工具分析和处理数据不同,只需将数据倒入自动化数据仓库,它就会被自动清理、优化,并为分析做好准备。

 

 

原文:https://panoply.io/analytics-stack-guide/data-profiling-best-practices/

本文:http://jiagoushi.pro/node/1474

讨论:请加入知识星球【超级工程师】或者微信【it_training】或者QQ群【11107767】

Tags
 
Article
知识星球
 
微信公众号
 
视频号