天天最新：浅谈数据分析中的数据预处理

作者：邓天佐

对于接触过数据分析或者从事大数据技术开发的人员，无论你是一名业务还是技术人员，想必你都清楚数据分析过程中最花时间的并不是“分析”阶段，而是数据预处理。从众多的调查和专家言论中，数据预处理在数据分析中所占据的时间在60%-80%之间。但毕竟“Garbage in, Garbage out.”数据质量的高低，直接决定与分析软件的契合度与后续分析的正确性，这一繁琐的过程也就成了数据分析人员极力想要提升效率的环节。本篇文章就来简单地介绍一下，数据预处理，究竟是怎么一回事，并且从实施角度提出一些建议。

数据预处理主要有四种：数据清洗、数据集成、数据变换、数据规约。这四步并非每一步都有执行的必要，且在顺序上没有严格要求，但务必需要逐一检查，以减小误差

(资料图)

数据清洗

在数聚股份看来，将脏数据洗白，就是常说的数据清洗，这往往是整个数据预处理最耗费时间的繁琐环境缺失值和异常值是数据清洗的对象，步骤很简单，识别并处理，处理常用的方法有删除、替换和插补。

这些方法的具体操作会随着工具的不同有所区别，但基本的逻辑是相通的。具体操作说明此处不做详解。实现处理的自动化是效率提升的关键，业务人员一定要懂得寻求帮助并且相信自动化的可能，如果是IT人员，在常用语言编程处理的基础上，一定不要忽视Excel VBA的威力（Excel仍能解决80%以上的预处理问题），其自动化处理的能力可能远超你的想象。

在实际应用中，真正的难点和痛点其实并不在与技术，而在于技术人员本身对于业务的不了解，这其中耗费的隐性成本才是繁琐的根本，所以拿到数据并不要急于地钻进数据中去查看，而是积极地对业务本身的逻辑进行理解，拥有清晰的业务思路，辅以恰当的技术手段，能让数据清洗实现数倍效率的提升。如果是业务人员，从数据录入本身的规范性和技术限制入手，往往能从源头上减少数据清洗的工作强度。

数据集成

数据集成是将多个数据源合并成一个数据存储。数据集成时需要数据分析人员着重注意如下问题：

1 同名异义和异名同义。前者不能作为关键字（主键），后者可作为关键字（主键）。

2 数据集成容易产生数据冗余，可能是同一属性多次出现，或是属性名字不一致导致的重复。应先相关分析检测重复属性，如果再次出现则再次将其删除。

数据变换

数据变换就是转化成适当的形式，来满足软件或分析理论的需要。数据变换分为简单函数和规范化两种方式。简单函数即常用的有平方、开方、取对数、差分等；如在时间序列里常对数据对数或差分运算将非平稳序列转化成平稳序列。

规范化即排除掉部分变量单位的影响，比如直接比较身高和体重的差异，单位的不同和取值范围的不同使得其不能进行直接比较。主要的规范化形式有三种：

1 最小-最大规范化：也叫离差标准化，对数据进行线性变换，将其范围变成[0,1]

2 零-均值规范化：也叫标准差标准化，处理后的数据均值等于0，标准差为1

3 小数定标规范化：移动属性值的小数位数，将属性值映射到[-1,1]

数据规约

数据规约即对数据集合进行条件限定和约束，能减小无效错误的数据对建模的影响，缩减数据处理时间并降低存储数据的空间。