1.缺失值处理
- 直接删
(太偷懒啦!) - 手动填充缺失值
(会累死的!) - 全局常量填补:用相同的常量替换所有缺失的属性值,例如“ Unknown”或-∞之类的标签。
- 属性集中趋势统计量填补:平均值,中位数,众数等。
- 预测值填补:回归,朴素贝叶斯或决策树等。
2.标准化
2.1 min-max
公式:
$$
v\prime=\frac{v-200}{800}
$$
结果:
$$
0, 0.125, 0.25, 0.5, 1
$$
2.2 Z-score
公式:
$$
\mu=500,\sigma=282.8427125
$$
$$
v\prime=\frac{v-\mu}{\sigma}
$$
结果:
$$
−1.06, −0.707, −0.354, 0.354, 1.77
$$
2.3 绝对值
公式:
$$
\mu=500,s=240
$$
$$
v\prime=\frac{v-\mu}{s}
$$
结果:
$$
−1.25, −0.833, −0.417, 0.417, 2.08
$$
2.4 十进制
公式:
$$
v\prime=\frac{v}{10^3}
$$
结果:
$$
0.2, 0.3, 0.4, 0.6, 1.0
$$
3.分箱
等深
- Bin 1: 1: 5, 10, 11, 13
- Bin 2: 15, 35, 50, 55
- Bin 3: 72, 92, 204, 215
等宽
- Bin 1: 5, 10, 11, 13, 15, 35, 50, 55, 72
- Bin 2: 92
- Bin 3: 204, 215