生物数据挖掘·预处理

1.缺失值处理

  • 直接删(太偷懒啦!)
  • 手动填充缺失值(会累死的!)
  • 全局常量填补:用相同的常量替换所有缺失的属性值,例如“ Unknown”或-∞之类的标签。
  • 属性集中趋势统计量填补:平均值,中位数,众数等。
  • 预测值填补:回归,朴素贝叶斯或决策树等。

2.标准化

2.1 min-max

公式:
$$
v\prime=\frac{v-200}{800}
$$
结果:
$$
0, 0.125, 0.25, 0.5, 1
$$

2.2 Z-score

公式:
$$
\mu=500,\sigma=282.8427125
$$
$$
v\prime=\frac{v-\mu}{\sigma}
$$
结果:
$$
−1.06, −0.707, −0.354, 0.354, 1.77
$$

2.3 绝对值

公式:
$$
\mu=500,s=240
$$
$$
v\prime=\frac{v-\mu}{s}
$$
结果:
$$
−1.25, −0.833, −0.417, 0.417, 2.08
$$

2.4 十进制

公式:
$$
v\prime=\frac{v}{10^3}
$$
结果:
$$
0.2, 0.3, 0.4, 0.6, 1.0
$$

3.分箱

等深

  • Bin 1: 1: 5, 10, 11, 13
  • Bin 2: 15, 35, 50, 55
  • Bin 3: 72, 92, 204, 215

等宽

  • Bin 1: 5, 10, 11, 13, 15, 35, 50, 55, 72
  • Bin 2: 92
  • Bin 3: 204, 215