本文最后更新于294 天前,其中的信息可能已经过时,如有错误请发送邮件到1910452164@qq.com
缺失值处理
美赛讲究由浅入深,主要使用右侧几种方法,一般使用SPSSPRO工具。
异常值处理
异常值识别
对于数据集中可能出现的异常值,我们常用以下几种方法筛选:

其中,主要使用前两种方法,下面来介绍并比较这两种方法:
四分位距(IQR)

[math]3\sigma[/math]原则

两种方法的对比

可以看出IQR的区间较小,能剔除更多的异常值,更为严格。
异常值处理
对于异常值,常见的处理方法有如下几种:

其中,数模竞赛中一般使用方法一,可以用SPSSPRO实现。
无量纲化处理
针对数据集中不同类型的数据的单位差异导致的数值相差较大的问题,有如下几种无量纲化处理的方法:

其中,常用的为1、2、4、5四种方法,可以用SPSSPRO实现。

此表格中的方法不常用,先做了解。
