问题引入
近年来,我国结婚率逐年下降,现在需要探究导致年轻人不愿结婚的主要原因,具体数据(虚构)如下:
| 年份 | 结婚对数 | 房价 | 人均收入 | 女性失业数 |
|---|---|---|---|---|
| 2017 | 3806 | 398 | 850 | 1352 |
| 2018 | 3356 | 455 | 846 | 1268 |
| 2019 | 2750 | 482 | 960 | 1010 |
| 2020 | 2335 | 422 | 900 | 953 |
| 2021 | 2061 | 561 | 1024 | 808 |
| 2022 | 1988 | 511 | 1100 | 763 |
数据预处理
通过预处理来消除量纲。此处对每个指标中的元素,将其除以该指标的均值,得到新数据如下:
| 年份 | 结婚对数 | 房价 | 人均收入 | 女性失业数 |
|---|---|---|---|---|
| 2017 | 1.4013 | 0.8441 | 0.8979 | 1.3182 |
| 2018 | 1.2356 | 0.9650 | 0.8937 | 1.2363 |
| 2019 | 1.0125 | 1.0223 | 1.0141 | 0.9847 |
| 2020 | 0.8597 | 0.8950 | 0.9507 | 0.9292 |
| 2021 | 0.7588 | 1.1898 | 1.0817 | 0.7878 |
| 2022 | 0.7320 | 1.0838 | 1.1620 | 0.7439 |
确定分析序列
参考数列(母序列):能反映系统行为特征的数据序列。记作[math]x_0[/math]
比较数列(子序列):影响系统行为的因素组成的数据序列。记作[math]x_i(i = 1, 2, …, n)[/math]
例如结婚率就是参考数列,房价、人均收入、女性失业数就是比较数列。
可以这样理解,参考数列就类似于因变量[math]y[/math],比较数列是自变量[math]x[/math]。
确定灰色关联系数
定义两级最小差 [math] a = \min\limits_s \min\limits_t \vert x_0 (t) – x_s (t) \vert [/math],两级最大差 [math] b = \max\limits_s \max\limits_t \vert x_0 (t) – x_s (t) \vert [/math] 。
通俗来说,就是分别用表格每一行的[math]x_0 – x_i[/math],然后找出结果的最大与最小值。
| [math]x_0[/math](结婚对数) | [math]x_1[/math](房价) | [math]x_2[/math](人均收入) | [math]x_3[/math](女性失业数) | |
|---|---|---|---|---|
| 2017 | 1.4013 | 0.8441 | 0.8979 | 1.3182 |
| 2018 | 1.2356 | 0.9650 | 0.8937 | 1.2363 |
| 2019 | 1.0125 | 1.0223 | 1.0141 | 0.9847 |
| 2020 | 0.8597 | 0.8950 | 0.9507 | 0.9292 |
| 2021 | 0.7588 | 1.1898 | 1.0817 | 0.7878 |
| 2022 | 0.7320 | 1.0838 | 1.1620 | 0.7439 |
得到[math]a[/math]和[math]b[/math]后,再对上表中的每一个元素定义[math]\gamma(x_0(k), x_i(k)) = \frac{a + \rho b}{\vert x_0(k) – x_i(k) \vert + \rho b}[/math],其中[math]\rho[/math]称为分辨系数,一般取值为[math]0.5[/math]。
| [math]\gamma(x_0,x_1)[/math] | [math]\gamma(x_0,x_2)[/math] | [math]\gamma(x_0,x_3)[/math] | |
|---|---|---|---|
| 2017 | 0.3341 | 0.3571 | 0.7719 |
| 2018 | 0.5084 | 0.4500 | 1.0000 |
| 2019 | 0.9684 | 0.9967 | 0.9113 |
| 2020 | 0.8896 | 0.7555 | 0.8023 |
| 2021 | 0.3935 | 0.4643 | 0.9079 |
| 2022 | 0.4429 | 0.3941 | 0.9610 |
将各指标取平均值作为该序列的灰色关联度,即 [math]\gamma (x_0, x_i) = \frac {1}{n} \sum_{k=1}^{n} \gamma (x_0 (k), x_i (k))[/math] 。
| [math]\gamma(x_0,x_1)[/math] | [math]\gamma(x_0,x_2)[/math] | [math]\gamma(x_0,x_3)[/math] | |
|---|---|---|---|
| 2017 | 0.3341 | 0.3571 | 0.7719 |
| 2018 | 0.5084 | 0.4500 | 1.0000 |
| 2019 | 0.9684 | 0.9967 | 0.9113 |
| 2020 | 0.8896 | 0.7555 | 0.8023 |
| 2021 | 0.3935 | 0.4643 | 0.9079 |
| 2022 | 0.4429 | 0.3941 | 0.9610 |
| 灰色关联度 | 0.5895 | 0.5696 | 0.8924 |
最终通过灰色关联度大小来判断母序列与子序列的相关性。有表可知,[math]x_0[/math]与[math]x_3[/math]的关联度最大,即年轻人不愿结婚与女性婚后失业的风险有极大的相关性,其次就是房价因素对年轻人结婚也有较大的影响。
灰色关联分析的定义
概述
灰色关联分析是用来确定一个系统中,哪些因素是主要因素,哪些是次要因素,哪些对系统发展影响大,哪些因素对系统发展影响小。从而进行系统分析,强化推动因素,抑制阻碍因素。
它的原理可以通俗地理解成,根据序列曲线几何形状的相似程度来判断联系是否紧密。曲线越接近,相应序列之间的关联度就越大,反之就越小。
可以用来解决多重共线性1的问题,通过对多个因素降维选出对结果有显著影响的因素,也可以进行综合评价。
解题步骤
- 先进行数据预处理、正向化、标准化;
- 确定母序列和子序列,如果有多个母序列则需要分别进行灰色关联分析;
- 将母序列与子序列两两相减,并计算两级最小差和两极最大差;
- 对每个元素计算灰色关联系数[math]\gamma[/math],注意这里[math]\rho[/math]一般取值为[math]0.5[/math];
- 将各指标的灰色关联系数求平均值作为灰色关联度;
- 根据灰色关联度大小下结论。
————————————————————————————————————————
- 在进行线性回归分析时,出现的自变量之间彼此相关的现象,称为多重共线性。 ↩︎