- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 412字
- 2021-09-26 16:15:47
7.8 用PCA构造准交互变量
我给出一个原创的有价值的PCA用法,用于构造准交互变量(quasi-interaction variable)。我用SAS来实现这个工作,在介绍完构建过程之后提供了这个程序(见7.8.1节)。我们看表7.6中的数据集合IN。其中有两个类别变量:GENDER(假定M代表男性,F代表女性,空白代表没有数据),MARITAL(假定M代表已婚,S代表单身,D代表离婚,空白代表没有数据)。
表7.6 数据集合IN
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b6.jpg?sign=1739056501-R2CE8XuSERZ0G2GCnnZqDhBJ4DXcPOub-0-5ec51c46ef59ca3618c6ff8842fc03e8)
我重新设定变量,并在空白处填上x。所以,GENDER_和MARITAL_分别是GENDER(性别)和MARITAL(婚姻状况)的修改后的变量(见表7.7)。
表7.7 重设变量之后的数据集合IN
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b7.jpg?sign=1739056501-HLtoziRKhihxASg2JNAmG6SKhBDQNVfK-0-f380c443ed1c2def6527f45414bcbd64)
然后,我用SAS程序TRANSREG为GENDER_和MARITAL_创建哑变量,对这两个变量的每个值,都有对应的哑变量。比如,GENDER_=M,哑变量是GENDER_M。参考哑变量用于处理x缺失的值(见表7.8)。
我用GENDER_和MARITAL_哑变量进行PCA,可以得到5个准交互变量:GENDER_x_MARITAL_pc1到GENDER_x_MARITAL_pc5,结果见表7.9,结果留给读者解读。抛开细节不谈,显然PCA是一个强大的数据挖掘方法。
表7.8 使用SAS程序TRANSREG处理GENDER_和MARITAL_哑变量的结果
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b8.jpg?sign=1739056501-r64nhclyDeSt4yVcTs66kFOThPylloce-0-50032adaebd9732d72cb17f0b4232184)
表7.9 用GENDER_和MARITAL_哑变量产生准交互变量
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/7b9.jpg?sign=1739056501-QzW5f7M7rxa38FcomyoetcsCqpPYw0XV-0-fb2fb1f6a1ef2568ca3e30a1a07b14a3)
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/085-i.jpg?sign=1739056501-CXpKizHe2XpyrMH7FK0vLUOtRB6dzdQ6-0-586bb8a49c18fec519f37c5a7461c58d)
准交互变量PCA法的SAS程序代码
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/085-2-i.jpg?sign=1739056501-Hn8Uqz3I9XYB3FfhXTr66VJLU6KwGDKN-0-73846f6b9c36cc88aa5d864ac153d467)
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/086-i.jpg?sign=1739056501-mLh4vLb1kEo8Wc8Ncs5cLpkRB2HikheR-0-d4ee3c6eacd178cc3b13643ed5b4be0a)