- Power BI电商数据分析与商业智能(第2版)
- 零一 聂健华
- 1389字
- 2022-05-06 18:18:09
5.1 静态数据采集
静态数据是指采集的目标数据在网页源码中,而且是一次性加载在网页中的。
例:采集某电商平台商品页面数据。
在亚马逊网站,搜索“连衣裙”,如图5-1所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_43_1.jpg?sign=1739047917-5xnQv0WbuiN0IIpoG91CcnQn1E7ur3TK-0-18cec1a0a5ac1a7dba2a60a234e3c980)
图5-1
打开Power BI,单击“主页”选项卡中的“获取数据”下拉按钮,在打开的下拉列表中选择“Web”选项,如图5-2所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_44_1.jpg?sign=1739047917-h7TeSERYnwYjhFMvKmVLrd4LyTkXSujr-0-d6be55ec89015f0d7f6550d54269df5f)
图5-2
弹出“从Web”对话框,将网页链接复制到URL文本框,然后单击“确定”按钮,如图5-3所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_44_2.jpg?sign=1739047917-fDslwuhHena2XZ64NsFcTv6jvOtR0aep-0-70a70db4a099bf86df863e174665408e)
图5-3
单击“Web视图”选项卡,再单击“使用示例添加表”按钮,如图5-4所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_45_1.jpg?sign=1739047917-AJKs28l9PxulwrKfuZCEudiyxh9tOxm6-0-78c6f1ca7de2d1e569a3886b031b49a1)
图5-4
打开“使用示例添加表”对话框,在“列1”的第1行,输入价格“268.79”,选择弹出的第一个参数,如图5-5所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_45_2.jpg?sign=1739047917-rktvYCqLlqOvSPVZ04XWIVGfe45wuZsE-0-f9f799b0ad838a1933970625167458d2)
图5-5
按Enter键后,效果如图5-6所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_46_1.jpg?sign=1739047917-MxTC7BOUs8TmFo9SQZXOdmYugSzlHcz4-0-3a4229272d115511d4def6317f9e4490)
图5-6
获取商品的其他数据也使用同样的操作,结果如图5-7所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_46_2.jpg?sign=1739047917-c5xPQ6JCUFEGXfY8liF1BucWftPVRZ0M-0-615f81259ba5d01b84a9ce435489850a)
图5-7
商品数据在“表视图”选项卡的“自定义表[1]”的“表7”中,如图5-8所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_47_1.jpg?sign=1739047917-oVl5306fntVeD0xJGmhE2BE6d4WsAVe7-0-73423c8203dae549d43db47e6ffe3e5c)
图5-8
例:采集休斯敦火箭队球员最新赛季的数据,球员比赛数据如图5-9所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_47_2.jpg?sign=1739047917-9VcoGqjRoRCymD2sdcUQz16jKRpTH5yX-0-60960181fbb47cb86e1af68a3637d814)
图5-9
在Power BI的“主页”选项卡中,单击“获取数据”下拉按钮,在打开的下拉列表中选择“Web”选项获取网站的数据。
弹出“从Web”对话框,在URL文本框中输入网址,然后单击“确定”按钮,如图5-10所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_48_1.jpg?sign=1739047917-OS4TxHHDp8n7HM2d4xmJjRMggjvmHiUn-0-65431ff850f07405b372c730d356caf1)
图5-10
在打开的“导航器”对话框中通过“表视图”选项卡可以看到“表1”是目标数据。勾选“导航器”对话框左侧列表中的“表1”,如图5-11所示,再单击“转换数据”按钮进入Power Query编辑器。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_48_2.jpg?sign=1739047917-UXqupHwB7LlTlWhp80Jed9WzQGJHW1t2-0-ecee52114b2cf1ea39d57e0b18a985b2)
图5-11
进入Power Query编辑器后,发现有一列空列,在该列名上右击,在弹出的快捷菜单中选择“删除”选项,如图5-12所示,将空列删除。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_49_1.jpg?sign=1739047917-29gBdzwR6m7Gx2qv292OiyGbUdPS9kCf-0-4eae53b4688303e2a5e2791e8d72946b)
图5-12
在“主页”选项卡中单击“将第一行用作标题”按钮,如图5-13所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_49_2.jpg?sign=1739047917-iR8KycqMnKxEo5yBEbiKvDgmNYFNvlxx-0-64ad734bbe420b3770ceb8da93f6d9d2)
图5-13
筛选球员数据,取消勾选“总计”“全队数据”“对手数据”选项前的复选框,如图5-14所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_49_3.jpg?sign=1739047917-ucv8NJVpA3sjPVoKJEZwHXX6THpofMWr-0-4fc4e3e7d7cef2a968957e573cd260a8)
图5-14
在Power Query编辑器的“主页”选项卡中单击“关闭并应用”按钮,如图5-15所示,将数据导入BI中。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_50_1.jpg?sign=1739047917-hy5cv1nqtwNAa96V3iHTFB0H7FqFM316-0-45b8a826126312a09cb05d460fef676d)
图5-15
加载后,表格中的数据如图5-16所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_50_2.jpg?sign=1739047917-HODa0BQrE11HTa88Oy2FLmBrZCu1MAKm-0-6d48ba13ed420087ced8d8b255eab591)
图5-16
例:批量采集球队最新赛季的数据,球队名称及英文缩写如表5-1所示。
表5-1
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_51_1.jpg?sign=1739047917-otefw97h7EmA6LmKiyhtRSb03ITecT83-0-06ae3fca36494bfc2325c0437bfca99f)
将数据输入Excel工作表之后,在Power BI Desktop界面的“主页”选项卡中单击“获取数据”下拉按钮,在弹出的下拉列表中选择“Excel”选项,如图5-17所示,将数据导入Power Query编辑器。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_51_2.jpg?sign=1739047917-IRqmKqUuPPnJQFZ8i3eMm3SWsO0MD7r6-0-99009cd8d126f09c63fe57115170711f)
图5-17
将数据导入Power Query编辑器后,创建URL,在“添加列”选项卡中单击“自定义列”按钮,如图5-18所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_52_1.jpg?sign=1739047917-bhytuqfGqOWqQJNuFOCejOGmn8TtqYOA-0-68eab7c307d560175f55df6c0e57c4be)
图5-18
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_52_2.jpg?sign=1739047917-MPgfrlURwm4M8XIjEbhqb5ExMWbJmaI5-0-e6da1076b9ad13e199eb67782e413fd3)
图5-19
在打开的“自定义列”对话框的“自定义列公式”文本框中输入“="http://www.stat-nba.com/team/"&[缩写]&".html"”,然后单击“确定”按钮,如图5-19所示。
创建好URL后再次添加自定义列(在“添加列”选项卡中单击“自定义列”按钮),采集URL数据。
在弹出的“自定义列”对话框的“自定义列公式”文本框中输入“=Web.Page(Web.Contents ([URL])){0}[Data]”,如图5-20所示。
M函数说明
Web.Page:以网页的方式加载数据。
Web.Contents:将网页以二进制文件的格式下载。
{0}[Data]:打开网页中的第一张表格,也就是打开本例的“Table 0”。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_53_1.jpg?sign=1739047917-dYcNWxLR5WSJqmM6RGWGrn9RpzLCdiQB-0-b07f13c6813e0c4698d6bf533c7e05a7)
图5-20
单击“确定”按钮后,如果是首次连接该域名,则会提示用户进行数据隐私设置,选择“忽略此文件的隐私级别检查,忽略隐私级别可能会向未经授权的用户公开敏感数据或机密数据”复选框,如图5-21所示。单击“保存”按钮即可采集数据。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_53_2.jpg?sign=1739047917-NmWdCYxJJMrVOijumIDaUbjdXX0FazXB-0-3fb56f96873699e0a6158b5afc9e9c3c)
图5-21
展开所有列,空列可以直接取消勾选,并且取消勾选“使用原始列名作为前缀”复选框,如图5-22所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_54_1.jpg?sign=1739047917-svISq7tX0HkmjXU7FnR41gKjTpaqKGtw-0-9c4e25ab03321dff1e4107ff9daf0d42)
图5-22
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_54_2.jpg?sign=1739047917-OHNcI0EwsMEyGMYAd37aujkN2Arkayqg-0-185b13458e1f10847121efa89c69b283)
图5-23
展开球员数据后,分别取消勾选“总计”“全队数据”“对手数据”复选框,如图5-23所示。
按住“Ctrl”键,将不需要的列选中并右击,在弹出的快捷菜单中选择“删除”选项,如图5-24所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_55_1.jpg?sign=1739047917-kbkIJEDTpfF5FvSR4MyB0r36ySz7DZHE-0-649ec93f4ad4741e11aa0cbee2c061b1)
图5-24
在Power Query编辑器的“主页”选项卡中单击“关闭并应用”按钮。
加载好的数据如图5-25所示。
![](https://epubservercos.yuewen.com/6CE043/23020640901648106/epubprivate/OEBPS/Images/42250_55_2.jpg?sign=1739047917-qm5e1jPJDRxt9hPyX0wjJDvmP7Mg1jEe-0-f13d7869f8d67ca0d4e428117034d85c)
图5-25