- Python数据预处理技术与实践
- 白宁超 文俊 唐聃
- 269字
- 2021-03-26 09:07:31
3.4 爬取数据以JSON格式进行存储
上一节介绍了如何分析网页数据并爬取数据,得到数据以后如何进行存储呢?本节主要介绍JSON格式数据的本地化存储,具体操作步骤如下。
1. 修改管道文件
使用pipline.py文件作为管道文件,负责处理Spider中获取到的实体特征信息,并进行存储。这里需要导入JsonItemExporter模块进行JSON操作,然后在JsonExporterPipleline方法中执行具体的写操作,完整的代码如下:
![](https://epubservercos.yuewen.com/FBFBF6/15825992205221306/epubprivate/OEBPS/Images/Figure-P82_39260.jpg?sign=1739406331-3Z6K3U39qh35vDAdQQUtqVFMJSzPX6sA-0-e427b79c6d17617021af8d0b66447bdb)
2. 修改设置文件
在setting.py设置文件中修改方法的执行优先级。数字从小到大,数字越小,优先级就越高,具体设置如下:
![](https://epubservercos.yuewen.com/FBFBF6/15825992205221306/epubprivate/OEBPS/Images/Figure-P82_39259.jpg?sign=1739406331-CbfJSvvtEOrT5NBizrY0q0r2BjEYWObi-0-481407eb0ffa6337d2c1b23d1a8da710)
3. JSON格式数据的本地化存储
运行main.py文件,实现本地JSON文件存储。执行完成后,打开articleexport.json文件查看结果,如图3-13所示。
![](https://epubservercos.yuewen.com/FBFBF6/15825992205221306/epubprivate/OEBPS/Images/Figure-P83_12929.jpg?sign=1739406331-9ovMCNoi1CRfBZeGKhQ53zgGLaLbBur0-0-8d9f1b2f2ab639de9d512f2e386d145a)
图3-13 JSON格式数据的本地化存储