江苏开放大学2024年春《数据采集与预处理 060749》第二次形考作业参考答案

2024年4月1708:25:10发布者:国开文档专家 242 views 举报
总字数:约3152字
第1页

第2页

使用 Scrapy 爬虫框架爬取网页

一、实验目的

1. 理解 Scrapy 爬虫框架的架构和工作流程;

2. 掌握使用 Scrapy 爬虫框架进行爬虫项目开发。

二、实验内容

创建一个 Scrapy 项目 SunHot ,用于爬取阳光热线问政平台的部分信息,主要包括投诉帖子

的编号、帖子的 URL 、帖子的标题及帖子的内容,其网址为: https://wz.sun0769.com/

political/index/supervise ,具体要求如下:

1. 在项目的 /spiders 目录下,新建用作爬虫的文件 sun.py

2. sun.py 文件中,使用 parse 方法取出每个页面中帖子的链接列表,再从中迭代获取每个

帖子,并交给回调函数 parse_item 处理。

3. parse_item 方法中,提取上述提到的这些信息。

4. 将爬取到的数据以 JSON 文档的形式进行输出。

5. 将项目改为使用 CrawlSpider 类自动爬取。

三、作业提交要求

完成实验报告(见附件模板),将源代码和实验报告一起压缩打包提交至学习平台。

答:

江苏开放大学实验报告

学 号:

姓 名:

课程代码: 060749

课程名称:

数据采集与预处理

评阅教师:

2

次任务(书面作业)

5

次任务(书面作业)

总页数:5
提示:下载前请核对题目。客服微信:homework51
标题含“答案”文字,下载的文档就有答案
特别声明:以上内容(如有图片或文件亦包括在内)为“电大之家”用户上传并发布,仅代表该用户观点,本平台仅提供信息发布。