使用 Scrapy 爬虫框架爬取网页
一、实验目的
1. 理解 Scrapy 爬虫框架的架构和工作流程;
2. 掌握使用 Scrapy 爬虫框架进行爬虫项目开发。
二、实验内容
创建一个 Scrapy 项目 SunHot ,用于爬取阳光热线问政平台的部分信息,主要包括投诉帖子
的编号、帖子的 URL 、帖子的标题及帖子的内容,其网址为: https://wz.sun0769.com/
political/index/supervise ,具体要求如下:
1. 在项目的 /spiders 目录下,新建用作爬虫的文件 sun.py 。
2. 在 sun.py 文件中,使用 parse 方法取出每个页面中帖子的链接列表,再从中迭代获取每个
帖子,并交给回调函数 parse_item 处理。
3. 在 parse_item 方法中,提取上述提到的这些信息。
4. 将爬取到的数据以 JSON 文档的形式进行输出。
5. 将项目改为使用 CrawlSpider 类自动爬取。
三、作业提交要求
完成实验报告(见附件模板),将源代码和实验报告一起压缩打包提交至学习平台。
答:
江苏开放大学实验报告
学 号:
姓 名:
课程代码: 060749
课程名称:
数据采集与预处理
评阅教师:
第
2
次任务(书面作业)
共
5
次任务(书面作业)