“大数据技术导论”课程实验报告
实验名称:网页数据获取
教师评语
教师签字 日期
成
绩
100
学生姓名
学号
一、实验目标
数据获取是数据生命周期中的第一个环节,数据抽取过程是搜索全部数据源,按照某种标
准选择合乎要求的数据,并将其进行适当的格式转换之后,传送到目的地中存储。为了克
服被抽取的数据源分布广泛、异构、非结构化等问题,数据抽取技术和抽取工具应运而生。
学习数据科学与大数据技术不仅需要掌握其理论,更重要的是能够运用工具和方法来完成
数据的获取。
二、实验环境
macos
八爪鱼采集
三、实验内容
理解爬虫软件的原理与方法,独立完成网页数据获取的实验,主要内容如下。
( 1 )前嗅 ForeSpider 爬虫软件安装。
( 2 )选择频道。
( 3 )网页数据采集过程。
四、实验步骤
安装八爪鱼采集
复制京东手机搜索结果页地址
配置参数开始采集