江苏开放大学2024年春《数据采集与预处理 060749》第一次形考作业参考答案

2024年3月2422:45:19发布者:江开学习小虫 100 views 举报
总字数:约3618字
第1页

第2页

爬取证券之星数据

一、实验目的

掌握使用 urllib 库访问目标网址,BeautifulSoup 库解析网页,获得网页静态加载的数

据信息的方法。

二、实验内容

创建一个爬虫项目 StockStar,用于爬取证券之星的部分信息,主要包括代码、简称、流

通市值(万元)、总市值(万元)、流通股本(万元)、总股本(万元),其网址为:http://

quote.stockstar.com/stock/ranklist_a.shtml,具体要求如下:

1. 使用 urllib 库、requests 库访问网站,使用 bs4 库、lxml 库解析网页。

2. 获取数据后,用 NumPy 库、Pandas 库将其格式化为 DataFrame

3. 用 Python3 自带的 sqlite3 库,将数据本地存储在数据库中。

4. 从数据库中读取数据并创建为 DataFrame,再打印数据作为展示。

三、作业提交要求

完成实验报告(见附件模板),将源代码和实验报告一起压缩打包提交至学习平台。

答案是:

江苏开放大学实验报告

学 号:

姓 名:

课程代码: 060749

课程名称:

数据采集与预处理

评阅教师:

1

次任务(书面作业)

5

次任务(书面作业)

总页数:6
提示:下载前请核对题目。客服微信:diandahome
下载的文档都包含参考答案
特别声明:以上内容(如有图片或文件亦包括在内)为“电大之家”用户上传并发布,仅代表该用户观点,本平台仅提供信息发布。