国家开放大学2023秋《电子商务数据分析与应用-软件学院》形考任务124567参考答案

2023年12月1516:31:11发布者:江开学习小虫 48 views 举报


一、单选题

1、电子商务数据的获取途径不包括()

A.产品自有数据

B.调查问卷

C.互联网数据导入

D.从别人数据库窃取

答案是:从别人数据库窃取

2、请判断下面各项数据的结构化类型:()

国家开放大学2023秋《电子商务数据分析与应用-软件学院》形考任务124567参考答案

A.结构化数据

B.半结构化数据

C.非结构化数据

D.以上都不对

答案是:结构化数据

3、请判断下面各项数据的结构化类型:()

国家开放大学2023秋《电子商务数据分析与应用-软件学院》形考任务124567参考答案

A.结构化数据

B.半结构化数据

C.非结构化数据

D.以上都不对

答案是:半结构化数据

4、请判断下面各项数据的结构化类型:

国家开放大学2023秋《电子商务数据分析与应用-软件学院》形考任务124567参考答案

A.结构化数据

B.半结构化数据

C.非结构化数据

D.以上都不对

答案是:半结构化数据

5、请判断下面各项数据的结构化类型:

国家开放大学2023秋《电子商务数据分析与应用-软件学院》形考任务124567参考答案

A.结构化数据

B.半结构化数据

C.非结构化数据

D.以上都不对

答案是:非结构化数据

6、请判断下面各项数据的结构化类型:

国家开放大学2023秋《电子商务数据分析与应用-软件学院》形考任务124567参考答案

A.结构化数据

B.半结构化数据

C.非结构化数据

D.以上都不对

答案是:非结构化数据

7、请判断下面各项数据的结构化类型:

国家开放大学2023秋《电子商务数据分析与应用-软件学院》形考任务124567参考答案

A.结构化数据

B.半结构化数据

C.非结构化数据

D.以上都不对

答案是:非结构化数据

8、以下哪个不是基于电商平台的基础数据?

A.商品数据

B.客户基本信息数据

C.客户评价数据

D.互联网金融数据

答案是:互联网金融数据

9、随着电子商务的发展,国内电子商务研究性网站也随着增多,比较典型的有()

A.中国电子商务研究中心

B.阿里研究院

C.艾瑞咨询

D.以上全部

答案是:以上全部

10、下列可以导入Python模块的语句是

A.import module

B.input module

C.print module

D.def module

答案是:

11、以下属于内部数据获取渠道的是

A.多多参谋

B.店侦探

C.百度统计

D.店数据

答案是:

12、数据采集的基本方法包括( )、网络数据采集法和其他数据采集法。

A.数据库采集法

B.访问记录采集法

C.数据目录采集法

D.系统日志采集法

答案是:

13、商务数据包括()

A.电子商务平台的基础数据

B.电子商务专业网站的研究数据

C.电子商务媒体报道

D.以上全部

答案是:

15、以下关于数据采集说法正确的是()

A.爬虫类采集工具可以采集所有类型的数据

B.淘宝网店的运营数据可以通过使用友盟等统计工具进行采集

C.第三方电商网站可以使用百度统计采集店铺运营数据

D.店侦探可以获取店铺的详细销售数据

答案是:

16、电子商务数据的主要来源包括()

A.电子商务平台

B.社交电商平台

C.O2O 数据

D.以上全部

答案是:

17、()指企业针对个人开展电子商务活动的平台,如企业通过平台为个人提供在线医疗咨询、 在线商品购买等服务。企业或商家机构通过平台不消费者进行各种商务活动、 交易活动、 金融活动和综合服务活动,是消费者利用互联网直接参与经济活动的形式。

A.B2B 平台 

B.社交零售电商

C.B2C 平台

D.C2C 平台

答案是:

18、数据处理一般指对数据进行()、()、()、和()的过程。

A.采集、分析、分析、可视化表达

B.整理、采集、分析、可视化表达

C.采集、整理、分析、可视化表达

D.整理、可视化表达、分析、采集

答案是:

19、数据采集可为数据处理()的数据。

A.准备必要

B.整理必要

C.分析必要

D.汇报必要

答案是:

20、以下关于数据采集说法正确的()

A.同一数据如果有多个来源途径,可以选择其中的任一个来源进行采集

B.数据采集人员需要针对数据采集需求、背景等对数据采集渠道进行可信度划分,优先选择可信度更高的数据采集渠道

C.数据采集渠道可信度与数据采集的背景和指标无关,属于独立的体系

D.数据采集渠道无所谓优劣,主要看能否获取到所需数据

答案是:

21、以下属于客户流量属性的是()

A.来源页面

B.常用设备

C.客户下载

D.客户性别

答案是:

22、下列数据指标中不属于客户行为的是()。

A.购买时间

B.浏览路径

C.支付金额

D.收货地址

答案是:

23、某网店准备按照店铺产品的引流能力及盈利能力两项数据分别对产品进行排序,将两项数据指标排名均靠后的5款产品进行下架处理。根据以上情景可确定数据分析目标为()

A.分析店铺商品的引流能力和盈利能力

B.分店铺商品中能够稳定获利的商品

C.分析店铺商品的展现量

D.分析店铺商品的推广效果

答案是:

24、在数据采集过程中并非所有需要的数据指标都可以采集到,在这种情况下以下做法正确的是()。

A.可以使用能够反映该指标的其他数据替代

B.不需要采集

C.想尽一切办法寻找可以采集到该指标的数据数据渠道

D.忽略该数据的采集任务

答案是:

25、选项中关于爬虫知识的说法错误的是:

A.爬虫是一个获取网页数据,并提取、保存信息的自动化程序

B.爬虫工作通常分为三步:获取网页-解析网页-存储数据

C.使用爬虫时应遵循 Robots 协议

D.爬虫可以随意抓取 Robots 协议中标注 Disallow 的数据

答案是:

二、判断题

1、电子商务数据是对电子商务活动中客观事物的逻辑归纳,可以用符号和字母等方式对客观事物进行直观描述。

A.是

B.否

答案是:

2、评论数据主要以图片形式出现。

A.是

B.否

答案是:

3、通过大数据进行维度分析展现品牌印象关键词,和产品的运营方式,帮助企业更好的掌握发展趋势。

A.是

B.否

答案是:

4、通过大数据技术,可以实现企业的客户资源进行精准锁定,在企业在运营过程中,客户资源的挖掘方式、具体情况和分布情况等,企业都可以进行搜集分析,形成基于企业的资源分布可视图,就如同“电子地图”一般。

A.是

B.否

答案是:

5、数据采集时需要数据采集人员不惜任何手段获取所有需要的数据。

A.是

B.否

答案是:

6、在分析全店某段时间内的客单价时,需要采集的数据指标有该段时间内店铺成交客户数及成交总额。

A.是

B.否

答案是:

7、某网店准备分析一段时间内的全店转化率,需要采集的数据指标有该段时间内的店铺访客数及成交访客数。

A.是

B.否

答案是:

8、在数据采集工具选择过程中需要注意工具的功能及适用范围。

A.是

B.否

答案是:

9、电子商务数据采集时对于一些无法使用采集工具采集的数据,可以对其进行摘录。

A.是

B.否

答案是:

10、电子商务数据采集渠道包含权威网站、数据机构、个人网站。

A.是

B.否

答案是:

11、价格会或价格决策关系到企业的利润、成本补偿、以及是否有利于产品销售、促销等问题,可以说价格在一定程度上影响着产品的生命力。

A.是

B.否

答案是:

12、把实际完成值与目标值进行对比,属于纵比。

A.是

B.否

答案是:

13、企业与行业中的标杆企业、竞争对手或行业平均水平进行对比,这属于横比。

A.是

B.否

答案是:

14、AB测试是指设计两个版本(A和B),A为目前的版本,B是猜想更好的版本或者新的版本。然后,通过测试比较这两个版本之间你所关心的数据,最后选择效果最好的版本。

A.是

B.否

答案是:

15、杜邦分析法利用几种主要的财务比率之间的关系综合地分析企业的财务状况。具体来说,它是一种用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效的经典方法。

A.是

B.否

答案是:

16、对比分析法在做淘宝数据分析过程中是常用的,例如竞争对手分析通过把我们的实际数据和竞争对手的数据进行比较,了解之间的差异并分析原因。

A.是

B.否

答案是:

17、用漏斗图分析法不能直观地看到每个环节的情况,不能看到每个环节的转化情况、流失情况。

A.是

B.否

答案是:

18、问题树分析法是将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展,把一个已知问题当成树干,然后开始考虑这个问题和哪些相关问题或者子任务有关。每想到一点,就给这个问题(也就是树干)加一个“树枝”,并标明这个“树枝”代表什么问题。一个大的“树枝”上还可以有小的“树枝”,以此类推,找出问题的所有相关联项目。

A.是

B.否

答案是:

19、像账号密码这种私密的信息,网站基本不会使用 GET 请求去处理,而更多会使用 POST 请求去提交这些数据。GET 请求更多用于获取网页内容。

A.是

B.否

答案是:

20、requests 库主要作用是从网站服务器获取请求的数据,requests 库可直接使用,无需进行任何安装

A.是

B.否

答案是:

21、是谁来做属于5W2H中why的范畴。

A.是

B.否

答案是:

22、下列选项中,与目标对比、行业内对比、不同时期对比、活动效果对比属于对比分析法分析维度。

A.是

B.否

答案是:

23、想要采集某独立商城上行业竟品商品销售价格,可以使用百度指数数据采集工具进行采集。

A.是

B.否

答案是:

24、数据分析的方法有AB测试法、杜邦分析法、对比分析法、5W2H分析法。

A.是

B.否

答案是:

25、数据分析中市场类指标主要用于描述行业情况和企业在行业中的发展情况,平均购买次数、活跃客户比率属于市场类指标。

A.是

B.否

答案是:

14、下列选项中,哪些属于5W2H中How much的范畴()?

A.是谁来做?

B.做到什么程度?

C.在哪里做?

D.是什么时候做?

答案是:

1、下列关于为什么要做数据清理描述错误的是(  )

A.数据有重复 

B.数据有错误

C.数据有缺失 

D.数据量太大

答案是:

2、下列关于数据清理描述错误的是(   )

A.数据清理能完全解决数据质量差的问题 

B.数据清理在数据分析过程中是不可或缺的一个环节 

C.数据清理的目的是提高数据质量 

D.可以借助Kettle来完成大量的数据清理工作

答案是:

3、下列关于使用参照表清洗数据说法错误的是(  )

A.有些数据无法从内部发现错误,需要结合外部的数据进行参照 

B.只要方法得当,数据内部是可以发现错误的,不需要借助参照表 

C.使用参数表可以校验数据的准确性

D. D、使用参照表可以处理数据的一致性

答案是:

4、某店铺2019年度会员信息表中,某会员的出生年份是1990年,但年龄却记录为25岁,此类错误需要进行( )。

A.缺失值清洗

B.重复值清洗

C.逻辑值清洗

D.无价值数据清洗

答案是:

5、关于数据清洗的作用,下列说法正确的是( )。

A.去重、补漏、计算

B.去重、补漏、纠错

C.补漏、纠错、计算

D.去重、计算、纠错

答案是:

6、数据清洗时,运营数据中出现“下单时间2088-12-12”,属于( )。

A.缺失值清洗

B.格式内容清洗

C.逻辑错误清洗

D.重复数据清洗

答案是:

7、以下说法错误的是(   )

A.数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约

B.数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用

C.冗余数据的删除既是一种数据清理形式,也是一种数据归约

D.整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流

答案是:

8、处理噪声的方法一般有(   )

A.分箱 

B.回归

C.聚类 

D.以上都是 

答案是:

9、数据集成的过程中需要处理的问题有(  )

A.实体识别 

B.冗余与相关性分析。 

C.数据冲突和检测 

D.以上都是

答案是:

10、数据归约的方法有(  )

A.维度归约 

B.数量归约

C.数据压缩 

D.以上都是

答案是:

11、关于数据重塑的说法中,下列选项描述错误的是()。

A.数据重塑可以将DataFrame转换为Series

B.stack()方法可以将列索引转换为行索引

C.对一个DataFrame使用stack()方法后返回的一定是一个Series

D..unstack()方法可以将行索引转换为列索引

答案是:

12.请阅读下面的程序: 执行上述程序后,最终输出的结果为()。

A.0 False1 False2 True

B..0 True1 True2 False

C..0 False1 False2 False

D..0 True1 True2 True

答案是:

13、下列选项中,关于drop_duplicates()方法描述错误的是()。

A.仅支持单一特征数据的去重

B..仅对Series和DataFrame对象有效

C.数据去重时默认保留第一个数据

D.该方法不会改变原始数据排列

答案是:

14、下列选项中,关于dropna()方法描述正确的是()。

A.dropna()方法只会删除值为NaN的数据

B.dropna()方法不会删除值为None的数据

C.dropna()方法会删除值为None和NaN的数据

D.dropna()方法只会检测缺失数据和空值

答案是:

15、下列选项中,关于duplicated()方法描述正确的是()。

A.duplicate()方法用于删除重复值

B.duplicate()方法用于标记重复值

C.duplicate()方法会改变原始数据

D.duplicate()方法会将重复的数据标记为False

答案是:

16、下列选项中,属于数据处理的目的是()

A.使数据更加适用于分析

B.对无意义的数据进行清洗

C.整合数据

D.以上全部

答案是:

17、数据清洗的主要内容包括( )。

A.缺失值清洗

B.格式内容清洗

C.逻辑错误清洗

D.以上全部

答案是:

18、在数据表里,缺失值常见的表现形式是( )。

A.空值

B.错误标识符

C.#DIV/0!

D.1

答案是:

19、数据清洗时,处理缺失值的方法不包括( )。

A.删除单元格

B.删除记录

C.数据补齐

D.不处理

答案是:

20、数据逻辑错误不包括( )。

A.数据不合理

B.数据自相矛盾

C.数据不符合规则

D.数据格式错误

答案是:

21、下列选项中,关于数据预处理说法正确的是()。

A.数据清洗包含了数据标准化、数据合并和缺失值处理

B.数据合并按照合并轴的方向主要分为左连接、右连接、内连接和外连接

C.数据分析的预处理过程包括数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,没有严格的先后关系

D.数据标准化的主要对象是类别型特征

答案是:

22、检测出异常值之后,通常会采用哪些方式处理它们?()

A.直接将含有异常值的记录删除

B.用具体的值来进行替换,可用前后两个观测值的平均值修正该异常值

C.不处理,直接在具有异常值的数据集上进行统计分析

D.以上全部

答案是:

23、下列函数中,可以对数据进行的合并的是()。

A.concat()

B..join()

C..merge()

D.以上全部

答案是:

24、下列方法中,可以修改数据类型的是()。

A.desc()

B.to_numberic()

C.dim()

D.type()

答案是:

25、下列关于重复值处理的说法中,错误的是()。

A.duplicated()方法可以标记重复数据

B.drop_duplicates()方法用于删除重复数据

C.重复数据的判断标准是两个数据中所有条目的值都相等

D.duplicated()方法支持从前向后和从后向前两种查找模式

答案是:

二、判断题

1、数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。它一方面保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。

A.是

B.否

答案是:

2、重复数据会影响数据处理结果的正确性,从而导致数据分析出现偏差,因此需要将其删除。

A.是

B.否

答案是:

3、具有多层索引的DataFrame对象经过stack()重塑后,返回的是一个Series对象。

A.是

B.否

答案是:

4、使用merge()函数进行数据合并时,不需要指定合并键。

A.是

B.否

答案是:

5、fillna()方法处理缺失数据时可以使用Series对象填充,但不可以使用DataFrame对象填充。

A.是

B.否

答案是:

6、dropna()方法可以删除数据中所有的缺失值。

A.是

B.否

答案是:

7、drop_duplicated()方法可以删除重复值。

A.是

B.否

答案是:

8、rename()方法可以重命名索引名。

A.是

B.否

答案是:

9、通过merge()函数合并数据时可以指定多个键。

A.是

B.否

答案是:

10、join()方法可以使用左连接和右连接两种方式连接数据。

A.是

B.否

答案是:

11、关于Pandas中的数据重塑,stack()方法可以将列索引转换为行索引。

A.是

B.否

答案是:

12、关于预处理中的数据合并,concat()函数是最常用的主键合并函数,可以通过内连接和外连接的方式堆叠合并数据。

A.是

B.否

答案是:

13、关于预处理中的数据合并,merge()函数是最常用的主键合并的函数,但不能够通过左连接和右连接的方式合并数据。

A.是

B.否

答案是:

14、关于预处理中的数据合并,join()方法是最常用的主键合并方法之一,但不能够通过左连接和右连接的方式合并数据。

A.是

B.否

答案是:

15、Pandas中可以使用boxplot()方法绘制箱形图,以实现对数据中的异常值进行检测。

A.是

B.否

答案是:

17、notnull()与isnull()方法都可以判断数据中是否存在空值或缺失值。

A.是

B.否

答案是:

18、dropna()方法可以删除空值和缺失值

A.是

B.否

答案是:

19、异常值处理中可以基于不同字段的均值和标准差求出异常数据分布范围,然后再对异常范围外 的数据做处理,例如填充为均值

A.是

B.否

答案是:

20、数据处理中,大多数情况下重复值是需要去除的,使用数据框的drop_duplicates方法即可实现。

A.是

B.否

答案是:

21、随机抽样即随机的抽取样本,可使用数据框的sample实现,并可通过参数n设置指 定抽样数量,或通过frac指定抽样比例。

A.是

B.否

答案是:

22、字符串和日期的转换,可通过time或datetime库的strptime和strftime实现。

A.是

B.否

答案是:

23、数据标准化通过将数据按比例缩放,使之落入一个小的特定区间 对象的操作。

A.是

B.否

答案是:

24、MaxMin方法则是根据原始数据的最大值和最小值做数据处理,它将数据缩 放为特定范围[0,1]内。

A.是

B.否

答案是:

25、丢弃缺失值是直接将含有NA值的记录丢弃,适用于NA值的记录较少,且整体 样本量较大的情况。

A.是

B.否

答案是:

1、下列关于数据分析概念的描述错误的是()

A.使用适当的统计分析方法对收集来的大量数据进行分析

B.数据分析可以从数据中提炼出有用的信息并形成结论

C.数据分析可以对数据进行更深层的研究 

D.数据分析不能够在杂乱无章的数据中提取有用的数据

答案是:

2、数据分析的一般流程为()

A.明确目的和思路、数据收集、数据处理、数据分析、数据展现

B.明确目的和思路、数据收集、数据分析、数据展现

C.数据收集、数据处理、数据分析、数据展现

D.明确目的和思路、数据处理、数据分析、数据展现

答案是:

3、关于数据分析的说法,下列描述错误的是()

A.数据分析可以通过计算机工具和数学知识处理数据

B.可以做出具有针对性的决策

C.数据分析没有实际的使用意义

D.在大数据环境下,数据分析能够挖掘出更有价值的信息

答案是:

4、数据分析可以分为()

A.EDA: Exploratory Data Analysis - 探索性数据分析

B.CDA: Confirmatory Data Analysis - 验证性数据分析

C.定性数据分析

D.以上全部

答案是:

5、消费者价值通常由()组成。

A.历史价值

B.潜在价值

C.附加值

D.以上全部

答案是:

6、在搭建用户体系时,运营者可以借助RFM模型()

A.调整指标

B.设计管理层级

C.调整级别

D.重要挽留用户

答案是:

7、()越大表示客户越久没有发生交易,客户越可能流失。

A.RFM

B.R

C.F

D.M

答案是:

8、对于()的客户,如果企业能分析、了解、满足他们的需求,采用有针对性的营销手段吸引他们。提高他们的购买频率,将会给企业带来更多利润。

A.R越小F越大M越大

B.R越小F越小M越大

C.R越小F越大M越小

D.R越小F越小M越小

答案是:

9、对于()客户,企业应尽量挽留,通过营销手段提高客户忠诚度。因此,可视其为企业的重要挽留客户,是企业利润的潜在来源之一。

A.R越大F越大M越大

B.R越大F越小M越大

C.R越小F越大M越小

D.R越小F越小M越小

答案是:

10、这类()客户,有可能购买力有限,可能购买力强,但对企业的一些产品不感兴趣。加大对这类客户的营销投人存在一定的风险,但适当维持与这类客户的关系又能使企业获得一定的利润。

A.R越大F越大M越大

B.R越大F越大M越小

C.R越小F越大M越小

D.R越小F越小M越小

答案是:

11、这类()客户,企业已很难从他们身上获取更多利润。因此只能看作企业的一般客户。

A.R越大F越大M越大

B.R越大F越大M越小

C.R越小F越小M越大

D.R越小F越小M越小

答案是:

12、关于Anaconda的组件中,可以编辑文档且展示数据分析过程的是()

A.Anaconda Navigator

B.Anaconda Prompt

C.Spyder

D.Jupyter Notebook

答案是:

13、Python不支持的数据类型有()

A.char

B.Numbers

C.String

D.List

答案是:

14、以下不是Python保留字的是()

A.and

B.lambda

C.or

D.where

答案是:

15、python使用哪个关键字导入包()

A.def

B.package

C.import

D.class

答案是:

16、以下哪个是不可变数据类型()

A.list

B.Dictionary

C.Tuple

D.Set

答案是:

17、Python 中,以下哪个变量的赋值是正确的?()

A.var a = 2

B.int a = 2

C.a = 2

D.variable a = 2

答案是:

18、Python脚本s = 'abcdef',那么s[1:5]的值是()

A.abcdef

B.bcde

C.abcde

D.cdef

答案是:

19、Python标准库math中用来计算平方根的函数是()

A.pow

B.round

C.exp

D.sqrt 

答案是:

20、列表a=[1,3,4],b= [4,5,6] 那么a+b是()

A.[1,3,4]

B.[4,5,6]

C.[5,8,10]

D.[1,3,4, 4,5,6] 

答案是:

21、列表a = ['Google', 'Python', 1979, 2000],a[2]= 2001,更新列表后a是()

A.['Google', 'Python', 1979, 2000]

B.['Google', 2001, 1979, 2000]

C.['Google', 'Python', 2001, 2000]

D.['Google', 'Python', 1979, 2001]

答案是:

22、元组tuple=('runoob',786,2.23,'john',70.2),tuple[2]=1000是()

A.('runoob', 1000,2.23,'john',70.2)

B.('runoob',786, 1000,'john',70.2)

C.('runoob',786,2.23, 1000,70.2)

D.非法操作 

答案是:

23、tinydict={'name': 'john','code':6734, 'dept': 'sales'},tinydict[‘code’]为()

A.john

B.6734

C.sales

D.['john', 6734, 'sales']

答案是:

24、以下哪个是不合格的比较运算符()

A.a==b

B.a>b

C.a=b 

D.a>=b

答案是:

25、下列那个不是Numpy多维数组的属性()

A.ndim

B.shape

C.size

D.columns 

答案是:

二、判断题

1、数据分析是一个有目的地收集和整合数据的过程。()

A.是

B.否

答案是:

2、CDA-验证性数据分析,用于找到数据间的模式,相关性。是一种“参考答案”的获取。场景包括典型的“啤酒尿布”这类数据挖掘应用,工具包括SAS,SPSS这类数据挖掘软件以及python语言这类语言工具。

A.是

B.否

答案是:

3、数据生态系统逐渐丰富并影响企业商业模式。目前国内整个数据分析产业链的布局相对完整,但局部环节的竞争程度差异化明显。

A.是

B.否

答案是:

4、生意参谋中的“交易”功能版块可以显示店铺的各项交易数据,能够清楚显示店铺的运营情况和出现的问题。

A.是

B.否

答案是:

5、转化漏斗模型可以在消费者访问店铺到最终成交的各个环节,一层层过滤转化人数,分析各个环节的转化情况。

A.是

B.否

答案是:

6、商家获取会员数据后,可以充分利用这些数据对会员的情况进行分析,包括会员的分布情况,如年龄分布、性别分布、地区分布,各地区会员的增长、流失情况,以及挖掘每一位会员的价值潜力等。

A.是

B.否

答案是:

7、conda是一个在Windows、Mac OS、和Linux上运行的开源软件包管理系统和环境管理系统。

A.是

B.否

答案是:

8、Jupyter Notebook的优点是可以重现整个分析过程,并将说明文字、代码、图表、公式和结论都整合在一个文档中。

A.是

B.否

答案是:

9、使用requests库为 URL 的查询字符串(query string)传递某种数据时,如果你是手工构建 URL,那么数据会以键/值对的形式置于 URL 中,跟在一个问号的后面。假如传递的参数为payload = {'key1': 'value1', 'key2': 'value2'}。那么应该使用r = requests.get("url", params=payload)语句。

A.是

B.否

答案是:

10、Beautiful Soup自带的解析器为html.parser。

A.是

B.否

答案是:

11、数据分析隐藏的风险和困境包括用户隐私、管理困难、数据交易、大数据人才缺乏。

A.是

B.否

答案是:

12、电子商务领域的销售业绩指标主要分为总销售额指标、有效订单指标。

A.是

B.否

答案是:

13、转化漏斗模型包括有效入店率、咨询转化率、静默转化率、订单支付率。

A.是

B.否

答案是:

14、商品的流量转化直接影响店铺的最终销量。因此当商品具有合格的引流能力时,商家一定要关注流量的转化情况,并对转化效果不佳的方面进行优化。实际上,影响转化的因素有很多,包括商品主图、首页、详情页、评价。

A.是

B.否

答案是:

15、Jupyter Notebook不可以将文件保存为html格式。

A.是

B.否

答案是:

16、Anconda不支持Python3.x以上的版本。

A.是

B.否

答案是:

17、this属于Python的保留关键字。

A.是

B.否

答案是:

18、在循环体内使用break语句或continue语句的作用相同。

A.是

B.否

答案是:

19、catch是Python异常处理关键字。

A.是

B.否

答案是:

20、进程就是一个应用程序在处理机上的一次执行过程,它是一个动态的概念,而线程是进程中的一部分,进程包含多个线程在运行。

A.是

B.否

答案是:

21、Python中,使用socket模块的socket()方法来创建套接字。

A.是

B.否

答案是:

22、计算机通信时,负责在两台计算机之间建立可靠连接,保证数据包按顺序到达的协议是UDP。

A.是

B.否

答案是:

23、SciPy可用于python爬虫开发。

A.是

B.否

答案是:

24、Python中,创建线程的方式有多种,可以使用threading模块的Thread类创建线程。

A.是

B.否

答案是:

25、计算机通信时,服务器的套接字方法中用于TCP监听的方法是bind()。

A.是

B.否

答案是:

1、电子商务数据的获取途径不包括()

A.产品自有数据

B.调查问卷

C.互联网数据导入

D.从别人数据库窃取

答案是:

2、请判断下面各项数据的结构化类型:()

A.结构化数据

B.半结构化数据

C.非结构化数据

D.以上都不对

答案是:

3、以下哪个不是基于电商平台的基础数据?

A.商品数据

B.客户基本信息数据

C.客户评价数据

D.互联网金融数据

答案是:

4、电子商务数据的主要来源包括()

A.电子商务平台

B.社交电商平台

C.O2O 数据

D.以上全部

答案是:

5、数据处理一般指对数据进行()、()、()、和()的过程。

A.采集、分析、分析、可视化表达

B.整理、采集、分析、可视化表达

C.采集、整理、分析、可视化表达

D.整理、可视化表达、分析、采集

答案是:

6、数据有不同的表现形式,数据的来源也多种多样,因此数据采集的()、采集的()、和采集后 的()也不尽相同。

A.工具、方法、存储方式

B.方法、工具、存储方式

C.方法、过程、存储方式

D.工具、过程、存储方式

答案是:

7、以下关于数据采集说法正确的()

A.同一数据如果有多个来源途径,可以选择其中的任一个来源进行采集

B.数据采集人员需要针对数据采集需求、背景等对数据采集渠道进行可信度划分,优先选择可信度更高的数据采集渠道

C.数据采集渠道可信度与数据采集的背景和指标无关,属于独立的体系

D.数据采集渠道无所谓优劣,主要看能否获取到所需数据

答案是:

8、某网店准备按照店铺产品的引流能力及盈利能力两项数据分别对产品进行排序,将两项数据指标排名均靠后的5款产品进行下架处理。根据以上情景可确定数据分析目标为()

A.分析店铺商品的引流能力和盈利能力

B.分店铺商品中能够稳定获利的商品

C.分析店铺商品的展现量

D.分析店铺商品的推广效果

答案是:

9、在数据采集过程中并非所有需要的数据指标都可以采集到,在这种情况下以下做法正确的是()。

A.可以使用能够反映该指标的其他数据替代

B.不需要采集

C.想尽一切办法寻找可以采集到该指标的数据数据渠道

D.忽略该数据的采集任务

答案是:

10、通过网站公开的API接口采集数据属于(  )。

A.网络数据采集法

B.传感器采集法

C.访问记录采集法

D.系统日志采集法

答案是:

11、下列关于为什么要做数据清理描述错误的是(  )

A.数据有重复 

B.数据有错误

C.数据有缺失 

D.数据量太大

答案是:

12、下列关于数据清理描述错误的是(   )

A.数据清理能完全解决数据质量差的问题 

B.数据清理在数据分析过程中是不可或缺的一个环节 

C.数据清理的目的是提高数据质量 

D.可以借助Kettle来完成大量的数据清理工作

答案是:

13、某店铺2019年度会员信息表中,某会员的出生年份是1990年,但年龄却记录为25岁,此类错误需要进行( )。

A.缺失值清洗

B.重复值清洗

C.逻辑值清洗

D.无价值数据清洗

答案是:

14、数据清洗时,运营数据中出现“下单时间2088-12-12”,属于( )。

A.缺失值清洗

B.格式内容清洗

C.逻辑错误清洗

D.重复数据清洗

答案是:

15、以下说法错误的是(   )

A.数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约

B.数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用

C.冗余数据的删除既是一种数据清理形式,也是一种数据归约

D.整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流

答案是:

16、kettle是什么编程语言编写的?

A.C

B.JAVA

C.Python

D.以上都不对

答案是:

17、如何在window操作系统上启动kettle?()

A.双击Spoon.bat

B.Pan.bat

C.runSamples.bat

答案是:

18、kettle转换的核心对象,下面哪项不正确?

A.输入

B.输出

C.流程

D.DB连接

答案是:

19、数据分析的一般流程为()

A.明确目的和思路、数据收集、数据处理、数据分析、数据展现

B.明确目的和思路、数据收集、数据分析、数据展现

C.数据收集、数据处理、数据分析、数据展现

D.明确目的和思路、数据处理、数据分析、数据展现

答案是:

20、s = list("壮丽七十年奋斗新时代"),给出如下代码以下选项中能输出字符“奋”第一次出现的索引位置的

A.print(s.index("奋"),1,len(s))

B.print(s.index("奋"))

C.print(s.count("奋"))

D.print(s.index("奋"),1)

答案是:

二、多选题

1、电子商务数据具有以下哪些作用?

A.电子商务数据具有诊断作用

B.电子商务数据具有预测作用

C.电子商务数据具有决定作用

D.电子商务数据具有传播作用

答案是:

2、下列选项中,关于数据预处理说法错误的是()。

A.数据清洗包含了数据标准化、数据合并和缺失值处理

B.数据合并按照合并轴的方向主要分为左连接、右连接、内连接和外连接

C.数据分析的预处理过程包括数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,没有严格的先后关系

D.数据标准化的主要对象是类别型特征

答案是:

3、检测出异常值之后,通常会采用哪些方式处理它们?()

A.直接将含有异常值的记录删除

B.用具体的值来进行替换,可用前后两个观测值的平均值修正该异常值

C.不处理,直接在具有异常值的数据集上进行统计分析

D.视为缺失值,利用缺失值的处理方法修正该异常值

答案是:

4、商务数据包括()

A.电子商务平台的基础数据

B.电子商务专业网站的研究数据

C.电子商务媒体报道

D.评论数据

答案是:

5、数据分析中市场类指标主要用于描述行业情况和企业在行业中的发展情况,下列属于市场类指标的是()

A.行业增长率

B.平均购买次数

C.竞争对手销售额

D.活跃客户比率

答案是:

6、以下属于产品类数据指标的是()?

A.SKU

B.商品数

C.商品访客数

D.跳失率

答案是:

7、对淘宝平台某类商品销量数据进行分析,以下数据采集方式可行的是()

A.使用爬虫类工具对平台上该类商品的销量数据持续进行采集

B.使用生意参谋

C.使用1688指数工具

D.使用百度指数工具

答案是:

8、数据清洗的主要内容包括( )。

A.缺失值清洗

B.格式内容清洗

C.逻辑错误清洗

D.重复数据清洗

答案是:

9、kettle包含的部份?

A.Chef— — 任务(job)设计工具(GUI方式)

B.Kitchen— — 任务(job)执行器(命令行方式)

C.Spoon— — 转换(transform)设计工具(GUI方式)

D.Span— — 转换(transform)执行器(命令行方式)

答案是:

10、下面的语句的循环是有限的( )

A.

for a in range(10):

time.sleep(10)

B.

while 1<10:

time.sleep(10)

C.

while True:

break

D.

a = [3,-1,',']

      for i in a[:]:

     if not a:

             break

答案是:

三、判断题

1、Jupyter Notebook的优点是可以重现整个分析过程,并将说明文字、代码、图表、公式和结论都整合在一个文档中。

A.是

B.否

答案是:

4、商家获取会员数据后,可以充分利用这些数据对会员的情况进行分析,包括会员的分布情况,如年龄分布、性别分布、地区分布,各地区会员的增长、流失情况,以及挖掘每一位会员的价值潜力等。

A.是

B.否

答案是:

8、价格会或价格决策关系到企业的利润、成本补偿、以及是否有利于产品销售、促销等问题,可以说价格在一定程度上影响着产品的生命力。

A.是

B.否

答案是:

9、把实际完成值与目标值进行对比,属于纵比。

A.是

B.否

答案是:

10、AB测试是指设计两个版本(A和B),A为目前的版本,B是猜想更好的版本或者新的版本。然后,通过测试比较这两个版本之间你所关心的数据,最后选择效果最好的版本。

A.是

B.否

答案是:

11、杜邦分析法利用几种主要的财务比率之间的关系综合地分析企业的财务状况。具体来说,它是一种用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效的经典方法。

A.是

B.否

答案是:

12、用漏斗图分析法不能直观地看到每个环节的情况,不能看到每个环节的转化情况、流失情况。

A.是

B.否

答案是:

13、像账号密码这种私密的信息,网站基本不会使用 GET 请求去处理,而更多会使用 POST 请求去提交这些数据。GET 请求更多用于获取网页内容。

A.是

B.否

答案是:

14、数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。它一方面保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。

A.是

B.否

答案是:

15、fillna()方法处理缺失数据时可以使用Series对象填充,但不可以使用DataFrame对象填充。

A.是

B.否

答案是:

16、drop_duplicated()方法可以删除重复值。

A.是

B.否

答案是:

17、转化漏斗模型可以在消费者访问店铺到最终成交的各个环节,一层层过滤转化人数,分析各个环节的转化情况。

A.是

B.否

答案是:

18、Kettle是一个Java程序,因此,运行此工具,必须安装Sun公司(已被Oracle公司收购)的Java运行环境1.4或者更高版本。

A.是

B.否

答案是:

19、Kettle连接Mysql数据库,需要另外导入相应的jar。

A.是

B.否

答案是:

20、在Kettle中,在一个转换中,一个步骤可以有多个连接,一个连接也可以有多个步骤。

A.是

B.否

答案是:

一、单选题

1、关于Series结构,下列描述正确的是()。

A.Series是一个类似于二维数组的对象

B.Series由一组数据和与之相关的索引两部分构成

C.Series只能保存整数和字符串类型的数据

D.Series的索引默认是从1开始

答案是:

2、Pandas在执行算术运算时,没有对齐的位置会使用()进行补齐。

A.Null

B.0

C.NaN

D.null_values

答案是:

3、下列关于Pandas库的说法中正确的是()。

A.Pandas中只有两种数据结构

B.Pandas不支持读取文本数据

C.Pandas是在NumPy基础上建立的新程序库

D.Pandas中Series和DataFrame可以解决数据分析中一切的问题

答案是:

4、在进行算术运算时,如果希望一次性输出多个统计指标可以使用()方法。

A.statistics()

B.describe()

C.all()

D.results()

答案是:

5、关于Pandas中数据排序,下列说法正确的是()。

A.即可以按照行索引排序,也可以按照列索引排序

B..sort_index()方法表示按照值进行排序

C..sort_values()方法表示按照索引进行排序

D.默认情况下,sort_index()方法按照降序排列

答案是:

6、下列关于DataFrame说法正确的是( )。

A.DataFrame结构是由索引和数据组成

B.DataFrame的行索引位于最右侧

C.创建一个DataFrame对象时需要指定索引

D.DataFrame每列的数据类型必须是相同的

答案是:

7、下面哪种算法防过拟合的能力相对较好()

A.逻辑回归

B.决策树

C.神经网络

D.支持向量机

答案是:

8、逻辑回归与多元回归分析有哪些不同?()

A.逻辑回归预测某事件发生的概率

B.逻辑回归有较高的拟合效果

C.逻辑回归回归系数的评估

D.以上全选

答案是:

9、下面哪个超参数的增加可能会造成随机森林数据过拟合?()

A.A .树的数量

B.树的深度

C.学习速率

D.样本数量

答案是:

10、下列属于无监督学习的是()

A.K-means 

B.SVM

C.逻辑回归

D.神经网络

答案是:

11、下列哪些情况有可能造成过拟合()

A.特征过多

B.样本过多

C.参数过多

D.都不是

答案是:

12、下列哪个算法是Bagging的集成学习算法()

A.GBDT

B.Random Forest 

C.xgboost

D.都不是

答案是:

13、对k-means聚类算法解释正确的是()

A.能自动识别类的个数,随机挑选初始点为中心点计算

B.能自动识别类的个数,不是随机挑选初始点为中心点计算

C.不能自动识别类的个数,随机挑选初始点为中心点计算

D.不能自动识别类的个数,不是随机挑选初始点为中心点计算

答案是:

14、在以下不同的场景中,使用的分析方法不正确的有()

A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

答案是:

15、在以下不同的场景中,使用的分析方法不正确的有()

A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

答案是:

16、关联规则算法有( )

A.决策树、对数回归、关联模式

B.K均值法、SOM 神经网络

C.Apriori算法、FP-Tree 算法

D.RBF神经网络、K 均值法、决策树

答案是:

17、逻辑回归算法适用于以下哪些分析场景( )

A.文本识别 

B.客户流失预测

C.客户分层 

D.财务收入预测

答案是:

18、以下哪些方法不可以直接来对文本分类? ( )

A.Kmeans 

B.决策树 

C.支持向量机 

D.KNN

答案是:

19、以下哪个算法,既可实现连续值得目标,也可实现分类目标的预测()

A.C4.5

B.线性回归

C.聚类分析

D.C&RT 

答案是:

20、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()

A.关联规则发现 

B.聚类

C.分类

D.自然语言处理

答案是:

21、下面属于用来降维的一种方法的是: ( )

A.主成分分析

B.特征提取 

C.特征加权

D.离散化

答案是:

22、以下哪些算法是分类算法,()

A.DBSCAN

B.C4.5 

C.K-Mean

D.EM

答案是:

23、以下有关随机森林算法的说法错误的是()

A.随机森林算法的分类精度不会随着决策树数量的增加而提高

B.随机森林算法对异常值和缺失值不敏感

C.随机森林算法不需要考虑过拟合问题

D.对于不平衡的分类样本集来说,随机森林可以平衡误差

答案是:

24、下面哪一项用决策树法训练大量数据集最节约时间?()

1. 增加树的深度

2. 增加学习率

3. 减少数的深度

4..减少树的个数

A.2

B.1 and 2

C.3 

D.3 and 4

答案是:

25、以下哪种业务问题可以用聚类算法?()

A.客户流失

B.交叉销售

C.客户细分

D.倾向性分析

答案是:

二、判断题

1、使用pip命令也可以查看Anconda安装的包。

A.是

B.否

答案是:

2、Pandas是一个基于NumPy的数据分析包,它是为了解决数据分析任务而创建的。

A.是

B.否

答案是:

3、Pandas既可以按照索引排序也可以按照数据排序。

A.是

B.否

答案是:

4、Series和DataFrame都支持切片操作。

A.是

B.否

答案是:

5、在操作DataFrame对象时,可以通过指定索引名的方式获取数据。

A.是

B.否

答案是:

6、Pandas只有Series和DataFrame两种数据结构。

A.是

B.否

答案是:

7、DataFrame的结构是由索引和数据组成的。

A.是

B.否

答案是:

8、过拟合是有监督学习的挑战,而不是无监督学习。

A.是

B.否

答案是:

9、如果一个训练模型在测试集上精度达到100%,那么在另一个测试集上精度也能达到100%。

A.是

B.否

答案是:

10、如果一个训练模型在测试集上精度达到100%,那么在另一个测试集上精度也能达到100%()

A.是

B.否

答案是:

11、K-means算法中聚类的个数K是由用户自定义的()

A.是

B.否

答案是:

12、集成学习的效果一定把单个分类器的效果更好 ()

A.是

B.否

答案是:

13、NumPy是高性能科学计算和数据分析的基础包。

A.是

B.否

答案是:

14、对于Pandas索引操作,索引对象是可修改的。

A.是

B.否

答案是:

15、下列Pandas方法中,用于求最大值和最小值的是max和min。

A.是

B.否

答案是:

16、关于读写excel文件,.to_excel()方法表示将结构化数据读取到DataFrame中。

A.是

B.否

答案是:

17、从训练样本中是否含有标注好的目标变量,可以将机器学习分为:

A.是

B.否

答案是:

18、Xgboost不属于集成学习算法。

A.是

B.否

答案是:

19、决策树属于机器学习的无监督算法。

A.是

B.否

答案是:

20、线性回归是使用历史数据进行预测。

A.是

B.否

答案是:

21、下列图形是在相同的训练数据上具有相同回归的三个不同的模型,图3的回归模型拟合得最好,因为它的训练错误最小。

A.是

B.否

答案是:

22、在一个包含5000个特征及超过一百万个观测值的数据集上建立一个机器学习的模型,从数据集中随机抽取样本来建立模型、使用在线学习算法、使用主成分分析法(PCA)对数据降维都能更高效地训练模型。

A.是

B.否

答案是:

23、一个回归模型存在多重共线问题。在不损失过多信息的情况下,我们可以计算方差膨胀因子(variance inflation factor)来检查存在的多重共线性并采取相应的措施。

A.是

B.否

答案是:

24、聚类算法属于机器学习的无监督算法。

A.是

B.否

答案是:

25、DBSCAN属于聚类算法。

A.是

B.否

答案是:

Python数据分析 - 波士顿房价回归分析

分析目标:

将波士顿房价的数据集进行描述性数据分析、预测性数据分析(主要用了回归分析),可用于预测房价。

数据集介绍:

卡内基梅隆大学收集,StatLib库,1978年,涵盖了麻省波士顿的506个不同郊区的房屋数据。

一共含有506条数据。每条数据14个字段,包含13个属性,和一个房价的平均值。

数据:

https://docs.qq.com/sheet/DSHNJT3hzZlJ2Z0Ja?tab=BB08J2

1、数据预处理。导入常用的数据分析库;查看数据集大小;查看各字段基础信息;描述性数据分析。

2、描述性数据分析。查看描述性数据统计;查看各字段的相关性;查看是否穿过查尔斯河对房价的影响;绘制各个字段与价格的散点图。

3、预测性数据分析。选取线性回归字段;建立线性回归模型;计算回归系数;预测。

答案是:

16、关于空值和缺失值,NaN和None是完全一样的。

A.是

B.否

答案是:

提示:下载前请核对题目。客服微信:diandahome
下载的文档都包含参考答案
特别声明:以上内容(如有图片或文件亦包括在内)为“电大之家”用户上传并发布,仅代表该用户观点,本平台仅提供信息发布。