江苏开放大学2024年春《数据科学导论 060745》形考作业二:第二、三、四单元自测练习参考答案

2024年3月2109:54:04发布者:江开学习小虫 115 views 举报

单选题

1下面哪一种情况属于违反了“属性违反唯一性”原则,比如主键的取值同一个值出现多次,那么这个就是违背了这个唯一性的问题,同一个主键是指同一个数据对象,比如说如果是居民管理系统,身份证号是唯一的识别主体对象的标志,那么同一个身份证号指的是同一个人,它只能出现一次,不能出现多次,不能是多个人共用一个身份证号,这个就违反了唯一性。

A把电子邮件信息录入到身份证号码字段中了

B身份证号码为12位

C在数据库中,有两条记录所有的字段内容都完全一样

D有多个人的身份证号码相同

答案:D

2下列选项中关于异常值处理叙述错误的是()

A若确定异常值对分析的影响是负面的,删除异常值是最简便的方法

B可将异常值视为缺失值处理

C并不是所有的异常值都是无意义的,部分数据工作就是围绕异常值

D欺诈检验中,若异常值存在,应将其删除

答案:D

3下列关于数据治理的表述错误的是()

A数据治理可理解为对数据管理的管理

B数据治理关注组织架构、制度、流程这些管理要素的整合和执行

C数据质量管理是数据治理核心模块之一,影响数据资产的应用价值

D在数据治理中,数据标准模块主要负责确保隐私、保密性和适当的访问权限等

答案:

4我们对性别字段(取值为“M”,“F”和“unknown”)进行编码:

 gender={“M”, “F”, “unknown”} ——> gender={0,1,2}

上述使用的特征编码类型是( )

A数值编码

B变量编码

C哑变量编码

DOne-Hot编码

答案:

5在Python中,Pandas模块中的 qcut() 方法可以用于( )

A二值化

B等频离散化

C标准化

D等距离散化

答案:

多选题

1下列哪些选项属于数据治理的目标()

A保证数据安全

B实现数据资源在各组织机构部的共享

C从数据中获取最优的价值

D提高数据质量

答案:

2下列选项属于判断异常值的方法的是()

A3σ法则

B散点图

C线性回归

D箱线图

答案:

3下列选项属于数据离散化方法的是( )

A等距法

B映射法

C等频法

D二值化

答案:

4下列哪些因素会影响数据的质量()

A流程因素

B信息因素

C技术因素

D管理因素

答案:

5下列关于填补法的表述错误的是()

A当列特征是离散值时,应采用平均数填充、中位数填充、回归模型填充

B当列特征前后取值有关联时,可采用向前填充、向后填充

C当列特征是连续值时,应采用列特征的众数填充

D若数据集中某一样本或者特征缺失不多,可用特定值替代缺失值

答案:

6数据采集主要的方法有(  )

A实验方法

B系统日志采集方法

C网络爬虫采集方法

D传感器采集方法

E人工采集的方法

答案:

7下列选项属于数据缺失机制类型的有()

A非随机缺失

B完全随机缺失

C随机缺失

D连续随机缺失

答案:

8数据稽核主要是指对数据质量评估标准的哪些指标进行检查()

A及时性

B一致性

C完整性

D准确性

答案:

填空题

1关系型数据库就是指采用了 结构来组织数据的数据库,它以行和列的形式来存储数据。

答案:

2影响数据质量的因素主要包括 、 、 和管理因素。

答案:

3数据管理它的意义就在于,从大量原始的数据中 、 出对人们有价值的信息,然后再利用这些信息作为行动和 的依据。

答案:

4对于缺失值我们有三种处理方法: 、 和 。

答案:

5数据治理的目标是提高 ,保证 ,实现数据资源在各组织机构部门的共享,从企业数据中获取最优的价值。

答案:

6数据治理(data governance)是指将数据视为企业资产,对数据进行 、 和 ,并对组织内的人员、流程、技术和策略进行编排,是对数据的全生命周期管理。

答案:

提示:下载前请核对题目。客服微信:diandahome
标题含“答案”文字,下载的文档就有答案
特别声明:以上内容(如有图片或文件亦包括在内)为“电大之家”用户上传并发布,仅代表该用户观点,本平台仅提供信息发布。