单选题
1下面哪一种情况属于违反了“属性违反唯一性”原则,比如主键的取值同一个值出现多次,那么这个就是违背了这个唯一性的问题,同一个主键是指同一个数据对象,比如说如果是居民管理系统,身份证号是唯一的识别主体对象的标志,那么同一个身份证号指的是同一个人,它只能出现一次,不能出现多次,不能是多个人共用一个身份证号,这个就违反了唯一性。
A把电子邮件信息录入到身份证号码字段中了
B身份证号码为12位
C在数据库中,有两条记录所有的字段内容都完全一样
D有多个人的身份证号码相同
答案:D
2下列选项中关于异常值处理叙述错误的是()
A若确定异常值对分析的影响是负面的,删除异常值是最简便的方法
B可将异常值视为缺失值处理
C并不是所有的异常值都是无意义的,部分数据工作就是围绕异常值
D欺诈检验中,若异常值存在,应将其删除
答案:D
3下列关于数据治理的表述错误的是()
A数据治理可理解为对数据管理的管理
B数据治理关注组织架构、制度、流程这些管理要素的整合和执行
C数据质量管理是数据治理核心模块之一,影响数据资产的应用价值
D在数据治理中,数据标准模块主要负责确保隐私、保密性和适当的访问权限等
答案:
4我们对性别字段(取值为“M”,“F”和“unknown”)进行编码:
gender={“M”, “F”, “unknown”} ——> gender={0,1,2}
上述使用的特征编码类型是( )
A数值编码
B变量编码
C哑变量编码
DOne-Hot编码
答案:
5在Python中,Pandas模块中的 qcut() 方法可以用于( )
A二值化
B等频离散化
C标准化
D等距离散化
答案:
多选题
1下列哪些选项属于数据治理的目标()
A保证数据安全
B实现数据资源在各组织机构部⻔的共享
C从数据中获取最优的价值
D提高数据质量
答案:
2下列选项属于判断异常值的方法的是()
A3σ法则
B散点图
C线性回归
D箱线图
答案:
3下列选项属于数据离散化方法的是( )
A等距法
B映射法
C等频法
D二值化
答案:
4下列哪些因素会影响数据的质量()
A流程因素
B信息因素
C技术因素
D管理因素
答案:
5下列关于填补法的表述错误的是()
A当列特征是离散值时,应采用平均数填充、中位数填充、回归模型填充
B当列特征前后取值有关联时,可采用向前填充、向后填充
C当列特征是连续值时,应采用列特征的众数填充
D若数据集中某一样本或者特征缺失不多,可用特定值替代缺失值
答案:
6数据采集主要的方法有( )
A实验方法
B系统日志采集方法
C网络爬虫采集方法
D传感器采集方法
E人工采集的方法
答案:
7下列选项属于数据缺失机制类型的有()
A非随机缺失
B完全随机缺失
C随机缺失
D连续随机缺失
答案:
8数据稽核主要是指对数据质量评估标准的哪些指标进行检查()
A及时性
B一致性
C完整性
D准确性
答案:
填空题
1关系型数据库就是指采用了 结构来组织数据的数据库,它以行和列的形式来存储数据。
答案:
2影响数据质量的因素主要包括 、 、 和管理因素。
答案:
3数据管理它的意义就在于,从大量原始的数据中 、 出对人们有价值的信息,然后再利用这些信息作为行动和 的依据。
答案:
4对于缺失值我们有三种处理方法: 、 和 。
答案:
5数据治理的目标是提高 ,保证 ,实现数据资源在各组织机构部门的共享,从企业数据中获取最优的价值。
答案:
6数据治理(data governance)是指将数据视为企业资产,对数据进行 、 和 ,并对组织内的人员、流程、技术和策略进行编排,是对数据的全生命周期管理。
答案: