单选题
1当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?
A关联分析
B聚类
C隐马尔可夫链
D分类
答案:B
2在分析学生成绩与学生学习态度之间的回归关系时,以下描述哪个是正确的()。
A学习成绩是自变量,学习态度是因变量。
B学习成绩和学习态度都是因变量。
C学习成绩和学习态度都是自变量。
D学习成绩是因变量,学习态度是自变量。
答案:D
3下列序列中,哪一个属于时间序列( )。
A 职工按照工资水平排列形成的序列
B按照不同省市地区GDP大小顺序排列形成的序列
C学生按照成绩等级分组形成的序列
D销售额按照时间先后顺序排列形成的序列
答案:D
4简单线性回归模型:Y=a+bX 中,样本的回归系数为:( )。
AX
B a
CY
Db
答案:D
5决策树中不包含一下哪种结点?
A外部结点
B叶结点
C内部结点
D根结点
答案:A
6在回归模型y=a+bx中,如果b>0,则x与y之间的相关关系()。
A1≤r<0
B r=1
Cr>0
D 1≥r>0
答案:
7年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+80x,这意味着年劳动生产率每提高1千元时,工人工资平均()。
A增加80元
B减少80元
C增加90元
D 减少90元
答案:
8以下属于时点数列的是()。
A某厂各年劳动生产率
B某厂各年工业产值
C某地区历年年末生猪存栏头数
D某高校历年招生人数
答案:
9某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
A关联规则发现
B自然语言处理
C分类
D聚类
答案:
10在绝对数时间数列中,若所列总量指标都是反映社会经济现象在一段时间内发展过程总量的,则这种数列称为( )。
A时期数列
B相对数时间数列
C时点数列
D平均数时间数列
答案:
多选题
1拟合直线回归方程是为了( )。
A确定两个变量之间的变动关系
B用自变量推算因变量
C两个变量相互推算
D用因变量推算自变量
答案:
2下列哪些属于时期数列的特点( )。
A可加性
B各指标值通常需要连续统计
C数值大小与间隔时间长短有关
D 数值大小与间隔时间长短无关
答案:
3以下4个式子中,错误的是( )。
Ay=60+2.8x, r=0.68
By=-20-1.8x, r=0.90
Cy=-30+6x, r=0.92
D y=12-5x, r=0.86
答案:
4从根源而言,是影响商务数据质量的四大因素()。
A管理因素
B流程因素
C信息因素
D技术因素
答案:
5数据清洗相关的工具包括()。
A 基于数据分析工具
B业务流程再设计工具
C基于引擎的工具
D数据轮廓分析工具
答案:
6商务数据分析的作用包括()。
A缓冲风险、减少欺诈
B用户反馈分析
C提供相关产品
D积极主动预测需求
答案:
7商务数据分析的基本类型包括()。
A诊断型分析
B指导规范型分析
C描述型分析
D预测型分析
答案:
8商务数据采集资源包括()。
A社交媒体等交互型数据源
B传播类数据源
C政府数据源
D指导规范型分析
答案:
9时间序列分析的意义有( )。
A通过计算各种速度指标,可以反映社会经济现象随着时间推移发展变化的过程和趋势。
B可以根据社会经济现象发展变化的规律,建立数学模型,预测未来。
C通过计算各种水平指标,可以反映社会经济现象在不同时间上的规模和水平。
D通过长期趋势分析、季节变动分析、循环变动分析等,可以了解和分析社会经济现象发展变化的规律性。
答案:
10清洗商务数据包括()。
A去除/修改格式和内容错误的数据以及去除/修改逻辑错误的数据去除。
B不需要的数据和关联性验证,清洗商务数据。
C通过预处理、去除/补全有缺失的数据 。
D 了解商务数据清洗的基本概念、基本原理,以及它与商务数据质量的关系。
答案:
判断题
1长期趋势变动指现象在较长时间内持续发展变化的一种趋向或状态。
A正确
B错误
答案:
2时点数列中各指标值具有可相加性,加总后结果具有实际意义。
A正确
B错误
答案:
3聚类分析的数据对象不考虑已知的类标号。对象根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测数据组织成分层结构,把类似的事件组织在一起。可用于客户细分。
A正确
B错误
答案:
4时间序列由两个基本要素构成,一个是现象所属的时间,另一个是反映客观现象的指标数值。
A正确
B错误
答案:
5在相关分析中,变量x与变量y处于对等的关系;在回归分析中,变量x是自变量,变量y是因变量。
A正确
B错误
答案:
6“某金融机构历年年末贷款余额”属于时期数列。
A正确
B错误
答案:
7数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。
A正确
B错误
答案:
8在回归分析中,自变量是给定的,因变量是随机的。
A正确
B错误
答案:
9可视商务数据清洗是利用可视化及交互技术进行数据检查、纠错和转换,为达到数据分析要求而不断循环迭代的过程。
A正确
B错误
答案:
10分类任务就是通过学习得到一个目标函数,把每个属性集 x 映射到一个预先定义的类标号y。分类的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测目标数据的类的标签,这可用于客户流失分析。
A正确
B错误
答案:
11关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
A正确
B错误
答案:
12可视缺失数据,处理数据缺失的方法有删除数据对象、插值计算缺失值、忽略缺失值、用概率模型估算缺失值等。
A正确
B错误
答案:
13在直线回归分析中,两个变量是对等的,不需要区分因变量和自变量。
A正确
B错误
答案:
14市面上有很多的商务数据清洗工具,免费的数据清洗工具包括:EXCEL、OpenRefine、Trifacta Wrangler和DataKleenr。
A正确
B错误
答案:
15在圆的周长与半径的关系中,其中X是因变量,Y是自变量。
A正确
B错误
答案: