当前位置: 考试资料网 > 医学 > 执业护士 >

数据分析考试题及答案(数据分析考试题及答案大全)

时间:2023-03-14 13:12来源:考试资源网 考试资料网
数据分析考试题及答案(数据分析考试题及答案大全)

数据分析考试题及答案(数据分析考试题及答案大全)

admin2周前免费1

数据分析师面试题目和答案:动手题

【导读】众所周知,随着社会的发展,数据分析师成为了炙手可热的热门执业,一方面是其高薪待遇另一方面就是其未来广阔的发展前景。一般情况下用人单位会给问答题和动手题来检测应聘者的真实实力,可以说面试笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。为此小编就以此为例和大家说说2020年数据分析面试解答技巧:动手题,希望对大家有所帮助。

动手题

1. 我给你一组数据,如果要你做数据清洗,你会怎么做?

实际上,这一道题中,面试官考核的是基本的数据清洗的准则,数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在 2 个问题:典韦出现了 2

次,张飞的数学成绩缺失。

针对重复行,你需要删掉其中的一行。针对数据缺失,你可以将张飞的数学成绩补足。

2. 豆瓣电影数据集关联规则挖掘

在数据分析领域,有一个很经典的案例,那就是“啤酒 +

尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察,但万变不离其宗。

如果让你用 Apriori 算法,分析电影数据集中的导演和演员信息,从而发现两者之间的频繁项集及关联规则,你会怎么做?

以上就是小编今天给大家整理发送的关于“数据分析师面试题目和答案:动手题”的相关内容,希望对大家有所帮助。想了解更多关于数据分析及人工智能就业岗位分析,关注小编持续更新。

2022年统计师考试真题及答案解析

2022年的统计师考试目前正在进行着考试报名,而接下来即将进入到正式的考试阶段,各位考生们目前的复习进度如何了呢?接下来我将在本文中为大家带来2022年统计师考试真题及答案解析,快来看看吧!欢迎大家阅读本文,关注本站即可获取更多精彩资讯!

   1.统计分析数据的方法可分为()。

A.统计调查和统计实验

B.描述统计和推断统计

C.统计内容和统计手段

D.经济统计和数理统计

【答案】B

【解析】 统计分析数据的方法大体上可分为描述统计和推断统计两大类。描述统计是研究数据搜集、处理和描述的统计学方法。推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。

2.为了解电商直播平台的基本状况与发展趋势,某机构计划开展一次调查,该调查不适合采取的调查方式是()

A.典型调查

B.普查

C.重点调查

D.抽样调查

【答案】B

【解析】 普查是一种全面调查,适用于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料,以摸清重大的国情、国力。虽然普查具有资料包括范围全面、详尽、系统的优点,但因工作量大致使时间周期较长、耗资也较多,一般不宜经常举行。

   在三部门经济中,定量税情形中下,如果边际消大费倾向为0.8,则政府购买、政府转移支付、税收的乘数分别为()。

A.4;5;-5

B.4;-5;5

C.5;4;-4

D.5;-4;4

【答案】C

【解析】 定里税的情形下,税收是常数T。此时,政府购买乘数=1/(1-c)=1/(1-0.8)=5;

政府转移支付乘数=c/(1-c)=1/(1-0.8)=4;

税收乘数=-c/(1-c)=-1/(1-0.8)=-4。

   M1包括()

A.活期存款

B.定期存款

C.证券公司客户保证金

D.储蓄存款

【答案】A

【解析】 M1包含在银行体系外流通的通货(包括纸币和硬币)以及在商业银行的活期存款(支票账户存款),其中,活期存款是指存入银行和其他金融机构的能够随时提取或开出支票用来购买商品和服务的银行存款,因此也被称为支票存款。

   3.某小区居委会为了解住户的垃圾分类实施情况,将全部住户名单按户主姓氏拼音排序,随机抽取一户,再每隔15户抽取一户进行调查,这种抽样方式是()。

A.整群抽样

B.分层抽样

C.配额抽样

D.系统抽样

【答案】D

【解析】 系统抽样也称等距抽样,它是将总体N个单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。本题描述的抽样过程与系统抽样的定义一致。

   4.某班《统计学》考试成绩的平均数是81分,标准差是6分,中位数77分,则考试成绩的分布形状是()

A.对称

B.左偏

C.右偏

D.无法确定

【答案】D

【解析】 平均数、中位数和众数是描述数据水平的三个主要统计量,当三者数值均已知时,可以根据它们的大小关系确定数据分布。本题中未告知数据的众数,无法判断数据波峰的个数与位置,因此无法确定分布性状。

   5.已知A、B两公司职工年收入的平均值分别为9万元和12万元。若两家公司职工年收入的标准差相等,要比较职工收入的差异程度,下列表述正确的是()

A.B公司大于A公司

B.A公司大于B公司

C.无法确定

D.两家公司相等

【答案】B

【解析】 数据差异程度一般采用离散系数进行度量,离散系数越大,数据的差异程度越大,其计算公式为:离散系数=标准差/均值。在两家公司标准差相同的情况下,由于B公司均值大于A公司,所以B公司离散系数小于A公司,即B公司的收入差异程度小于A公司。

   6.对学生考试通过率进行区间估计,已知样本通过率为p,样本容量为n。下列适用正态分布近似估计的情况是()。

A.n=10,p=80%o

B.n=35,p=85%。

C.n=15,p=75%9

D.n=20,P=90%

   【答案】B

【解析】 在大样本条件下,根据中心极限定理,若np≥5,n(1-p)≥5,则二项分布可用正态分布近似。本题有两种解释:

①大样本一般指样本容量n30的样本,本题只有B顺符合。

②页,np=8,n(1-p)=25,不符合;B顺,np=29.75,n(1-p)=5.25,符合;C顺,np=11.25,n(1-p)=3.755,不符合;D项,np=18,n(1-p)=25,不符合。

7.对两个配对总体的均值之差进行假设检验,需要假定()

A.两个总体都服从正态分布

B.两个样本需相互独立

C.两个样本的数据无需——对应

D.两个总体均服从t份布

   【答案】A

【解析】 如果两个样本是非独立的匹配样本,即两个样本中的数据是一一对应的,这时对两个总体的均值的比较,就是对两个样本对应数据之差的检验。如果两个总体都服从正态分布,则可构造t检验统计量。所以选择A顶。

   8.某型号机床生产的零件长度X服从正态分布,X的标准差不超过2mm时即可认为零件质量合格。现随机抽取100个零件,则得长度的均值为500mm,标准差为2.5mm。为判断机床是否正常工作,假设检验的检验统计量为()

A.X=900-10822

B.7=100-1)×23

C.z-y

D.-25*h0

【答案】A

【解析】 本题考查单个总体方差的假设检验,应当使用统计里。首先建立原假设Ho:02=22。

在原假设为真的条件下,对于该双侧检验,其检验统计量=r-]服从自由度为n-1的x分布。代入数据可得统计量为-100-1x2。

   9.r为一元线性回归模型中自变量因变量的相关系数,下列模型错误的是()

A0A.y=0.04+5.12x,r=0.88A

B.y=-0.04+5.12x,r=0.88

C.y=0.04-5.12x,r=-0.88

D.y=-0.04-5.12x,r=0.88

   【答案】D

【解析】 相关系数是用来度量两个定量变量x与y之间的线性相关程度的系数;回归系数用来表示解释变量x海增加一个单位,被解释变量将相应地平均变化多少个单位。从定义来看,两者的正负应当一致,所以D项错误。

   10.在回归方程中,自变量均值为x,给定自变里值X=xo时,因变量均值为E(y0)。现利用回归方程对因变里进行预测,下列表述正确的是()。

A.E(y0)的置信区间与y0的预则区间宽度相同

B.x越接近x时,yo的预测误差越小

C.越接近,E(y0)的预测误差越大

D.E(y0)与的点估计值不同

【答案】B

【解析】 利用估计的回归方程,对于自变量的一个特定值,求出因变量y的一个估计值的区间就是区间估计。区间估计有两种类型:一是置信区间估计,即E(y0);二是预则区间估计。

两者的表达式分别为:

场s(w-2)5+4高一1”2(x-x°6(w-2).1+,-8”立(x-x°

A项,预则区间的计算公式与置信区间相比,根号内多了一个1,因此区间宽度不同。BC两项,由计算公式可以看出,x越接近时,(x-x)2撼小,区间宽度越小,E(yo)和yo的预则误差也就越小,因此顺正确。D项,E(yo)与y的点估计值都是样本均值。

   考试题型:

1、单项选择题

单选题看起来不起眼,但事实上,单选题对考试时间布局有很大的影响。因为在考试的时候,越往后题目肯定是越难,分数一般也是越高的。如果在单选题上花费了太多的时间,那么导致试卷答不完也是常有的事情。所以在做单选的时候,大家要记住这几个要点:认真审题、相信第一感觉、控制时间。

   2、多项选择题

多项选择题全部选对得满分,但如果其中有错误的选项,或者少选了正确的选项,那么这一道题的分数就丢掉了。在回答多项选择题的时候,大家可以采用排除法去首先排除错误选项,再利用比较法对各个选项加以比较分析,在完全不确定的情况下,可使用猜测法,当然猜测也不是盲目猜的,而是根据专业知识、题干内容等去分析。

   3、判断题

判断题和单选题一样,每道题1分,会给出一句话让考生判断正误。判断题的陷阱往往就在细节上,所以做判断题一定要仔细阅读每一句话。

   4、综合应用题

在做综合应用题的时候,如果考试时间允许,大家尽量多阅读两遍题干,并画出题干的关键信息。因为综合应用题的考察点比较多,如果不认真审题,很有可能错误理解题目。

初二数学下册数据的分析测试题含答案

一、选择题

1.为了了解参加某运动会的200名运动员的年龄情况,从中抽查了20名运动员的年龄,就这个问题来说,下面说法正确的是( )

A.200名运动员是总体 B.每个运动员是总体

C.20名运动员是所抽取的一个样本 D.样本容量是20

2.一城市准备选购一千株高度大约为2m的某种风景树来进行街道绿化,有四个苗圃生产基地投标(单株树的价格都一样).采购小组从四个苗圃中都任意抽查了20株树苗的高度,得到的数据如下:

树苗平均高度(单位:m) 标准差

甲苗圃 1.8 0.2

乙苗圃 1.8 0.6

丙苗圃 2.0 0.6

丁苗圃 2.0 0.2

请你帮采购小组出谋划策,应选购( )

A.甲苗圃的树苗 B.乙苗圃的树苗; C.丙苗圃的树苗 D.丁苗圃的树苗

3.将一组数据中的每一个数减去50后,所得新的一组数据的平均数是2,则原来那组数据的平均数是( )

A.50 B.52 C.48 D.2

4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为( )

A.8,9 B.8,8 C.8.5,8 D.8.5,9

5.为鼓励市民珍惜每一滴水,某居委会表扬了100个节约用水模范户,8月份节约用水的情况如下表:

每户节水量(单位:吨) 1 1.2 1.5

节水户数 52 30 18

那么,8月份这100户平均节约用水的吨数为(精确到0.01t) ( )

A.1.5t B.1.20t C.1.05t D.1t

6.已知一组数据-2,-2,3,-2,-x,-1的平均数是-0.5,那么这组数据的众数与中位数分别是( )

A.-2和3 B.-2和0.5 C.-2和-1 D.-2和-1.5

7.方差为2的是( )

A.1,2,3,4,5 B.0,1,2,3,5

C.2,2,2,2,2 D.2,2,2,3,3

8.甲、乙两班举行电脑汉字输入速度比赛,参赛学生每分钟输入汉字的个数经统计计算后结果如下表:

班级 参加人数 中位数 方差 平均数

甲 55 149 191 135

乙 55 151 110 135

某同学根据上表分析得出如下结论:

(1)甲、乙两班学生成绩的平均水平相同;

(2)乙班优秀的人数多于甲班优秀的人数;(每分钟输入汉字≥150个为优秀)

(3)甲班成绩的波动情况比乙班成绩的波动小

上述结论中正确的是( )

A.(1)(2)(3) B.(1)(2) C.(1)(3) D.(2)(3)

9.某校把学生的纸笔测试、实践能力、成长纪录三项成绩分别按50%、20%、30%的比例计入学期总评成绩,90分以上为优秀.甲、乙、丙三人的各项成绩如下表(单位:分),学期总评成绩优秀的是( )

纸笔测试 实践能力 成长记录

甲 90 83 95

乙 98 90 95

丙 80 88 90

A.甲 B.乙丙 C.甲乙 D.甲丙

10.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众数与中位数的数值不等;③这组数据的中位数与平均数的数值相等;④这组数据的平均数与众数的数值相等,其中正确的结论有( )

A.1个 B.2个 C.3个 D.4个

二、填空题

11.(2005,深圳)下图是根据某地近两年6月上旬日平均气温情况绘制的折线统计图,通过观察图形,可以判断这两年6月上旬气温比较稳定的年份是_____年.

12.某日天气预报说今天最高气温为8℃,气温的极差为10℃,则该日最低气温为_________.

13.在演唱比赛中,8位评委给一名歌手的演唱打分如下:9.3,9.5,9.9,9.4,9.3,8.9,9.2,9.6,若去掉一个最高分和一个最低分后的平均分为得分,则这名歌手最后得分约为________.

14.一个样本,各个数据的和为515,如果这个样本的平均数为5,那么这个样本的容量是_________.

15.为了估计湖里有多少鱼,我们从湖里捕上150条鱼作上标记,然后放回湖里去,经过一段时间再捕上300条鱼,其中带标记的鱼有30条,则估计湖里约有鱼_______条.

16.一名学生军训时连续射靶10次,命中的环数分别为4,7,8,6,8,5,9,10,7.则这名学生射击环数的方差是_________.

17.某人开车旅行100km,在前60km内,时速为90km,在后40km内,时速为120km,则此人的平均速度为_________.

18.小明家去年的旅游、教育、饮食支出分别出3600元,1200元,7200元,今年这三项支出依次比去年增长10%,20%,30%,则小时家今年的总支出比去年增长的百分数是_________.

19.将5个整数从大到小排列,中位数是4;如果这个样本中的惟一众数是6,则这5个整数可能的最大的和是_____.

20.某公司欲招聘工人,对候选人进行三项测试:语言、创新、综合知识,并按测试得分1:4:3的比例确定测试总分,已知三项得分分别为88,72,50,则这位候选人的招聘得分为________.

三、解答题(60分)

21.(6分)某校规定学生期末数学总评成绩由三部分构成:卷面成绩、课外论文成绩、平日表现成绩(三部分所占比例如图),若方方的三部分得分依次是92、80、84,则她这学期期末数学总评成绩是多少?

22.(8分)为了了解某小区居民的用水情况,随机抽查了该小区10户家庭的月用水量,结果如下:

月用水量(吨) 10 13 14 17 18

户 数 2 2 3 2 1

(1)计算这10户家庭的平均月用水量;

(2)如果该小区有500户家庭,根据上面的计算结果,估计该小区居民每月共用水多少吨?

23.(8分)下表是某校八年级(1)班20名学生某次数学测验的成绩统计表

成绩(分) 60 70 80 90 100

人数(人) 1 5 x y 2

(1)若这20名学生成绩的平均分数为82分,求x和y的值;

(2)在(1)的`条件下,设这20名学生本次测验成绩的众数为a,中位数为b,求a,b的值.

24.(8分)某乡镇企业生产部有技术工人15人,生产部为了合理制定产品的每月生产定额,统计了15人某月的加工零件个数:

每人加工件数 540 450 300 240 210 120

人 数 1 1 2 6 3 2

(1)写出这15人该月加工零件数的平均数、中位数和众数.

(2)假如生产部负责人把每位工人的月加工零件数定为260(件),你认为这个定额是否合理,为什么?

25.(8分)题中给出的条形图是截止到2002年44位费尔兹奖得主获奖时的年龄统计图.经计算费尔兹奖得主获奖时的平均年龄是35岁.

根据条形图回答问题:

(1)费尔兹奖得主获奖时的年龄超过中位数的有多少人?

(2)费尔兹奖得主获奖时年龄的众数是多少?

(3)费尔兹奖得主获奖时的年龄高于平均年龄的人数占获奖人数的百分比是多少?

26.(10分)某学校对初中毕业班经过初步比较后,决定从九年级(1)、(4)、(8)班这三个班中推荐一个班为市级先进班集体的候选班,现对这三个班进行综合素质考评,下表是它们五项素质考评的得分表:(以分为单位,每项满分为10分)

班 级 行为规范 学习成绩 校运动会 艺术获奖 劳动卫生

九年级(1)班 10 10 6 10 7

九年级(4)班 10 8 8 9 8

九年级(8)班 9 10 9 6 9

(1)请问各班五项考评分的平均数、中位数和众数中哪个统计量不能反映三个班的考评结果的差异?并从中选择一个能反映差异的统计量将他们的得分进行排序.

(2)根据你对表中五个项目的重要程度的认识,设定一个各项考评内容的占分比例(比例的各项须满足:①均为整数;②总和为10;③不全相同),按这个比例对各班的得分重新计算,比较出大小关系,并从中推荐一个得分最高的班作为市级先进班集体的候选班.

27.(12分)在某旅游景区上山的一条小路上,有一些断断续续的台阶,下图是其中的甲、乙两段台阶的示意图.请你用所学过的有关统计的知识(平均数、中位数、方差和极差)回答下列问题:

(1)两段台阶路有哪些相同点和不同点?

(2)哪段台阶路走起来更舒服?为什么?

(3)为方便游客行走,需要重新整修上山的小路.对于这两段台阶路,在台阶数不变的情况下,请你提出合理的整修建议.(图中的数字表示每一级台阶的高度(单位:cm).并且数据15,16,16,14,14,15的方差S甲2= ,数据11,15,18,17,10,19的方差S乙2= ).

答案:

1.D 2.D 3.B 4.B 5.A 6.D 7.A 8.B 9.C 10.A

11.2005 12.-2℃ 13.9.4分 14.103 15.1500 16.3 17.100km/h

18.27.3% 19.21 20.65.75分

21.解: =88.8(分)

22.(1)=14(吨);(2)7000吨.

23.(1)x=5,y=7;(2)a=90,b=80.

24.(1)平均数:260(件) 中位数:240(件) 众数:240(件);

(2)不合理,因为表中数据显示,每月能完成260件的人数一共是4人,还有11人不能达到此定额,尽管260是平均数,但不利于调动多数员工的积极性,因为240既是中位数,又是众数,是大多数人能达到的定额,故定额为240较为合理.

25.解:(1)中位数为35.5岁,年龄超过中位数的有22人.

(2)众数是38岁.

(3)高于平均年龄的人数为22人,22÷44=50%.

26.(1)平均数不能反映三个班的考评结果的差异,用中位数或众数可以反映.

(2)行为规范:学习成绩:校运动会:艺术获奖:劳动卫生=3:3:2:1:1.

1=1.78, 4=1.74, 8=1.8 ∴ 8 1 4,

所以推荐九年级(8)班作为市场先进班集体的候选班级合适.

27.(1)相同点:两段台阶路台阶高度的平均数相同.

不同点:两段台阶路台阶高度的中位数、方差和极差均不相同.

(2)甲段路走起来更舒服一些,因为它的台阶高度的方差小.

(3)每个台阶高度均为15cm(原平均数)使得方差为0.

cda数据分析师考试内容

cda数据分析师考试内容如下:

1.CDA Level Ⅰ:事务数据剖析师

135分钟(15分钟阅览考试指南+120分钟正式答题),客观题(单选+多选),上机答题。

2.CDA Level II:建模剖析师

前105分钟(15分钟阅览考试指南+90分钟正式答题),客观题(单选+多选),上机答题;后120分钟,事例操作,自行携带电脑操作(装置好带有数据挖掘功能的软件如:SQL ,PYTHON,SPSS MODELER,R SAS,WEKA,等,进行事例操作剖析。事例数据将统一供给CSV文件)。

3.CDA Level II:大数据剖析师

前105分钟(15分钟阅览考试指南+90分钟正式答题),上机答题;后120分钟,事例操作,自行携带电脑操作(详细准备工作参见考试纲要中的详细说明)。

4.CDA Level III:数据科学家

第一阶段:165分钟(15分钟阅览考试指南+150分钟正式答题),客观题+主观题,上机答题。第二阶段:1个月内,项目事例,开放自由答题。提交项目结果,30分钟,线上面试答辩。(第一阶段考试经过者,才有资格参与第二阶段面试)。项目事例考试安排经过邮件发送。

关于CDA数据分析师的考试可以到CDA认证机构咨询一下,CDA行业标准由国际范围数据领域的行业专家、学者及知名企业共同制定并每年修订更新,确保了标准的公立性、权威性、前沿性。通过CDA认证考试者可获得CDA中英文认证证书。

数据分析师考试内容有哪些?

考试考察内容:理论考试+实操考试。理论考试内容包括数据分析基本原理、概念及简单计算,题型分为填空、判断、单选题、多选题,此考试为上机考试。实操考试为实际案例分析,一共三科。

Level Ⅰ:业务数据分析师。专指政府、金融、电信、零售等行业前端业务人员;从事市场、管理、财务、供应、咨询等职位业务人员;非统计、计算机专业背景零基础入行和转行就业人员。

Level Ⅱ:建模分析师。两年以上数据分析岗位工作经验,或通过 Level Ⅰ认证半年以上。专指政府、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与数据挖掘的人员。

Level Ⅱ:大数据分析师。两年以上数据分析岗位工作经验,或通过LevelⅠ认证半年以上。专指政府、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与云端大数据的人员。《投资数据分析实务》、《市场调研与预测》是项目数据分析专业考生必修必考教材。 《经济学原理》、《统计学原理》、《财务管理》是本课程的先修课程。考试内容涉及项目前期市场研究、项目相关数据采集、数据处理、数据预测、投资数据编制与估算、现金流量估算、投资数据分析、资本限量决策、不确定性分析、公司价值评估等。

从数据分析师考试之笔试试题看职业要求

从数据分析师考试之笔试试题看职业要求

一、异常值是指什么?请列举1种识别连续型变量异常值的方法?

异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。

未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评:考察的内容是统计学基础功底。

二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类分析计算方法主要有: 层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

其流程如下:

(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;

(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(3)重新计算每个(有变化)聚类的均值(中心对象);

(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。

优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,KN,tN 。

缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。

点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

三、根据要求写出SQL

表A结构如下:

Member_ID (用户的ID,字符型)

Log_time (用户访问页面时间,日期型(只有一天的数据))

URL (访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)

create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ;

点评:SQL语句,简单的数据获取能力,包括表查询、关联、汇总、函数等。

另外,这个答案其实是不对的,实现有很多方法,就不贴出来了,大家自己去发挥吧。

四、销售数据分析

以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,

a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?

b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?

表如下:一组每天某网站的销售数据

a) 从这一周的数据可以看出,周末的销售额明显偏低。这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。

b) 针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

点评:数据解读能力,获取数据是基本功,仅仅有数据获取能力是不够的,其次是对数据的解读能力。

五、用户调研

某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:

a) 试验需要为决策提供什么样的信息?

c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b) 根据三类客户的数量,采用分层比例抽样;

需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;

选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-sample t-test)。

点评:业务理解能力和数据分析思路,这是数据分析的核心竞争力。

综上所述:一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力。


    “数据分析考试题及答案(数据分析考试题及答案大全)”由考试资料网(www.kszl.net)整理!仅供学习参考!具体以权威部门公布的内容为准!

------分隔线----------------------------


------分隔线----------------------------