数据分析与挖掘考试题(数据分析与数据挖掘考试试题)数据分析师考试有哪些理论考试+实操考试。理论考试内容包括数据分析基本原理、概念及简单计算,题型分为填空、判断、单选题、多选题,此考试为上机考试。实操考试为实际案例分析,一共三科。 Level Ⅰ:业务数据分析师。专指政府、金融、电信、零售等行业前端业务人员;从事市场、管理、财务、供应、咨询等职位业务人员;非统计、计算机专业背景零基础入行和转行就业人员。 Level Ⅱ:建模分析师。两年以上数据分析岗位工作经验,或通过 Level Ⅰ认证半年以上。专指政府、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与数据挖掘的人员。 Level Ⅱ:大数据分析师。两年以上数据分析岗位工作经验,或通过LevelⅠ认证半年以上。专指政府、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与云端大数据的人员。《投资数据分析实务》、《市场调研与预测》是项目数据分析专业考生必修必考教材。 《经济学原理》、《统计学原理》、《财务管理》是本课程的先修课程。考试内容涉及项目前期市场研究、项目相关数据采集、数据处理、数据预测、投资数据编制与估算、现金流量估算、投资数据分析、资本限量决策、不确定性分析、公司价值评估等。 数据分析常见面试题有哪些?1、如何理解过拟合? 过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。 欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。 2、为什么说朴素贝叶斯是“朴素”的? 朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。 3、SVM 最重要的思想是什么? SVM 计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。 4、K-Means 和 KNN 算法的区别是什么? 首先,这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法,KNN 是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要我们给出训练数据的分类标识。最后,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。 求数据挖掘考试题1. 什么是关联分析 关联分析是数据挖掘领域常用的一类算法,主要用于发现隐藏在大型数据集中有意义的联系。 举一个大家最耳熟能详的例子,就是尿布和啤酒,表示成关联规则的形式就是{尿壶} —— {啤酒}。这就是使用关联分析方法所得到的结果,而关联分析所得到的结果,我们可以用关联规则 或者 频繁项集的形式表示。 在进行关联分析时,我们常常会遇到这样两个问题: A. 从大型数据集中发现模式一般来说需要在计算上付出巨大的代价,甚至往往是impossble的,我们往往采用置信度和支持度的剪枝来解决这个问题。 B. 所发现的某些模式可能是虚假的,这个我们需要采用一些关联规则的评估来解决这个问题。 2. 基本概念 A. 项集:在关联分析中,包含0个或者多个的项的集合称为 项集。 如果一个项集包含k个项,那么就称为k-项集。比如{牛奶,咖啡}则称为2项集。 B. 支持度: 支持度用来确定给定数据集的频繁程度,即给定数据集在所有的数据集中出现的频率,例如s(X - Y) = P(X,Y) / N C. 置信度: 置信度则是用来确定Y在包含X的事务中出现的频繁程度,即 c(X - Y) = P(X,Y) / P(X) 3. 关联分析算法的基本原理 支持度和置信度的意义在于,支持度是一个重要的度量,如果支持度很低,代表这个规则其实只是偶然出现,基本没有意义。因此,支持度通常用来删除那些无意义的规则。而置信度则是通过规则进行推理具有可靠性。用c(X-Y)来说,只有置信度越高,Y出现在包含X的事务中的概率才越大,否则这个规则也没有意义。 通常我们在做关联规则发现的时候都会设定支持度和置信度阈值 minsup 和minconf , 而关联规则发现则是发现那些支持度大于等于minsup 并且置信度大于 minconf的所有规则。所以,提高关联分析算法效率最简单的办法则是提高支持度和置信度的阈值。 所以,通过上面的概念,我们可以很自然地想到,关联分析的基本算法: A. 找到满足最小支持度阈值的所有项集,我们称之为频繁项集。(例如频繁二项集,频繁三项集) B. 从频繁项集中找到满足最小置信度的所有规则。 4. 关联分析算法的评估 A. 兴趣度的客观度量 首先,我们来考虑一下支持度-置信度框架的局限性。 首先是支持度,举例来说,在图书市场中,文学类书籍的数量远大于物理类书籍,那么物理类书籍的规则支持度就会很低,这样就导致很多物理类书籍的关联规则都被过滤掉了。 接下来是置信度,举例来说,我们对1000人做度量,发现有200人喜欢喝茶,其中有150人喜欢喝咖啡,50人不喜欢,那么我们通过置信度计算发现c(喝茶 - 喝咖啡)这个的置信度非常高,我们于是可以推算出喜欢喝茶的人都喜欢喝咖啡。但是其实我们看接下来的调查,另外不喜欢喝茶的800人中,有650人喜欢喝咖啡。 综上所述,我们可以发现,其实喝茶和喝咖啡其实是两个独立事件。所以我们可以概括一下,置信度的缺点,就是置信度度量忽略了规则后件中项集的支持度。 (A) 为了解决这个问题,我们引入一个度量,称为提升度(lift),来计算置信度和规则后件项集支持度的比率: lift(A-B) = c(A-B) / s(B) 那么对于二元项集来说,我们可以做这样一个变换: lift(X-Y) = c(X-Y) / s(Y) = ( p(X,Y) / p(X) ) / p(Y) = p(X,Y) / p(X)p(Y) 那么这里,我们则可以把lift(X-Y)称为兴趣因子,表示为I(A,B) 通过概率学知识我们可以知道,如果X事件和Y事件相互独立(或者我们称之为满足事件独立性假设),那么p(X,Y) = p(X) * p(Y),那么我们则可以这样来表示兴趣因子的度量: 当I(A,B) = 1时,我们称A和B是相互独立的,当I(A,B) 1时,我们称A和B是负相关的,否则我们称A和B是正相关的。 但是从这个简陋的计算模型,我们就可以很轻易地感觉出单纯用兴趣因子来做关联度度量的不靠谱。例子特别容易找了。 (B) 对应兴趣因子,还有另外一种相关分析,IS度量等各种兴趣度客观度量方式。 |