数分面试题2-牛客
目录标题
- 1、参数估计和假设检验分别是什么?区别在哪里?
- 3、怎么降低第一类错误,如何同时降低第一类和第二类错误
- 4、SQL、Python、R等分析工具,分别有什么用?
- 5、说一下显著性水平、置信区间、假设检验
- 6、Union和Join的区别
- 7、SQL窗口函数并举例
- 8、SQL里面的like的用法
- 9、SQL语句求单日留存及一个月的每日留存
- 10、sql如何进行优化
- 11、数据分析流程
- 12、游戏内数据分析涉猎的少,如何证明自己有能力胜任?--学习话术
- 13、你认为字节小游戏平台分析需要涉及哪些指标?---看思路
- 14、你对数据分析的认知是什么,那你是如何学习数据分析的
- 15、你觉得数据分析应该具备的能力是什么
- 16、以往经历中,你是怎么做数据分析报表
- 17、对做数据分析做了哪些准备
- 18、SVM
- 19、说一个无监督学习算法,阐述原理,优缺点,实际应用点
1、参数估计和假设检验分别是什么?区别在哪里?
参数估计:通过样本统计量来对总体参数进行估计,包括点估计和区间估计。
假设检验:通过对总体参数提出一个假设,然后利用样本统计量来验证假设是否成立,从而做出拒绝或者接受原假设的决定。### 2、假设检验的显著性水平
AB测试是假设检验的应用。
两者联系:参数估计和假设检验都是样本去估计总体,都是建立在概率基础上的统计,可以相互转换
两者区别是:1,参数估计是用样本统计量估计总体参数的方法;假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立 2,参数估计是以置信区间(大概率)估计总体参数;假设检验是利用小概率事件是否发生来判断假设是否成立
3、怎么降低第一类错误,如何同时降低第一类和第二类错误
当样本容量n固定时,α、β不能同时都小,α变小时β就变大,而β变小时α就变大。
只有当样本容量n增大时,才有可能使两者变小。在实际应用中,一般原则是控制犯第一类错误的概率,即给定α,然后通过增大样本容量n来减小β。
这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验,α就是显著性水平。
统计功效=1-第二类错误,也即当AB两组实际有差异时,能被我们检测出来差异的概率
4、SQL、Python、R等分析工具,分别有什么用?
EXCEL用于小样本量中基本的数据处理操作,
而SQL用于从数据库中取数操作,做一些简单的数据处理工作,通过表连接、嵌套查询等动作完成最终的数据统计工作。
Python和R可以借助多种多样的工具库,可以通过数据建模,可用于有监督或无监督模型的训练,解决分类或预测问题。
5、说一下显著性水平、置信区间、假设检验
显著性水平:其实就是第一类错误也叫弃真错误,也即原假设为真时被拒绝的概率
置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间
假设检验:先对总体要估计的值提出一个假设,然后利用样本信息去检验这个假设是否成立
6、Union和Join的区别
UNION是两张表进行上下拼接,产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集,分为UNION和UNION ALL两种方法;
JOIN 是两张表进行左右连接,条件匹配的记录将合并产生一个记录集,有LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN等多种方法。
7、SQL窗口函数并举例
聚合函数:sum,count,avg,max,min;排序函数:row_number,rank,dense_rank;偏移函数,lead,向后偏移,lag向前偏移,nitile函数,等份分割
8、SQL里面的like的用法
like的作用是模糊查询,
“%”(百分号):代表任意字符序列(包括空字符序列)。
“_”(下划线):代表任意单个字符
可以用在where子句中限定查询结果的条件
9、SQL语句求单日留存及一个月的每日留存
1.统计每个用户首次访问的日期;
2.按用户首次访问的日期分组,统计每个日期的单日留存用户数和30日留存用户数及当前日期的新增用户数;
3.单日留存率=单日留存用户数/当前日期下的新增用户数
10、sql如何进行优化
用groupby代替distinct 去重,
表关联之前先用where过滤,防止数据倾斜
建立合适的索引,
减少不必要的字段查询;
少使用like,减少模糊查询
用临时表with as,
如果是并集,多使用union all,
在Oracle中可以使用decode代替case when
合理利用分区
11、数据分析流程
第一步:与业务方沟通问题,明确分析目标;
第二步:对目标进行拆解,可以采用两步分析法,也可以采用人货场分析法,通过数据定位问题源头; 第三步:与产品、运营和技术沟通,找到问题原因。
1.发现问题,明确问题;2.收集数据;3.数据清洗;4.数据统计、数据分析;5.可视化;6.报告撰写。
12、游戏内数据分析涉猎的少,如何证明自己有能力胜任?–学习话术
虽然我对游戏数据分析的经验较少,但是我认为对于应届生而言,更重要的是学习能力以及对该行业的热情。我的学习能力不错(举例说明,最好结合实习的例子,其次是在学校学习的例子等);并且我非常热爱网络游戏,自身职业规划也和游戏相关,希望能在这个行业里深耕;最后我认为数据分析的方法是相通的,我学习的其他数据分析方法论也可以应用其中。
13、你认为字节小游戏平台分析需要涉及哪些指标?—看思路
从产品自身出发、从用户角度出发、
从游戏自身出发:核心玩法的参与度,游戏留存等; 从游戏玩家出发:ARPU,DAU,留存率; 从游戏性能出发:闪退率,卡顿率等。 最重要的是游戏的渗透率,因为字节游戏主要依靠从字节跳动或今日头条引流用户,如何把内容用户转变为游戏用户,是字节游戏现在最重要的事情
14、你对数据分析的认知是什么,那你是如何学习数据分析的
数据分析是通过数据的角度,发现业务的痛点和痒点,通过分析原因得出解决策略,并推动策略落地,达到提升业务质量的过程。主要通过课外阅读以及实习来学习数据分析,通过把在“人人都是产品经理”网站、公众号文章、知乎文章等学习到的数据分析方法论,通过实习的方法实践出来,也让我对数据分析有了更加清晰的认识。
数据分析目的:数据角度出发,发现业务问题,通过分析提出解决方法,从而提升业务
学习路径:网站、公众号、实践
15、你觉得数据分析应该具备的能力是什么
快速学习能力、数据化思维和较强的业务逻辑化能力、沟通能力
数据分析师需要接触不同的业务,在学习新的业务中,我们需要快速学习能力,来提高我们工作的效率;数据化思维能够帮助数据分析师提高数据敏感度,对异常数据有敏感的识别能力;业务逻辑化能力能够让我们与业务方沟通时更加顺畅,数据分析并非独立完成的,是需要与其他人协同产出的。
数据分析者应具备的能力包括:问题拆解能力、业务理解能力、数据挖掘能力等
16、以往经历中,你是怎么做数据分析报表
在学校的学习中,主要使用Python和Excel产出可视化报表,所以我对这两项工具的使用也非常熟练。在公司的实习中,主要使用Tableau和公司的报表平台,我也能够熟练的使用这两项工具,对于不同的平台也有较快的上手能力。
17、对做数据分析做了哪些准备
业务学习、工具学习、理论学习三个层面
业务学习:在人人都是产品经理、知乎、公众号阅读了大量数据分析的文章,并进行方法论总结。
工具学习:熟练掌握Sql、Python、Excel、Tableau等数据分析工具。
理论学习:对数据分析所用的统计学理论、机器学习理论有较为全面的理解掌握
18、SVM
SVM是在特征空间上找到最佳的分离超平面,使得训练集上的正负样本间隔最大。是用来解决二分类问题的有监督学习算法,在引入核方法后也可以解决非线性问题。
19、说一个无监督学习算法,阐述原理,优缺点,实际应用点
k-means聚类算法。
原理:首先选择k个点作为初始点,随后将每个点指派到最近的质心,形成k个簇并重新计 算每个簇的质心,直到簇不发生变化或达到最大迭代次数。
优缺点:优点是处理大数据时较为高效且伸缩性较好;缺点是需要事先确定k,不适合非凸集合的聚类。 实际应用点:潜在的簇是凸面,且簇之间区别明显,大小相近,适用于大数据。 选取较为简单的即可。