数分笔试题-牛客

小红书2020校招数分笔试题一

1、P(AB)<=(P(A)+P(B))/2 是对的,等号在A与B重合的时候成立

P(AB)=P(A)*P(B|A)=P(B)*P(A|B)
2P(AB)=P(A)*P(B|A)+P(B)*P(A|B)
P(AB)=(P(A)*P(B|A)+P(B)*P(A|B))/2
由于:P(B|A)<=1,P(A|B)<=1
所以:P(A)*P(B|A)+P(B)*P(A|B)<=P(A)+P(B)
因此:P(AB)<=(P(A)+P(B))/2

2、回访数据可以用于评估用户黏性

回访数据是指在客户服务或市场调研过程中,记录和收集的关于已经进行过一次交互或交流的客户或受访者的相关信息。它主要用于评估和跟踪客户满意度、市场反馈或调研结果。
通过分析回访数据,可以获取以下关于用户黏性的相关信息:频率和持续时间、反馈和问题解决、交叉使用和推荐、留存率和重新访问率

3、评估模型之后得出模型存在偏差,解决方法

增加模型规模(比如神经元/层的数量、、减少或去除正则化(L2正则化,L1正则化,dropout)
加入更多训练数据通常可以解决方差问题,但对偏差问题帮助不大

4、0到1000当中有多少个数字带有1

除了1000,把所有数都看成三位数,个位、十位、百位都可以取0,2,3,4,,,9一共9种情况,所以是9的3次方
不包含1的数字有9的3次方=729个,所以包含1的数字有1001-729=272个

5、在EXCEL输入以零开头的文本型数字时需在输入的数据前面加‘

6、抽样调查遵循的原则是随机原则

7、散点图可以用来刻画两个变量之间是否具有相关关系

8、均值=中位数=众数:正态分布

均值>中位数>众数:负偏态分布(右偏)
均值<中位数<众数:正偏态分布(左偏)

9、模型选择就是选择在未知数据集上预测性能较好的模型,两种常用的模型选择方法:正则化与交叉验证

10、正态分布的偏度为0,峰度为3

11、sum(a, b) 指的是a+b

sum(a:b) 才是a-b的所有值之和

12、假设一个元组在子查询1中出现m次,在子查询2中出现n次,该元组在“子查询1 Union ALL 子查询2”中出现m + n次。在“子查询1 Union 子查询2”中出现1次。

13、抽样估计的优良标准

抽样估计的优良标准:无偏性、一致性、有效性
影响时间序列的因素有四个:长期趋势、季节变动、循环波动、不规则波动

14、常见的聚类算法

K-means聚类:K均值聚类是一种基于距离的划分聚类方法。它将数据集分成K个簇,每个簇以其簇中心(质心)为代表。在算法的迭代过程中,通过最小化数据点与其所属簇质心的距离来优化聚类效果。
层次聚类(Hierarchical Clustering):层次聚类是一种分层式的聚类方法,根据对象之间的相似性逐步生成聚类层次。它可以通过自底向上(凝聚层次聚类)或自顶向下(分裂层次聚类)的方法构建聚类层次结构。层次聚类的结果可以表示为树状结构(聚类树或树状图)。

15、substring(‘109.120.59.63’,5,3) = 120 截取字符串

16、 SQL 中,函数 “percentile(totalgmv, 0.5)” 表示计算变量 “totalgmv” 的第 50 百分位数。

select month, seller_name, percentile(totalgmv, 0.5)as mid
from c group by month(dt) seller_name

再套一层用where totalgmv > mid,即可以筛选出GMV前50%的数据
percentile()函数