这里分为业务能力和工具能力
业务能力:讲故事、举例子
就是讲故事,准备两分钟左右就可以。
讲故事可以根据以下的脉络:
定义你要解决的问题
解释数据清洗、探索和准备的步骤
你用了什么技巧或者算法
你最终做出了什么成果,带来了什么金钱上的影响或者可以量化的影响
讲一个你做过的analytics project
一个你需要付出职责之外的努力去完成一个任务的故事。
一个你手上有很多事情要干,需要排好优先次序的故事。
一个当你尝试去做一件事却失败了的例子。
一个具体的例子——你用很好的判断和推理去解决一个问题。
一个你怎么在压力很大或在很极端的条件下工作的故事。
一个最好的和/或最差的团队经历。
一个例子——你面对的一个困难的形势,以及你怎么处理这种情况的。
你曾经有和同事或者老板意见不一致吗?你是如何处理这种情况的?
一个在你以前实习或者工作中可以展现你愿意努力做事情的例子。
big picture people和细节控,你认为你是哪一种?给我一个例子去解释。
给我一个你解决一个需要分析复杂问题的例子。
给我一个例子——你如何解决一个含糊不清的分析相关的问题。
业务能力:Excel、Basic and Intermediate Statistics、Python and R、SQL、Modelling...
Excel技能没有最好,只有更好!
VLOOKUP最后一个默认的参数是什么?(是否可模糊查找。false则不可模糊查找,TRUE 则进行模糊查找,默认是模糊查找)
VLOOKUP主要的缺点是什么?(向右匹配;查询为当目标列含有查询列中不存在的内容时,返回值为“#N/A”)
VLOOKUP会区分大小写吗?(不会)
两个在Excel调取唯一值的方法。(高级筛选法、数据透视法。详见百度经验)
如何在一栏里寻找重复出现的值?(“条件格式”>“突出显示单元格规则”>“重复值”,详见百度经验
如何插入下拉菜单?(数据验证。详见百度经验)
如何根据一些条件进行加和?
如何在Excel里创建交叉列表?(数据透视表。详见百度经验)
什么是Excel Array Formula?(数组公式)
如何从一个人的姓名里提取他的名?(LEFT函数,详见百度经验)
Basic and Intermediate Statistics
统计学。建议大家记一些简单的例子,用浅显易懂的方式介绍给周围人听。
什么是p-value?(P值,小概率事件)
Confidence interval是如何创建的,以及你是如何解释他们的?
在什么数据类型中,平均数、中位数或常数更加适合?(浮点数)
聚类和分层抽样的区别是什么?(聚类取样是将总体按照某种标准划分为若干个子群体,每个字群体作为一个取样单位,用随机的方法抽取子群体,将抽中的子群体中的所有单位合起来作为总体的样本。分层取样是按照总体的某种特征,将总体分成几个不同的部分,然后在每一层或子总体中进行简单的随机取样。)
我们什么时候应该用T-test,而不用Z-test?
R-square和Adjusted R-square的区别是什么?
什么是同方差性?(经典线性回归的重要假定之一,指总体回归函数中的随机误差项(干扰项)在解释变量条件下具有不变的方差。)
什么是逻辑回归?你能说出一个你最近用逻辑回归的例子吗?(“logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。)
什么是随机森林?(随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。)
如何进行t-test?(建立假设>确定检验水准α>检验统计量>p值分析)
你如何理解正态分布的?(随机,比如人口、成绩)
什么是插值和外推?
什么是K-means?你如何选择K的?
A/B Testing的目的是什么?(确定差异,显著性对比,分析效果)
统计学里是如何比较不同组别的平均数的?(见简书)
请用用浅显易懂的方式解释特征值和特征向量。(百度知道)
SQL
How to write conditional statements (IF ELSE) in SQL?
SQL常见的数据类型有什么?
如何在SQL里取子集,或者筛选数据?
Where和Having语句的区别是什么?
如何区分full join和cross join?
如何区分Union和Union All?
如何创建一个空白的表格?
一般会写个query,问你在SQL里跑这个query得到的结果是什么?
假设你有一个表格叫做TEMP,你需要重新编码Y栏的值——交换Y栏的第二个值和第三个值。如何在SQL实现?
如何在SQL里找出第二大的值?
如何在SQL里找出在一个组别里第二大的值?
可能会写一个query,让你判断对不对,如果不对,找出其中的错误。
Modeling
监督学习和无监督学习的区别是什么?
如何处理异常值?
你如何评定一个好的逻辑回归模型?
在一个分析项目里,有什么比较典型的步骤?
你如何处理缺失值的?
贝叶斯推理和最大似然估计的区别是什么?
什么是机器学习?
犯很多第一型错误和犯很多第二型错误两个之间,你选择哪一个?