以Facebook为例,可以看到目前数据科学家已经进行了许多细分。Facebook的数据科学家在整个decision making的过程中是使用数据驱动的方法去支持整个Facebook的运营。
在工作内容方面,我们可以看到第一个要求就是Forecasting,forecasting大家都比较熟悉了,为预测的一个功能,相当于作为一个数据科学家对数据进行分析,能够预计对用户习惯,在什么场景下使用什么产品。接下来就是设计和评估实验,比如说我们有一个假设,那么我们会通过一个统计的方法去测试这个假设是否真实存在。
另外,数据科学家需要深度的进入decision making的过程,需要提示整个产品研发的方向,可以捕捉用户变化,用户行为变化以及长期的市场机会。同时建立模型也是必须可少的技能,但是在Facebook的数据科学家的实际工作当中,大部分还是使用统计的方法。
数据科学家需要会的工具有Hadoop,Hive ,MySQL,Oracle,Vertica等。这里还提到了Automating analyses,这个是大量建立数据化的系统,因为数据科学家需要把自己的报告过程作为自动化的方法,这样可以确保在产品开发的过程中公司的其余平行部门比如市场部门,产品部门,开发部门,甚至是公司的战略部门可以理解并看到数据与分析的方法。