该图像代表了数据科学生命周期的五个阶段:采集(数据采集,数据输入,信号接收,数据提取);维护(数据仓库,数据清理,数据分段,数据处理,数据体系结构);处理(数据挖掘,聚类/分类,数据建模,数据汇总);分析(探索性/确认性,预测性分析,回归,文本挖掘,定性分析);沟通(数据报告,数据可视化,商业智能,决策)。
从数据科学的生命周期中我们可以看出:对于数据科学的发展,并不是一个线性的过程,而是一个循环周期性的发展。
那么数据科学家是做什么的呢?
数据科学家需要具有好奇心和以结果为导向,并具有特殊的行业特定知识和沟通技巧,使他们能够向非技术同行解释具有高度技术型的成果。他们在统计和线性代数以及编程知识方面具有很强的定量背景,重点是数据仓库,挖掘和建模以建立和分析算法。此外,他们还需要熟悉并且利用关键的技术工具和技能:Python,Apache Hadoop, MapReduce, Apache Spark, NoSQL databases, Cloud computing, D3, Apache Pig, Tableau, iPython notebooks和GitHub。
数据科学职业前景与薪资机会
数据科学专业人士因其高超的技术技能而获得奖励,这是在大多数行业的大小公司中具有竞争力的薪水和巨大的工作机会。在Glassdoor上有4,500多个未平仓职位,具有适当经验和知识的数据科学专业人员将有机会在世界上一些最具前瞻性的公司中脱颖而出。
以下职位的平均基本工资:
数据分析师:65,470美元
数据科学家:120,931美元
高级数据科学家:141,257美元
数据工程师:137,776美元
获得数据科学领域的专门技能可以进一步区分数据科学家。例如,机器学习专家利用高级编程技能来创建算法,该算法不断收集数据并自动调整其功能以提高效率。