什么是数据科学?
数据科学Data Science是从数据中提取知识的研究,关键是科学。起初叫"datalogy"。最初在1966年由Peter Naur提出,用来代替"计算机科学"。
数据科学集成了多种领域的不同元素,包括信号处理,数学,概率模型技术和理论,机器学习,计算机编程,统计学,数据工程,模式识别和学习,可视化,不确定性建模,数据仓库,以及从数据中析取规律和产品的高性能计算。数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。
数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。不远的将来,数据科学家们需要精通一门、两门甚至多门学科,同时使用数学,统计学和计算机科学的生产要素展开工作。所以数据科学家就如同一个team。
数据科学使用到数学、统计、信息科学和计算机科学等各个学科的技术和理论,特别是以下分支:机器学习、分类、聚类分析、数据挖掘、数据库和可视化。大多数院校的Data Science属于STEM学科。
数据科学主要研究内容有以下三类
Predictive Analytics
分析数据来预测未来可能发生的事情
Descriptive Analytics
分析数据找出过去事件的特征和正在发生事件的趋势
Prescriptive Analytics
分析数据来找出最佳措施、取得最优化的结果
数据科学的就业方向
在领英的就业报告中,数据科学被列为最近三年内最具前景的职业之一。主要的就业方向是在政府数据中心、金融机构、互联网企业等单位从事大数据分析师、大数据应用开发工程师等工作。
1、Data Scientist 数据科学家
以高级建模为主,需要较深的领域知识,也包含算法到产品的转化;
2、Data Engineer 数据(库)工程师
以开发、管理和维护数据库为主,也包括优化数据获取流程,搭建数据库环境等工作;
3、Machine Learning Engineer 机器学习工程师
以开发机器学习系统并解决实际产品问题为主,对编程能力有较高要求;
4、Data Analyst 数据分析师
以数据清理/分析为主,为数据驱动的决策服务。需要掌握金融/运筹/经济/市场等知识;