3. 数据清理 Data Cleanup
数据的清理工作非常重要,我们需要提取出有用的数据,为下一步的分析做更充分的准备。
要求的能力:
掌握SQL,Python,R,Mathlab等
熟练运用Numpy / Pandas 等数据包
常见职位:
Data Analyst (DA) 数据分析师
Data Engineer (DE)数据工程师
4. 建模分析 Modeling&Analysis
这一步是数据分析的核心,数据分析师 Data Analyst (DA) 一般会对历史的数据进行分析和描述,而数据科学家 Data Scientist (DS)通常是通过建模去预测未来。
要求的能力:
需要掌握Machine Learning中的监督和非监督学习、NLP、深度学习等各种模型。
也需要拥有不错的数理基础,熟练掌握建模、统计、时间序列等知识点。
常见职位:
Data Analyst (DA) 数据分析师
Data Engineer (DE)数据工程师
Data Scientist (DS)数据科学家
5. 执行 Deployment
我们一般会对数据进行可视化的分析,更清晰的提取出数据中表达的各种商业insights。
要求的能力:
比如Tableau,Excel,Power BI等。
对Tech背景要求相对偏低。
常见职位:
Business Analyst (BA) 商业分析师
Data Analyst (DA) 数据分析师
DA/DE/DS的具体介绍
数据科学专业主要有三类职业方向:
DA --Data Analyst 数据分析师
DE --- Data Engineer 数据工程师
DS -- Data Scientist 数据科学家
DA 是entry level的职位,入门比较简单,适合刚接触数据科学的同学,需要掌握Data handling,Data modelling 和 Data reporting的知识。
DA需要知道如何利用numeric data帮助公司做决策,告诉这个公司在下一个阶段如何投资,在哪个地方如何改进,将分析的结果转化为合适的商业方案。
DA的核心是「找寻和解决问题」,所以需要熟练掌握Python和R,A/B Test、Model、SQL,Tableau等。
DE 就像是软件工程师,不过是围绕着大数据领域的工程问题,需要你对computer science和programming的知识有深入的了解。
DE需要去处理raw data,开发大数据的 ETL (提取, 转换, 存储) Pipeline来处理数据,设计Data structure去match data model,进行Data clean。