隨著計算機存儲技術的發展,各行各業(包括金融證券保險、游戲、咨詢、醫療、能源、通信、零售、體育等)都可以從其大數據的采集、傳輸、存儲、分析等各個環節產生巨大的經濟價值,如此巨大的數據需要專業的人士去發現以及挖掘出有用的信息,給企業各個層面提供技術支持和決策引導,數據分析師應運而生。目前市場上合格的
大數據分析人才稀缺,所以
大數據分析師的薪資非常高,進入行業越早的
大數據分析師,隨著實踐經驗的增加,身價越來越高。
職業發展與薪資
數據分析師的發展方向概括下來有兩個:一個方向是業務分析師(偏業務分析),另一個方向則是數據挖掘工程師(偏數據挖掘建模)。
業務分析師
業務分析師一般從業務的角度出發,為公司的其他部門(比如:運營、產品等)提供業務方面的數據服務,具體內容如下:
報表開發:其他業務部門(如運營部、產品部等)會提一些需求過來,需要數據分析師幫他們做一下常規的日報、周報、月報等;
數據監控:數據部門經常會根據業務需求,對關鍵性的指標進行監控(如活躍度指標、轉化率指標、留存率等指標),監控不是問題,問題是數據出現波動后的查因及解決方案;
數據化運營:說白了就是讓數據指導運營決策、驅動業務增長。需要將數據分析師與一線運營者的各自優勢進行搭配,實現數據功效的最大化;
輸出分析報告:需要數據分析師根據目標項目,整理出一系列相關的分析報告,包括可視化的數據展現、問題的原因、可執行的行動方案、預期的效果等等。
對于數據分析師而言,以上的工作絕大多數通過Excel和SQL查詢語句就能搞定了。最關鍵的是數據分析思維和業務的理解,每個人所展現出來的能力都會有所區別和高低,關于這方面的培養可以多跟公司的運營部門同事交流、查看運營相關的書籍或者與有經驗的數據分析師進行探討等。
數據挖掘工程師
對于數據挖掘工程師而言,更多的則是根據不同的技術性項目(如何實現動態定價、如何預判某個事件的好壞、如何識別出不同價值的客戶等)來完成挖掘相關工作,甚至有時并不需要對數據業務非常的熟悉。對于數據挖掘來說,具體有以下這些流程步驟:
明確問題:在進行一項數據挖掘項目之前,首先需要明確待解決的問題是什么?這個問題是否可以通過挖掘技術(預測、分類、聚類、關聯、推薦等)解決;
數據抽取:一旦明確了問題需求,就需要查找跟問題相關的數據,即從數據庫中抽取出解決問題的支撐數據、甚至是結合第三方數據(數據共享、爬蟲、合作等);
數據清洗:由于現實中的數據存在異常、缺失、量綱不一致、口徑不一致等問題,需要提高數據質量,否則算法再優秀,結果也是有問題的;
特征工程:在干凈的數據基礎上還需進一步完成特征的提取,目的是降低模型復雜度的同時下找到影響問題的核心變量(因素);
建模:根據問題類型(預測型、分類型等)選擇合適的模型(同類問題不同模型的試算對比)進行擬合;
模型驗證:模型建好后,接下來就是要驗證模型在樣本外的表現如何了,一定要避免模型出現過擬合或欠擬合的狀態;
迭代及部署:整個步驟都是一個迭代的過程,因為數據在變動,模型也會跟著變動,通過不斷迭代找到最理想的模型然后實現線上的部署工作;
在這些過程當中,絕大多數時間都會花費在數據抽取、清洗和特征提取上,而后面的建模、驗證和部署則是水到渠成的事了。再一次強調,如果選擇數據挖掘這個方向的話,必須具備強悍的數學功底和編程技術。
技能要求
入行數據分析師還是需要一些基本技能的,例如Excel技能、數據庫操作(MySQL/SQL Server/Oracle/Hive等)、Tableau可視化、R或Python的編程能力等。下圖是一家互聯網企業發布的數據分析師的任職要求,可以看得出數據分析師崗位對于分析軟件有著有多樣性要求,單純熟練某一種軟件在工作選擇時可能會受到限制。
這些都是企業在招聘數據分析師時提到最多的“任職資格”,其實這也都是技能門檻。如果這些你還沒有接觸過,可以在準備入行前花1~6個月去充充電,可以選擇閉關修煉、或觀看學習視頻、或挑選口碑比較好的全日制班、周末培訓班。