隨著計(jì)算機(jī)存儲(chǔ)技術(shù)的發(fā)展,各行各業(yè)(包括金融證券保險(xiǎn)、游戲、咨詢、醫(yī)療、能源、通信、零售、體育等)都可以從其大數(shù)據(jù)的采集、傳輸、存儲(chǔ)、分析等各個(gè)環(huán)節(jié)產(chǎn)生巨大的經(jīng)濟(jì)價(jià)值,如此巨大的數(shù)據(jù)需要專業(yè)的人士去發(fā)現(xiàn)以及挖掘出有用的信息,給企業(yè)各個(gè)層面提供技術(shù)支持和決策引導(dǎo),數(shù)據(jù)分析師應(yīng)運(yùn)而生。目前市場(chǎng)上合格的
大數(shù)據(jù)分析人才稀缺,所以
大數(shù)據(jù)分析師的薪資非常高,進(jìn)入行業(yè)越早的
大數(shù)據(jù)分析師,隨著實(shí)踐經(jīng)驗(yàn)的增加,身價(jià)越來(lái)越高。
職業(yè)發(fā)展與薪資
數(shù)據(jù)分析師的發(fā)展方向概括下來(lái)有兩個(gè):一個(gè)方向是業(yè)務(wù)分析師(偏業(yè)務(wù)分析),另一個(gè)方向則是數(shù)據(jù)挖掘工程師(偏數(shù)據(jù)挖掘建模)。
業(yè)務(wù)分析師
業(yè)務(wù)分析師一般從業(yè)務(wù)的角度出發(fā),為公司的其他部門(比如:運(yùn)營(yíng)、產(chǎn)品等)提供業(yè)務(wù)方面的數(shù)據(jù)服務(wù),具體內(nèi)容如下:
報(bào)表開發(fā):其他業(yè)務(wù)部門(如運(yùn)營(yíng)部、產(chǎn)品部等)會(huì)提一些需求過(guò)來(lái),需要數(shù)據(jù)分析師幫他們做一下常規(guī)的日?qǐng)?bào)、周報(bào)、月報(bào)等;
數(shù)據(jù)監(jiān)控:數(shù)據(jù)部門經(jīng)常會(huì)根據(jù)業(yè)務(wù)需求,對(duì)關(guān)鍵性的指標(biāo)進(jìn)行監(jiān)控(如活躍度指標(biāo)、轉(zhuǎn)化率指標(biāo)、留存率等指標(biāo)),監(jiān)控不是問(wèn)題,問(wèn)題是數(shù)據(jù)出現(xiàn)波動(dòng)后的查因及解決方案;
數(shù)據(jù)化運(yùn)營(yíng):說(shuō)白了就是讓數(shù)據(jù)指導(dǎo)運(yùn)營(yíng)決策、驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)。需要將數(shù)據(jù)分析師與一線運(yùn)營(yíng)者的各自優(yōu)勢(shì)進(jìn)行搭配,實(shí)現(xiàn)數(shù)據(jù)功效的最大化;
輸出分析報(bào)告:需要數(shù)據(jù)分析師根據(jù)目標(biāo)項(xiàng)目,整理出一系列相關(guān)的分析報(bào)告,包括可視化的數(shù)據(jù)展現(xiàn)、問(wèn)題的原因、可執(zhí)行的行動(dòng)方案、預(yù)期的效果等等。
對(duì)于數(shù)據(jù)分析師而言,以上的工作絕大多數(shù)通過(guò)Excel和SQL查詢語(yǔ)句就能搞定了。最關(guān)鍵的是數(shù)據(jù)分析思維和業(yè)務(wù)的理解,每個(gè)人所展現(xiàn)出來(lái)的能力都會(huì)有所區(qū)別和高低,關(guān)于這方面的培養(yǎng)可以多跟公司的運(yùn)營(yíng)部門同事交流、查看運(yùn)營(yíng)相關(guān)的書籍或者與有經(jīng)驗(yàn)的數(shù)據(jù)分析師進(jìn)行探討等。
數(shù)據(jù)挖掘工程師
對(duì)于數(shù)據(jù)挖掘工程師而言,更多的則是根據(jù)不同的技術(shù)性項(xiàng)目(如何實(shí)現(xiàn)動(dòng)態(tài)定價(jià)、如何預(yù)判某個(gè)事件的好壞、如何識(shí)別出不同價(jià)值的客戶等)來(lái)完成挖掘相關(guān)工作,甚至有時(shí)并不需要對(duì)數(shù)據(jù)業(yè)務(wù)非常的熟悉。對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō),具體有以下這些流程步驟:
明確問(wèn)題:在進(jìn)行一項(xiàng)數(shù)據(jù)挖掘項(xiàng)目之前,首先需要明確待解決的問(wèn)題是什么?這個(gè)問(wèn)題是否可以通過(guò)挖掘技術(shù)(預(yù)測(cè)、分類、聚類、關(guān)聯(lián)、推薦等)解決;
數(shù)據(jù)抽取:一旦明確了問(wèn)題需求,就需要查找跟問(wèn)題相關(guān)的數(shù)據(jù),即從數(shù)據(jù)庫(kù)中抽取出解決問(wèn)題的支撐數(shù)據(jù)、甚至是結(jié)合第三方數(shù)據(jù)(數(shù)據(jù)共享、爬蟲、合作等);
數(shù)據(jù)清洗:由于現(xiàn)實(shí)中的數(shù)據(jù)存在異常、缺失、量綱不一致、口徑不一致等問(wèn)題,需要提高數(shù)據(jù)質(zhì)量,否則算法再優(yōu)秀,結(jié)果也是有問(wèn)題的;
特征工程:在干凈的數(shù)據(jù)基礎(chǔ)上還需進(jìn)一步完成特征的提取,目的是降低模型復(fù)雜度的同時(shí)下找到影響問(wèn)題的核心變量(因素);
建模:根據(jù)問(wèn)題類型(預(yù)測(cè)型、分類型等)選擇合適的模型(同類問(wèn)題不同模型的試算對(duì)比)進(jìn)行擬合;
模型驗(yàn)證:模型建好后,接下來(lái)就是要驗(yàn)證模型在樣本外的表現(xiàn)如何了,一定要避免模型出現(xiàn)過(guò)擬合或欠擬合的狀態(tài);
迭代及部署:整個(gè)步驟都是一個(gè)迭代的過(guò)程,因?yàn)閿?shù)據(jù)在變動(dòng),模型也會(huì)跟著變動(dòng),通過(guò)不斷迭代找到最理想的模型然后實(shí)現(xiàn)線上的部署工作;
在這些過(guò)程當(dāng)中,絕大多數(shù)時(shí)間都會(huì)花費(fèi)在數(shù)據(jù)抽取、清洗和特征提取上,而后面的建模、驗(yàn)證和部署則是水到渠成的事了。再一次強(qiáng)調(diào),如果選擇數(shù)據(jù)挖掘這個(gè)方向的話,必須具備強(qiáng)悍的數(shù)學(xué)功底和編程技術(shù)。
技能要求
入行數(shù)據(jù)分析師還是需要一些基本技能的,例如Excel技能、數(shù)據(jù)庫(kù)操作(MySQL/SQL Server/Oracle/Hive等)、Tableau可視化、R或Python的編程能力等。下圖是一家互聯(lián)網(wǎng)企業(yè)發(fā)布的數(shù)據(jù)分析師的任職要求,可以看得出數(shù)據(jù)分析師崗位對(duì)于分析軟件有著有多樣性要求,單純熟練某一種軟件在工作選擇時(shí)可能會(huì)受到限制。
這些都是企業(yè)在招聘數(shù)據(jù)分析師時(shí)提到最多的“任職資格”,其實(shí)這也都是技能門檻。如果這些你還沒(méi)有接觸過(guò),可以在準(zhǔn)備入行前花1~6個(gè)月去充充電,可以選擇閉關(guān)修煉、或觀看學(xué)習(xí)視頻、或挑選口碑比較好的全日制班、周末培訓(xùn)班。