大數據 發(fā)表時間:2018/5/15 12:33:08??作者:sxds??
大數據 發(fā)表時間:2018/5/15 12:33:08??作者:sxds??
伴隨傳感器采集的數據越來越多,IoT領域越來越多的參數被納入考慮的范疇,數據之間的關聯(lián)關系持續(xù)增強,而這些新型關聯(lián)關系,將會激發(fā)全新的模型和視野。
數據分析是一種探索活動,陳廣乾通過多年的教訓和經驗總結,形成了一套工業(yè)大數據在企業(yè)落地的邏輯與方法。
他在海爾時就主導大數據相關項目,并且知道不是所有的數據都是大數據。社會數據早就有,質量數據也早就有,關鍵是這堆數據里,能否通過分析深度數據,形成新的數據模型,來實現新的價值組合?利用這些綜合的算法分析,找出什么樣企業(yè)、什么樣的數據,適合什么樣的模型,是他做工業(yè)大數據分析的一個基本方法論。
他首先解決的是工業(yè)數據難于理解的問題。工業(yè)對象的系統(tǒng)性明顯,復雜程度高,對數據分析的質量要求高。而深入理解各個工業(yè),則要花費太長時間。
他在和清華、北大等大數據領域的博士溝通時了解到,雖然博士們對數據算法有很深的研究,但是卻找不到數據后面的業(yè)務含義,原因是他們欠缺業(yè)務模型訓練。而業(yè)務模型訓練是非常重要的,它是具體行業(yè)問題的“解鈴人”。
接著,將業(yè)務模型建立起來以后再做算法,算法形成后,回過頭來檢測與實際業(yè)務需求的差別。實施的過程本就是不斷調整的過程,不斷訓練模型,一直到這個模型能解決業(yè)務問題,能產生實際效果,形成一個閉環(huán)的循環(huán)。
以陳廣乾帶領團隊完成的工程機械大數據項目為例,根據下面他們繪制的工程機械經銷商業(yè)務全景圖,利用工業(yè)大數據分析,他們完成了代表性企業(yè)的運營優(yōu)化任務,最終的項目績效相當亮眼:
項目成功預測工程機械老客戶6億元的潛在金額流失,其中重度流失2.8億元,中度流失2.3億元,潛度流失0.9億元。
項目成功挖掘工程機械新客戶8.2億元銷售機會,其中大型機2.2億元,中型機3.5億元,小型機2.5億元。
基于銷售網格,項目全面支持1,000名現有員工實現20億元的債權逾期管控。
所以這是基于前端的用戶標簽如:相似性、消費行為的聚類性、分群性來做算法,這是基于算法模型。
專供工業(yè)大數據的時序數據庫
在工業(yè)大數據存儲領域,除了傳統(tǒng)的關系型數據庫和分布式數據庫以外,還有一種類型的數據庫是非常必要和實用,就是時序數據庫,工控領域也稱其為實時數據庫。
由于IoT領域幾乎全部傳感數據和控制數據都是時序數據,陶建輝總結了工業(yè)大數據的時序空間特性。
時序數據庫并不單單只是一個數據庫,而是一個系統(tǒng),包括對各類工業(yè)接口的數據采集、壓縮、存儲、檢索、實時計算,基于監(jiān)測數據的反饋及控制功能等。
時序數據庫的出現,主要是為了解決關系型數據庫不太擅長的領域,包括:
1、海量數據的實時讀寫操作:工業(yè)監(jiān)控數據要求采集速度和響應速度均是毫秒級的,一個大型企業(yè)幾萬甚至幾十萬監(jiān)測點都是常有的事情,這么大容量的高頻數據,如果用關系數據庫進行存儲,很難進行每秒幾十萬次的數據的讀寫操作。
2、大容量數據的存儲:由于數據采集是海量的監(jiān)控數據,如果用傳統(tǒng)數據庫存儲,將會占用大量空間。如用關系數據庫保存10,000個監(jiān)測點,每個監(jiān)測點每秒鐘采集一次雙精度數的數據,需要5-6TB空間,如果考慮其它因素再建立索引,則需15-20TB空間。時序數據庫采用專門的壓縮算法,存儲量能夠縮小到1/40,因此只需500GB的空間就能有效存儲。
3、集成了工業(yè)接口的數據采集:工業(yè)通訊、傳輸的協(xié)議種類繁多,時序數據庫一般都集成了大量的工業(yè)協(xié)議接口,可以對各種類型的工業(yè)協(xié)議進行解析和傳輸。
具備流式計算能力的工業(yè)大數據平臺在2017年前后漸熱,出現了大量的開源和商業(yè)產品。
陶建輝抓住上述開源大數據平臺在物聯(lián)網大數據處理上性能價格比低下的問題,開發(fā)了專業(yè)高效的時序數據引擎TDengine,大幅降低應用開發(fā)難度和成本,縮短應用推向市場的時間。
TDengine正在高鐵項目上進行測試,替代原有的MySQL,大幅提升了數據分析的時效性。
工控領域市場份額最大的實時數據庫是美國OSIsoft公司的PI System,因其在物聯(lián)網領域的前瞻布局,2017年獲得了軟銀的投資。在2018年5月初,OSIsoft公司一年一度的用戶大會中,PI System不僅進行了全新升級,提供機器學習能力,同時支持邊緣和云端運算,還正在嘗試與區(qū)塊鏈的結合應用。
工業(yè)大數據之工控大數據
我認為工控大數據是工業(yè)大數據中非常特殊的一類,因此單獨進行闡述。
制造業(yè)領域的生產相關數據,我們姑且把它稱為工控大數據,雖然它并不符合通常意義上大數據的標準,但仍舊可以借鑒互聯(lián)網大數據的技術,創(chuàng)造嶄新價值。
來自GE統(tǒng)計,現在工業(yè)企業(yè)內部由機器產生的數據量是非常龐大的,以TB來計。由于前期很多技術原因,以及對數據采集不夠重視,我們并沒有充分利用這些數據,利用率不到2%。如何提升工控大數據的利用率,關系到智能化水平,這是工業(yè)企業(yè)面臨的最大挑戰(zhàn)和難題之一。
如果給出詳細定義,工控大數據是指在工業(yè)領域的工廠內部,通過傳感器等物聯(lián)網技術進行數據采集、傳輸得來的數據,由于數據量巨大,傳統(tǒng)的信息技術已無法對相應的數據進行處理、分析、展示,而在傳統(tǒng)工業(yè)信息化技術的基礎上借鑒了互聯(lián)網大數據的技術,提出的新型的基于數據驅動的工業(yè)信息化技術及其應用。
工控大數據尤其注重數據質量,怎樣才能把工控大數據的質量控制好?郭朝暉的經驗告訴我們,如果一項數據不與業(yè)務結合,數據出多少問題都沒人知道。所以工控大數據,必須首先讓這些數據“有用”。數據有用了,數據質量才會持續(xù)改進,數據質量高了,才有被利用的基礎,推動智能化才劃算。
上一篇:短視頻變現渠道和盈利模式
下一篇:物聯(lián)網時代的營銷場景