1. 數據可視化簡介
數據可視化,是指用圖形的方式來展現數據,從而更加清晰有效地傳遞信息,主要方法包括圖表類型的選擇和圖表設計的準則。隨著互聯網的廣泛應用,我們的工作和生活等各個方面,每時每刻都在產生大量的數據,也就是所謂的「大數據時代」,發展的趨勢是人們越來越喜歡用數據說話。
數據可視化作為一種有效傳遞信息的手段,被越來越廣泛地應用到很多領域。一個比較典型的案例,是淘寶雙十一的數據可視化,在一塊大屏幕上實時動態展示交易數據,使用的數據可視化工具是阿里云出品的 DataV,體現了阿里巴巴用數據驅動運營的一種探索。
如果想要讓數據發揮更大的價值,那么合理地運用數據可視化的方法和工具就顯得特別重要。
2. 數據可視化的圖表選擇
根據數據分析的實際情況,需要有針對性地選擇合適的數據可視化方法。但是可視化的圖表花樣繁多,我們應該如何選擇并設計你的圖表呢?
本文將把它拆分為 8 個部分,逐一進行介紹。
(1) 當你需要對不同的類別進行比較時,有很多種圖形可供選擇,其中條形圖是最常見的,垂直瀑布圖適合用來比較并分析各個組成部分的變化情況,詞云圖適用于大量文本的分析和比較。
(2) 當你想要直觀反映關鍵業績指標隨時間的變化情況時,用柱形圖或曲線圖是比較好的選擇。建議不要用面積圖,因為可視化的目標應該不僅僅只是為了視覺上的好看,準確有效地傳遞信息更加重要。
(3) 當你需要展示二八定律時,用柏拉圖(Pareto)能方便地找出主要因素。建議不要用餅圖,原因和上面的第 2 條一樣。
(4) 當你希望展示數據之間的聯系或關系時,漏斗圖和散點圖是比較好的選擇。對于氣泡圖,我個人覺得可以適當地加以運用,因為她能綜合反應出 3 個重要的指標,在一些數據分析場景中,氣泡圖能有效地傳遞出重要的信息。例如:Hans Rosling 曾經利用動態氣泡圖,展現了全球人口、收入、健康的動態變化,在網站 http://www.gapminder.org 上也可以找到大量動態氣泡圖的應用。
(5) 當你關注數據的分布狀況時,可以使用直方圖或小提琴圖。剛開始看到小提琴圖,可能會覺得她比較費解,但當你理解她代表的具體含義之后,就會知道她能傳遞很多專業的統計信息,包括數據的密度分布、中位數、四分位數等。
(6) 如果你想增強圖表的表現力,那么可以增加箭頭和標簽等圖表元素。
(7) 當你只需要突出顯示某個單值,可以用放大的粗體文字或圖片。
(8) 在進行數據可視化的過程中,應該時刻關注數據可視化的目標,謹記這些圖表設計提示:
使用2D圖表,不要使用三維立體效果
使用反映真實情況的刻度,避免造成誤導
使用單一的 Y 軸,不要使用雙軸圖表
折線圖用角度體現真實的數據變化,不要使用平滑效果
數據序列最多不超過 4 個
條形圖按大小排序進行排列
不要使用無意義的顏色
高亮顯示重要的圖表元素
坐標軸等輔助元素盡量淡化
3. 數據可視化的六種制作方法
(一) 將指標值圖形化
一個指標值就是一個數據,將數據的大小以圖形的方式表現。例如用柱形圖的高度表現數據大小。
(二) 將指標圖形化
一般用與指標含義相近的icon圖標來表現。
(三) 將指標關系圖形化
當存在多個指標時,挖掘指標之間的關系,并將其圖形化表達,可提升圖表的可視化深度。
(四) 將時間和空間可視化
通過時間的維度來查看指標值的變化情況,一般通過增加時間軸的形式,也就是常見的趨勢圖。當圖表存在地域信息并且需要突出表現的時候,可用地圖將空間可視化,地圖作為主背景呈現所有信息點。
(五) 將數據進行概念轉換
對數據進行概念轉換,可加深用戶對數據的感知,常用方法有對比和比喻。
(六) 讓圖表「動」起來
數據圖形化完成后,可結合實際情況,將其變為動態化和可操控性的圖表,用戶在操控過程中能更好地感知數據的變化過程,提升體驗。實現動態化主要有兩種方式:交互和動畫。
4. 數據可視化的十大黃金準則
(一) 明確數據可視化的目的;
(二) 通過對比來反映問題;
(三) 提供數據指標的業務背景;
(四) 通過從總體到部分的形式,展示數據分析報告;
(五) 聯系實際的生產和生活,對數據指標的大小進行可視化;
(六) 通過明確而全面的標注,盡可能消除誤差和歧義;
(七) 將可視化的圖標,同聽覺上的描述,進行有機的整合;
(八) 通過圖形化工具,增加信息的可讀性和生動性;
(九) 允許但并非強制,通過表格的形式,呈現數據信息;
(十) 目標是:讓受眾思考呈現的數據指標,而非數據的呈現形式。
5. 數據可視化的工具
目前市面上的數據可視化工具多種多樣,其中Excel作圖工具是最常用的,大多數可視化圖表都能用Excel實現,網絡上有大量相關的教程資源,如果遇到問題,推薦使用「精準搜索資料的6個實用技巧」文中介紹的方法來解決。
從數據可視化工具的靈活性和強大性方面來看,建議使用 Python,作為 2018年TIOBE 評選出來的年度語言,TIOBE 在官方發布時評價道:
Python 是當今高校中最常被教授的首選語言,它在統計領域排名第一、在 AI 編程中排名第一、在編寫腳本時排名第一、在編寫系統測試時排名第一。除此之外,Python 還在 Web 編程和科學計算領域處于領先地位。總之,Python 無處不在。
Python 中用于數據可視化的庫有很多,比較常見的有:
Matplotlib(強大、復雜)
Seaborn(基于Matplotlib、簡單)
pyecharts(基于Echarts、炫酷)
plotnine(移植于R的ggplot2、圖形語法)
PyQtGraph(交互、高性能)
6. 數據可視化的應用
有些人打著數據可視化的幌子,片面追求視覺上的花哨,做出來的圖表只是為了吸引眼球,這就違背了有效傳遞信息的目標。數據可視化的應用,應該是為了讓人能準確快速地從中獲取有價值的信息。
有很多機構成功地將數據可視化技術應用于業務當中,比如「商業周刊」、「經濟學人」、「華爾街日報」等,他們的數據可視化圖表經過專業人員設計,通常都有標準的模板和配色,關鍵是設計者能站在受眾和業務的角度,從而更加有效地傳遞了關鍵信息,這值得我們在應用數據可視化技術時好好學習,在實踐工作的過程中,逐漸形成適合自己風格的圖表模板和配色風格。文章來源:微信公眾號linjiwx