在线播放网站亚洲播放

數據可視化把大數據時代拉入現實

  • 2015-09-17 00:45:25
  • 關鍵字: 數據可視化

  在Google搜索有關“大數據”,會出現很多個由立體0和1組成的圖片,一些解釋性的信息圖示,甚至出現“黑客帝國”的界面。那“大數據”到底是什么,人類能夠理解嗎?

wKioL1XVNAKQFzZfAAB9VkONbz4551.jpg

  如果問一家大公司的首席執行官什么是“大數據”,他們可能會描述一些類似于黑匣子(飛機上的飛行記錄器)的東西,或者在白板上畫一朵云。如果問數據科學家,他們可能會向你解釋一下 4V的概念,4V是指用信息圖示解釋(其實只是事實的視覺集合),當然還帶有相應的說明。之所以這樣做是因為“大數據”是一個有著不同含義、象征,應用于不同組織的模糊術語。

  可以理解,要想弄明白這是發源于哪、什么時候盛行是很難的。有關記錄最早是在2003年, 那時人類創造了5EB數據。到了2011年, 每兩天就會產生同樣多的數據。誠然,與前幾代數據的呈現方式相比,我們已經取得了飛躍發展。但到了今天的大數據時代,數據的呈現方式有助于傳遞信息,不過它需要的就不僅僅是漂亮的表面文章了。它需要實用,能展現多個維度,還要考慮實用性。

  新的軟件和技術使我們能夠更深入的理解這些龐大的數據集。然而,我們要去真正收集和加工有價值的大數據,唯一方法是要提高數據可視化的水平。我們怎樣進行可行性分析、深入了解、全面直觀地表示信息呢?答案是,我們需要使數據更容易理解。

新的可視化工具,新的挑戰

  通過理解大數據,使之更貼近大多數人,最重要的手段的之一就是。數據可視化標識導向系統,包括文字的,如街頭的路標指引你到高速公路,還有象征的,如顏色、大小或位置的抽象元素傳達的信息。在某種意義上,恰當的視覺標識可以提供較短的路線,幫助選擇路線,成為通過數據分析傳遞信息一種重要的工具。然而,要真正可行,數據可視化應有適當的交互性。他們必須設計良好、易于使用、易于理解、有意義、更容易被人接受。

Michal Migurski說道:“數據可視化是一個相對的概念……通常說它是即將出現的新事物。”隨著技術的變化而改變,我們不斷地開發新的工具以利用它實現跨行業應用。一些熟悉的可視化包括信息圖示、臭名遠揚的控制面板,當然還有地圖。

  現今無所不在的 信息圖示是澄清復雜問題的好方法。在此類別中, Visua.ly是一個很大的來源。圖表通常是在海報或演示文稿中精心制作來傳達意思,但在一定的時間內提供的實時信息還遠遠不夠。控制面板或許是一個有用的工具,但它們往往設計的不好。同樣的圖表和圖形重復的出現。

當控制面板設計的像車輛儀表盤和里程計的文字說明時就更糟了。最重要的是當想要通過儀表板傳達有關人的信息時,他們往往不夠人性化。最后,地圖作為一個依賴于地理重要的信息層,是我最喜歡的可視化成果之一。當你可以依靠像一個國家或省的地形等容易識別的形狀,地圖是很有用的,但如果不是地理數據怎么辦?

  想想谷歌地圖。現在可以說是現今世界上最全面和最成功的數據可視化集。它以多種數據可視化方法提供了一套全面的數據集,不斷更新而且相當容易使用。其界面提供滿足個人需求和查詢數據的多個視圖,可以跨設備使用。它還提供了一個強大的API,使它不再僅僅是個軟件,而成為一個平臺。它的 API能夠實現從基礎地圖功能到呈現難以窮盡的地理信息。

  看看Weldon Cooper Center服務大眾的 Racial Dot Map(用谷歌API創建),使用顏色編碼描繪了在美國分布的種族多樣性(類似于在熱圖上看早晨的天氣報告)。你也可以放大一個特定區域或地區來獲取細節(每個人代表一個點,按種族用顏色編碼)。

  有了谷歌,如何顯示信息和組織信息成為了大家關心的問題。但這使一個群落更具穩健性(在為Geo產品工作的400多個谷歌員工),因此來源越少,數據可視化的風險越小。

數據光譜的另一端,可以看看紐約時報是怎樣用視覺效果為它的報道增光加彩的。例如,一篇關于NASA的 Kepler mission,記錄了超過190個被證實圍繞遙遠恒星運轉的行星,從在行星軌道上運行的速度,到距離恒星的距離、恒星溫度和星系的大小都加入了淺顯易懂的可視化效果。

  另一個例子就是用圖形描繪 Silk Road,講述這著名的貿易路線的現代版本。彩色照片和精心編輯的視頻,按沿路線上的關鍵停留點分組、傳達絲綢之路的內涵,加上幫助在地理上放置的照片和視頻的信息圖示。

通過這些可視化成果,你也會開始認識到一些限制,是否要呈現出整個可以想象到的數據(想象一下檢查19億顆的系外行星,而不是190顆),或者是否需要從多個層面上理解。這些例子就像發展大數據可視化的路標。我們從這些零散的示例到更大數據集的應用中又可以獲得什么?

大數據才剛剛開始出現,我們管理后端的方式也在不斷變化。我們需要強有力的工具通過使數據有意義的方式實現數據可視化,還有數據的可交互性。我們需要跨學科的團隊,而不是單個數據科學家、設計師或數據分析員,我們需要重新思考我們所知道的。圖表和圖形還只能在一個或兩個維度上傳遞信息,那么他們怎樣才能與其他維度融合到一起深入挖掘大數據呢?我們的大數據可視化(BDV)工具需要實現功能、可更新的,而不是作為軟件的部分。

  在此過程中,數據變得更具可塑性、可行性,最終更加人性化。通過靈活的數據和可視化框架,我們希望能容納多種意見,使我們能夠利用數據適應不斷變化的需求和查詢。接受大數據含糊不清的性質,但要提供并找到讓它和你聯系的更加緊密的工具。數據的視覺解釋會因你的目標和對目標的回答的不同而不同。因此,雖然會存在視覺上的相似之處,但沒有兩個可視化結果是相同的,就像世界上不可能有完全相同的兩片葉子。

  數據挖掘作為大數據分析的核心技術,是指從大量數據中揭示出隱含的、先前未知的、有潛在價值的信息的反復過程。它主要采用人工智能、機器學習、模式識別、統計學等技術,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。