雲端時代的殺手級應用-海量資料分析
作者-胡世忠 |
什麼是Big Data?
Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.
這是wikipedia上面的定義,最通俗的說法就是巨量資料,資料量大到超過傳統資料庫管理工具所能夠負荷的量。
由於這個世界開始走向所謂的3i新世界,感知化(Instrumented)、物聯化(Interconnected)以及智能化(Intelligent),大量的資料每分每秒的產生,從近期的智慧型手機的興起,智慧家庭的革命、甚至是最近熱門話題的穿戴式電腦(ex. Google glass, iWatch etc.),當然包括隨時更新的社群網站、照片上傳等,都是各種型態的資料。
說到資料的型態,過去在資料庫管理的資料型態是結構化(structured)的資料,資料庫的管理透過關連式(relational)的方式,讓使用者容易儲存、分析。
但是現今的巨量資料,大多的資料屬於半結構化(semi-structured)和非結構化(unstructured)的資料,半結構化的資料例如網頁資料、電子郵件、部落格,非結構化的資料更多,例如圖像、聲音、影片甚至是word、pdf檔案,這些資料即使有辦法儲存,但是要分析可就不是那麼容易。
海量資料的四大特性(4V):大(volume)、雜(variety)、快(velocity)、疑(veracity)
- 大:存放的資料TB~EB
- 雜:結構、半結構和非結構資料混合
- 快:流動中的資料、串流資料,反應時間僅有短短幾秒~百萬分之一秒
- 疑:不確定的資料,資料不完整、不一致、時間差、意義不明甚至是蓄意欺騙倒致
海量資料=交易資料+互動資料+觀察資料
海量資料新時代企業處理的資料類型隨著時間推演,也變個更大、更雜、更不確定性。
而在各種企業型態下,不論是製造、零售、金融、電信、娛樂還是服務業,都有各種經典個案例在書中一一的說明,在非營利組織中,政府在打擊犯罪、醫院提升醫療品質也都有顯著的效果。
例如在零售業,不同的部門對於資料的運用都有不同的適用性
pic source: 本書 |
甚至在能源管理上,也能夠過智慧電網、甚至可以作更精準的氣象預測,提高風力發電的效率,未來的家電也都會物聯化(interconnected),透過智慧家庭、恆溫控制等方式,也能夠提高能源使用效率。
在金融業上,也能夠過各種交叉比對,找出真正的潛在客戶,過去傳統的目標客群往往用一些人口統計變數作為依據,未來,巨量資料的資料型態包含大量非結構資料,這些資料分析起來可以使得一對一行銷成為可能。
在製造管理上,價值鏈上不同的環節有不同的運用方式,例如在產品研發設計、供應鏈管理、生產以及售後服務等環節都有應用的領域。
在未來,巨量資料的分析將成為顯學,在美國已經有許多大學開設了許多巨量資料分析的課程,甚至有企業設立了所謂的資料長(CDO),例如阿里巴巴集團就有設立這樣的職位。CDO有五種基本角色,第一,為資料發聲,支持和執行資料管理的策略、標準和制度化。第二,權衡資料風險,發展測量和預知資料風險的能力。第三,影響公司策略,有效的資料分析促使企業作出更具洞察力的決策。第四,提高收入。第五,提高利潤。
書中最後一段話,令人感同身受:科技本身是中立的,如同聖經說,上帝叫日頭照好人,也照歹人。科技的演進會讓好事發生,也讓壞事發生,但我們相信,在人類邁向一個更文明的過程中,唯一的紀律,就是持續自律(The only discipline that lasts is self-discipline)。
後記:
去IBM面試,主管說看了這本有加分,但是去的時候還沒看阿~
最近收到了Thank you letter,杯具。
僅只此照片為念