紀錄/蔡佩容
如果想要認識飲料店的可愛店員,可以發揮福爾摩斯般的洞察力以及聯想力,依賴網路足跡找出資訊。時至今日,如果要了解「一大群人」的消費習慣或是更多更精細的行為預測,亦可以透過巨量數據的分析,繼續安穩的待在螢幕前作鍵盤福爾摩斯。本次【M.I.C. ╳ IBM 大數據講座:鍵盤福爾摩斯】邀請到核桃運算創辦人薛文蔚以及IBM資深顧問許珮薰 Patience,帶領我們學習鍵盤福爾摩斯們如何突破盲點,一次了解大數據的前世今生與未來。
許珮薰 Patience│IBM資深顧問:IBM的偵探工作
http://www.youtube.com/watch?v=pmVoKRu5mmw
許多人在這個大數據的熱潮上一直有所疑惑:難道大數據跟以往所做的分析有任何不同嗎?Patience提到過去應用的資料量多在交易等級,例如某客戶在銀行一周交易五次就算得上大戶;現在只要隨身攜有小米手環或是smart watch,就可以大量取得運動時的心跳、呼吸頻率等健康照護的監測資料。也就是說大數據在跨產業上的資料蒐集應用能夠更加得心應手。
大數據有 4V之美──資料量成長越來越多(Volume),文字、圖片、影音等資料多樣性(Variety),價值高(Value),輸入和處理速度快而且資料不斷行成(Velocity)。透過網路得到的大量數據,數位通路的資料該如何整合應用到先前實體通路等等,現在電子裝置蒐集資料需要更特殊的演算法加以分析。這些都可能成全未來新興產業上分析的需求。
資料科學家在產業界不同領域的百種應用
Patience舉出新加坡交通的適應性控制為例,集時分享處理大量路況資訊,再送到前端處理視情況調整紅綠燈,其判別度則可能跟基地台的密度有關。或是歐洲風力發電廠商(VESTAS)欲作投資,則需要得知土地前十年的氣溫、雨量、土壤硬度等,最後算出最省成本而最大產能的地區。
另外在健康醫療上,可以藉由過去累積資料推測追蹤,具有哪些特定基因、生活環境的小朋友在是否將有潛在病徵出現。Patience也提到之前,IBM 的超級電腦"Watson"參加益智節目並贏得比賽,可不只是Google後回答這麼簡單而已:首先它必須了解主持人的問題,之後再去搜索、過濾、計算大量數據之後,得到正確答案(像人腦應用,而不只是單一機械化的運作)。Waston的演算方法亦應用於其他商務用法,前中後都有不同的應用主題和處理,來判定什麼產品容易成功。
實際面對客戶分析需求又是怎麼樣的情況呢?比如說Patience要為電信業者作「客戶貢獻度」或「流失度」模型。有些情況可能電信業者本身已知(如每當租約到期最易流失客群),所以他們在解釋數據時必須想方設法分析出其他沒被發現的、跳脫本來業務背景知識就已經知道的事情。像是銀行金融工業的數據探測(data mining),如果想知道用戶何時可能容易剪卡,他們就可以歸納出正瘋狂兌換點數的用戶較易有該行為。
就零售業來看,有個很有名的例子討論「為什麼買啤酒就要買尿布」, 用客戶購買行為分析來支持銷售決策,而不是廠商或店家自己覺得哪些商品比較好賣。或是健康紀錄偵測可以設備蒐集行為,作預先警醒機智;此外,工廠裡從進料製作到產出,都有可能透過資料做決策,像是台積電若要探討良率,就可以以這些分析過程連結出原因。
分析流程
首先蒐集巨量資料,來源可能有各種社群、通路消費或金融紀錄,再依據不同資料性質決定分析方法。必須考慮如何對應資料來源、做出可以支持分析的結果,甚至是需要什麼手段、應用於何種客戶等等。最後結合到客戶端,根據目標客群(targeted audience)及一致化的行為了解模式,透過其慣用通路讓客戶知道自己是被了解的。
舉大賣場、零售的4W分析為例:
- Who(賣給誰):高齡化地區比較有機會在上午10點到下午3點的一般上班時間,由阿公帶著小朋友逛賣場,一手買人參飲一手買多多。
- What(賣什麼):洗碗精貨架旁邊應該擺放沙拉油,因為碗盤油膩時才會需要洗碗精;麵包店根據天氣來決定每天該準備什麼樣的產品(材料或成品受天氣保存影響大)。
- When(什麼時候賣):什麼時段7-11需要補充洗衣粉?(誰會晚上十點以後在7-11購買洗衣粉?)可能是晚晚下班通勤後回到家上班族,發現家中沒有洗衣粉。
- Where(在哪裡賣):台北市通勤族在同一家連鎖分店消費的距離大約在10公里內,也就是辦公室與住家距離(客戶在分店固定購買行為,可以分析客戶忠誠度)。
客戶的購買力、貢獻度、忠誠度、通路使用、行為變化等等,根據店家所蒐集的資料完整度與即時性,進而設計不同分析模式。應用在保險業的話,若欲在不同面向中找出特徵和刺激因子,來判定客戶幾年後是否會再回來購買保單,可以看看過去購買的保單等級:諸如近十年購買4至8張保單者或購買投資型定期定額保單,顯示有定期投資行為就很有可能會再回購保單。大數據甚至可以推測出晚上十點到早上五點的車禍,可能是人為詐欺理賠的機率高--因為證據證人更不容易找到。
前面提到的應用傾向公司持有的客戶資料,然而現在電子消費型產品的蓬勃,越來越多著重分析網路社群上的文字資料,來「傾聽鄉民的聲音」。Patience也說了,關於很多人詢問的,現任台北市長「柯P」是如何利用網路了解民意。根據社群網路、關鍵字分析,他可以得知網友們對於政策的討論方向或是休閒喜好,來決定應該要制定哪些政策、舉辦哪些活動或是說哪些話。
大數據分析師們,不論在學界或業界上面對需求者時都必須「傾聽」。究竟在面對客戶時如何聽出背後的問題與需求?Patience提到,必須先了解需求者業務背景現況與規則,以此提出適用的結果討論和建議才能幫助客戶。常言道「見山不是山」,設身處地了解不同角色的需求與想法,針對不同的問題「看穿它」,並找出解決方法。
除了原始資料,設計開放問題(open question)得出適意得到的方向、結果,並且大膽假設,小心求證;之後再思考有什麼面向可以呈現。最後Patience說明困難點還是在於跟客戶的溝通,「不能只回答他原本第一層的問題,大數據必須告訴他,怎麼優化決策和利用資源對他更有利。」
薛文蔚│核桃運算創辦人:大數據為何「現在」出現
https://www.youtube.com/watch?v=bTldeuHk8-g
就大數據的出現來說,適宜發展(Goldilock)、重新思考(Rethink)和時機(Opportunity)是三個主要要素。其實現今資料分析利用的技術概念早在二、三十年前就出現了,至今變動不算太大。但是從電腦/資料科學家的角度來看,薛總經理殷切地叮嚀著正經歷大數據時代的我們:「你所處的這個時刻對人類來說是非常非常重要。」
Goldilock:不冷不熱的這些時刻
自宇宙大爆炸開始,恐龍生滅、冰河時期,一直到人類聚落出現,甚至是現在各種新奇電子裝置的產生,每個重要時間點都由一些大事標注。那些當年不冷不熱、剛好出現而發生的時刻,就是Goldilock。[註1] 我們回顧歷史可以發現「有些事」發生了,但更重要的是它「什麼時候」發生。
1970年前後,不論是英特爾公司的第一張晶片、現代電腦雛型、或是數據資料庫的理論等,都在此人類重要的時刻萌發。這些硬體設備的革新的確都跟著摩爾定律(Moore’s law)以每兩年寬一倍的趨勢持續進步。[註2] 而當年設計出程式C語言的Dennis Ritchie、Kenneth Lane Thompson和Brian Wilson Kernighan,對軟體步步成長開發的貢獻極為重大:若是沒有 C 語言的誕生,就不可能發展出現在的 Linux、BSD、Mac OS等系統;當然,我們也不會有機會看到Steven Jobs創造的蘋果傳奇。
70年代以來一直被視為理所當然、但其實想法較為落後的電腦運算模式(computing model):就像木工匠的工作台(workbench),把資料庫疊床架屋地放在外面,有多少空間做多少事。然而,過去的資料量很小,代碼大小(code size)都可能比數據資料(data size)還大,一直演進至現今的應用,資料量已經遠遠大於代碼大小了。
空間決定了容量。大量資料在以前的運算模式可能因為空間有限而無法計算,大數據的運算概念則是從有限空間延伸到無限空間。給予2^64位元(可以計算看看這個天文數字,約莫曾曾曾孫的年代會得到結果),把所有資料放在距離CPU都一樣近的地方,不用再將資料搬來搬去的。如此你可以得到即時迅速的大量資料分析,用無限大而永續的空間來換取直接的操作 。
資源可能可以無限大,但是人的時間是有限的。舉SARS時期來說,你若須花費兩星期才能測出得病與否的話,病人可能都撐不下去、先走一步了。利用「空間」換取「時間」,也得到「速度」--速度是人類永遠重要的基礎概念。
薛總經理謙虛地說了,核桃運算的任務便是不斷設計出更適合巨量數據演算的模式,以利資料分析,提供情報給新穎的應用。大數據本身是一個「現象」而不是「問題」。在有限、能夠容忍的時間內解決大量的資料,重點就是你想要「問它什麼問題」?試想,如果回到當初,給予那三位創造者2^64的無限空間,他們會做出什麼不一樣的東西?
可能現在就是Goldilock,當大家開始把作業第一步的假設拿出來重新再討論的時候,這個年代也許會有新的或是更高的智慧發生。最後,薛總經理鼓勵我們:「現在,你們有這些應用,你們可以重新翻轉過去舊的想法,然後創造出偉大的東西。」
註1: Goldilock 一詞源自於格林童話故事《金髮女孩與三隻熊(Goldilocks and Three Bears)》的故事情節。故事中的金髮女孩Goldilocks擅入三隻熊的房屋內,看到桌上三碗粥,太熱的、太冷的都不吃,只挑不冷不熱的吃;又只選坐不大不小的椅子和不軟不硬的床。
後來在天文學裡,「金髮姑娘地帶」指的是一個星球周圍的宜居地帶。經濟學家則引之形容高成長、低通膨的「新經濟」狀態,因此「金髮經濟」指的是不過冷(not too cold)、不過熱(not too hot),溫度適中(just right)、美夢一般的市場。
註2: 摩爾定律(Moore’s law): 由英特爾創始人之一戈登·摩爾提出來。指相同售價、尺寸相同的晶片上(積體電路),可容納的電晶體數量,因製程技術的提升,每(24個月)18個月會提高一倍(效能加倍);晶片的容量是以電晶體(Transistor)的數量多寡來計算,電晶體愈多則晶片執行運算的速度愈快,當然,所需要的生產技術愈高明。
【關於 M. I. C.】
M. I. C.(Micro Idea Collider,M. I. C.)微型點子對撞機是 PanSci 定期舉辦的小規模科學聚會,約一個月一場,為便於交流討論,人數設定於三十人上下,活動的主要形式是找兩位來自不同領域的講者,針對同一主題,各自在 14 分鐘內與大家分享相關科學知識或有趣的想法,並讓所有人都能參與討論,加速對撞激盪出好點子。請務必認知:參加者被(推入火坑)邀請成為之後場次講者的機率非常的高!