資料科學面面觀 | 國立臺灣大學圖書資訊學系

(圖為中研院國際會議廳 /來源：資料科學愛好者年會)

撰稿：陳宣毅、謝宜珊

資料科學在生活中的運用不勝枚舉，從Amazon的推薦系統，到Facebook自動選擇讓我們看到哪些動態，背後都有龐大的數據奔流，以及一群資料科學家分析與研究。今年1月，台灣資料科學愛好者學會舉辦「資料科學的第一堂課」，講者陳昇瑋是中研院資料科學研究所研究員，也是年會總召。本文整理年會重點，文末附上陳教授報告的投影片以及與會者們的共編筆記。

20160420_1_01 （陳昇瑋教授，來源：資料科學愛好者年會）

資料科學有如淘金

科學是用系統性的方法來建立和組織知識，並可以用來測量、反覆驗證、解釋和預測；而資料科學就是用科學方法，來幫助我們從資料中分析、取得知識的科學。

20160420_1_02 （淘金圖，來源：Brian Harrington Spier）

資料科學分析的過程非常像是淘金，而淘金有多難？要從土地上挖出一千公斤的土，然後慢慢淘選分析，如果在這一千公斤的土中含有五公斤的黃金，就代表這塊土地具有淘金的價值。過去我們分析資料時，只用Excel來分析，就像是徒手淘金；現在我們有更方便、更好操作的工具來幫助我們分析資料，而這些工具未必是軟體工具，更多的是新的理論模型，像是數學、統計學以及相關延伸的理論與技術。透過這些新工具，讓我們在分析資料時，能夠更快上手，並且淘取我們所需要的知識。

大數據（Big Data）不是只有海量就好！

陳昇瑋教授2016年3月8日在經濟日報上發表「別讓大數據變玄學」一文中提到：「大數據指的是因應過去技術平台無法處理大量、快速產生、無結構性或需要即時回應的資料所衍生的新一代技術的集合。並不是數據量要大，要海量，才能有價值。」近年來，政府與民間都大力推動大數據的相關研究，到底什麼是大數據呢？2001年資料分析師 Doug Laney提出大數據料擁有三種特性（3 Vs），如果所處理的資料擁有這三種特性之一，就屬於大數據。

第一是大量（Volume)：伴隨電子商務的蓬勃、資料傳輸管道成本的降低，現今的資訊技術可以處理的資料愈來愈大量。如果處理的資料量規模達到數兆位元組（terabytes, TB）的資料量規模，即稱為大量。

第二是持續快速產生（Velocity）：指每一秒鐘會即時地產生數十萬筆的紀錄檔，形成所謂的串流資料（Streams Data），這種資料的特性是寫入的速度非常快速，會源源不絕不斷地寫入資料庫中。例如在Twitter或Facebook上每秒的發文、每秒在搜尋引擎中搜尋產生的紀錄檔。

第三是多樣性（Variety）：有兩種層面的意思，一種為資料領域的多樣性，當處理資料時，將完全不同領域的資料一起合併來做分析。例如：麵包店除了看原本麵包相關的報表，現在也可以把其他領域的資料共同納入考量，例如氣象、交通資料等等放進來一起分析，將異質性資料的結合做成本分析。另一種是資料格式上的多樣性，可以大致區分為結構性資料與非結構性資料，前者是能夠被量化、容易組織的資料，像是書目紀錄或稽核項，而後者則像是Facebook的發文、照片、通話紀錄或是影像……等較難處理。

20160420_1_03 （資料科學子領域圖，來源：陳昇瑋）

Big Data的成名與迷思

大數據近來熱門的原因包含：
一、容易收集跟處理資料。隨著儲存資料的硬體設備愈加便宜、可以儲存的容量愈來愈大，再加上各種用於分析、處理資料的軟體相對普及，故透過資料分析，將分析結果應用於開發相關專案的機會也愈來愈多。
二、拜網路便利所賜，容易有大量的網路使用者出現。
三、政府推動開放資料，讓資料集（dataset）的取用更容易。
四、各種感測裝置（sensor）的普及，例如：錄音工具、手機感測軟體、相機錄影設備，讓大眾暴露在容易被感測、記錄相關資料的環境中。

但是，講者認為臺灣的公司有八成不需要使用到大數據分析，因為大數據的分析要視使用需求而定，而臺灣多數公司所擁有的資料量，其實未達到大數據分析的標準，只要應用傳統的資料分析技術就可以達到同樣的分析效果。例如：圖書館對使用者借閱紀錄的分析，如果資料量未達到兆位元組(TB)，利用Excel函數的資料分析方法就可以達到同樣的效果。

資料科學＋社會學＝計算社會學

應用資料科學的另一項熱門領域是計算社會學，計算社會學是來自資料科學與社會學的結合，研究資料中人與人的互動關係，從中建立模型與預測。常見的研究方法有三種：第一種為大尺度觀測（Macroscope），例如：觀察人使用的語言的特性，或是利用Facebook使用者發文的常用詞彙來分出不同性別、年齡、興趣、個性的族群。

第二種是將網路作為實驗空間，例如：Facebook曾施行操作情緒的實驗，隱藏使用者在動態中的正面或負面情緒的發文，發現人們很容易受所看到的發文而影響心情。不過，這個實驗也引發研究倫理方面的爭議，Facebook在事後才在使用者條款上加上可能將使用者的資料作為研究用途。另外，Facebook也增加了一些功能來改變社會，例如：Facebook新增「I voted」之功能，提醒使用者其朋友中，有多少人已經去投票，間接促使選民改變心意，出門投票。又例如今年過年期間發生的南台大地震，在地震後Facebook執行長馬克•祖克柏（Mark Zuckerberg）隨即在Facebook發文發布新功能「Facebook平安通報站」，讓使用者在線上即時回報自己是否安全，避免讓親朋好友擔心自身安危。

20160420_1_04 （左：馬克•祖克柏的發文；右：Facebook平安通報站，左圖來源：馬克•祖克柏；右圖來源：Facebook）

第三種是透過大尺度觀測後，將觀測到的結果依經驗建立模型來預測人們的行為。例如：透過分析Facebook按粉絲團讚的行為，來建立預測使用者是男性、女性，或是已婚、未婚的模型；又如使用者若點選類似「卡提諾正妹抱報」這類充滿許多正妹貼圖的粉絲團達一定比例，就可以透過模型預測使用者是男性；若點選許多「嬰兒與母親懷孕生產情報站」這類粉絲團，就能預測是已婚女性。

利用資料科學設計熱銷商品

資料科學也可以對你的工作有所幫助！想像一個情境：你現在正在一間線上遊戲公司工作，公司的主要收益來自玩家購買角色服裝，而你擔當與設計師溝通職責，試問，你要如何分析「服裝」，才能告訴設計師哪些款式的服裝會大賣？

面對無法量化的非結構性資料，第一步，你必須先將它轉化成結構性資料，最好的辦法就是請教該領域的專家，請他分析並列出有關該產品的屬性（attribute）。回到虛擬服裝的例子，你可能要請益cosplay的專家，請他列出服裝的「風格標籤」，例如：甜美、華麗、侍者、女傭……。收集而來的標籤就是服裝的「語意屬性」（sematic attribute）。擁有完整、合適的屬性能為後續的資料分析打好基礎，故資料科學家非常重視與目標領域的專家合作，因為列出正確的特點才能有精準的預測。

20160420_1_05 （將服裝分為多個屬性以分析玩家嗜好；來源：FluffyLtd）

條列出服裝的屬性後，就可以從眾多玩家的背景資料，包括：性別、年齡、上機時間、週期、偏好服裝等，分析出影響虛擬服裝銷售量的因素有哪些，也可以找出各年齡層愛好的服裝屬性為何，最後配合個人化推薦系統，增加產品曝光率以達到有效銷售的目標。

總而言之，非結構性的資訊物件，如上述舉例的遊戲角色衣服，若能列出他們的屬性和特色，其實後續的大數據分析就已經成功了一半。找某項產品的特徵原本就需要對該領域有一定程度的理解，就像麵包師傅一定比一般人更了解麵包，可能光是麵糰的氣味就可以區分出好幾種屬性，所以找專家是最直接的方式。

資料科學協助作公益

20160420_1_06 （蘋果日報每日報導的捐款進度報告，來源：蘋果日報慈善基金會）

在蘋果日報慈善基金會的網頁上你看到三個報導標題：
「男半癱腦損　看影片認兒」
「夫癱兒逝　嬤送報養2孫」
「稚兒畫卡片為癌父加油」
若要捐款，你最先想捐給哪個受訪者？

大部分的人都會被第二個報導的標題吸引住，認為這個案例最可憐，捐款應該優先給他，是什麼原因讓我們在眾多的弱勢關懷報導中，選擇某些案例捐款呢？蘋果日報基金會必須掌握這把關鍵鑰匙，好讓每個案件都能達標。陳昇瑋教授以資料科學分析受訪者與捐款多寡的關係，他找了捐款數目最高與最低各25%的案例來分析，因為受訪者是人，屬於非結構性資料，須轉化成結構化的屬性（如：受訪者的性別、年齡、工作、傷殘程度、家庭成員、疾病類型、精神狀態……），從這些變數中找出影響捐款多寡的決定性因素，此外，報導的方式也納入影響因素，包括：採訪記者、報導上的圖片與標題、登刊時間。

做完綜合分析後，他發現捐款意願與時間點密切相關：五月納稅季節最少人捐款，過年時年終尾牙荷包滿，捐款意願也最高；星期三的捐款比例是一個星期中最多的，而星期五最少。此外，他發現越胖的受訪者得到捐款的機率越高，嗷嗷待哺的孫子個數越多，也會得到較多捐款。得出這些有趣的結果後，資料科學家還有一件重要工作──解釋現象發生的原因。陳昇瑋教授藉此例分享，他認為正因為總有無法預料的變數影響結果，資料科學家應避免預設立場，否則可能會遺漏隱藏的重要變數。

小結

資料科學聽起來雖然像是資工領域的範疇，但其實圖書資訊學的課程，舉凡大學部的圖書館統計學、資訊組織、資訊心理學；大學部高年級與碩士班選修的資訊視覺化、社會網絡分析、資料庫管理系統；以及研究所的量化研究與統計分析、資訊蒐集與決策等諸多課程，都能培養學生系統性思考、分析並詮釋數據。如果你開始對資料科學產生興趣，不妨去逛逛台灣資料科學愛好者年會，接下來系網團隊還會帶給大家更多相關報導喔！

參考資料：

陳昇瑋（2016）。資料科學的第一堂課：心法、案例分析與團隊建立。取自http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html
資料科學面面觀共編筆記。網址：https://hackpad.com/F5mpOfHzepS；上網日期：2016年3月7日。
Laney D (2001) 3-d data management: controlling data volume, velocity and variety. META Group Research Note, 6 February.

文章分類：新聞報導