如何藉普及歷史知識以強化歷史學者社會參與?
褪色的第一志願?從「國際醫療專區」看「醫師外流」問題

「巨量資料」概念下的史料收集與歷史書寫


黃銘崇(中研院歷史語言研究所研究員)

 

緣起


318公民運動發生幾天後,我與家人一同至立法院週邊現場,一方面是表達對此一運動的支持,不過,更重要的還是進行歷史觀察。經過幾天觀察,我們研判這場公民運動有可能會是一個改變台灣歷史的重要事件。而且,隨著佔領立法院的行動之後,媒體與社群網站上出現爆量的論述、創意作品、照片、影片產生,在立法院的議場內以及濟南、青島東路上,也出現了大量的海報、文宣、小冊子和各種創作活動。有藝術史研究者與藝術創作者認為這是一個前所未見精彩無比的「無策展人的藝展」,也有人以為這是一個隨時在變動的新型藝展,不論從藝術的、文學的角度都相當引人注目。於是乎興起要在第一時間建立平台收集史料的念頭。

這次非暴力公民運動史料與以往史料的不同,在於大量主流與非主流媒體的切題論述,部落格、PTT八卦版上的文章與討論,以及透過網路流傳的懶人包、PPT等等的湧現,而這些原本就已數量龐大的討論,透過新媒體如FB、LINE等的流傳,以及不斷進行的擴散式討論,讓主流媒體在使用網路的族群中幾乎完全失勢。這次公民抗爭的另一個特色則是智慧型手機與平板電腦在功能與使用上的成熟,使參與者與非參與者在過程中都得以不斷攝錄影像。尤其是在立法院議場內,幾乎在第一時間就已有人開始利用iPad進行現場直播。幾天之後,更能夠利用業界技術,進行現場24小時直播,並在立法院週邊架設大量的民間版監視器,隨時監控週邊狀況。也有人利用四螺旋槳或六螺旋槳的小型直升機進行空拍。當然,主流媒體也派出大量記者與攝影記者進行採訪與攝影。而在另一方面,警察也頻繁使用錄影蒐證。我們在退場之前,更使用已經成熟的3D-鐳射掃描,將立法院在4月8-9日時的狀況,以三維空間+攝影記錄下來(圖一)。總之,這次公民運動,幾乎已經到了沒有一個面向不被以影像或圖像記錄下來的程度。因此,除了實體物件需要收集,如何收集各種原生數位物件,以及所謂「口述歷史」或「訪談」資料,也成了一種新挑戰。

 

巨量資料_01

圖一:學運結束前利用3D鐳射掃描立法院議場場景

在佔領立法院的行動結束以前,中研院的史語所、社會所、臺史所同意合作收集史料,並順利地在立院議場以及週邊道路將實體資料收集起來,暫時安置於安全場所,以展開整理工作。在完成立法院附近實體物件的初步收集以後,我一方面積極思考如何收集史料,同時也在思考史料一旦收集起來,又該如何整理,以及這種新時代的歷史表達與「書寫」如何進行等相關問題。

我從一個歷史學者的角度參與此一公民運動,很難不對人類之於過去歷史事件的記憶、記錄、歷史書寫與流傳產生一些反省與想法。在3月23日至24日的那一夜,我在行政院週邊,一方面感受到此一事件的震撼與變化莫測,另一方面也開始反思:人類歷史上的重要事件,比方法國大革命,是一個比324更大的事件,但能夠流傳到今天的資訊,回想起來實在少之又少。我之所以有這樣的感覺,是因為就這一個小小的行政院週邊,當晚每一個人所見到的都只是事件的一部分。你會隱約聽到另一個方向傳來陣陣「警察後退」的喊聲,但卻看不見發生了什麼事。如果沒有一個新方式把現場數以萬計的人所見到的、所拍攝到的收集、記錄和「書寫」下來,則未來流傳的可能就會只是某位見證者的記錄,或哪位歷史學家再把一些見證者的記錄轉寫成歷史。那麼,從法國大革命到現在,歷史學家的「技藝」豈非一成不變?

後來林富士提醒我,這次公民運動產生的大量史料就是典型的「巨量資料」。所謂「巨量」,不僅在其量大,更重要的是資料之完整性。如果能夠趁著這段記憶與相關材料仍然鮮活時,儘量完整地收集,則未來與此次運動有關的歷史或社會學研究,就可以運用「巨量資料」的概念進行,而與過去的歷史研究產生相當大的差異。因此,我開始研讀相關書籍,並進行構思,希望能引起歷史學界同仁,特別是年輕學者的注意,一起開始此一新型態的歷史研究。當然,由一個網路世界LKK的「網路移民」,而非年輕且更具有資格的「網路原住民」,來談這麼新穎的「巨量資料」與「歷史學」之間的關係,實在是有點奇怪,自己也覺得相當意外。以我粗淺的程度,本文只能說是拋磚引玉,相信有很多年輕的學者,可以寫得更好。

 

巨量資料與歷史研究的現狀


近來,「巨量資料(Big Data)」就像龍捲風一樣,席捲整個世界的知識界。這陣風也吹到了台灣,從科技部部長到像我這樣的無名小卒,從科學家到人文學者,在短短的幾個月內,都在談「巨量資料」或「大數據(我不喜歡用中國的名詞,以下將不會使用)」。究竟「巨量資料」是什麼?有什麼樣的魅力與威力? 關於「巨量資料」,網路與坊間已經有很多相關書籍(如Mayer-Schönberger & Cukier,2013),也有很多學科早已運用,本文不擬贅述。

此處要談的,是利用「巨量資料」進行歷史研究。事實上,這種觀念過去已經存在,包括筆者在早期中國史研究中,用「巨量資料」概念與地理資訊系統搭配以進行古代政治地景分析等,皆已經用到了「巨量資料」的概念,只是還未利用到這個名詞。以「巨量資料」的概念進行歷史研究是一個相對新的領域。真正開始使用「巨量資料」這個名詞,並企圖有系統地在歷史學與人文領域中運用,至今也不過短短幾年。而其概念之成型,則是去年年底開始、由美國匹茲堡大學Patrick Manning所主持的CHIA(Collaborative for Historical Information and Analysis),CHIA企圖建構一個在空間方面橫跨全球,在時間方面跨越近世四、五百年的全球史資料架構。這並不是一個已經完成的全球史巨量資料庫,而是一個巨量資料庫的架構,加上局部的實踐,以及要連結這樣一個龐大計劃,啟動之前許許多多必須處理與確認的內容與細節(見Manning,2013)。距離一個真正可以操作的全球史巨量資料庫出現,我認為還需要一段時間,而且需要更龐大的經費挹注,以及更多歷史學者投入這個陣營,增益各種資料並強化研究。

稍微了解了Manning這個現在已經亮出「巨量資料」招牌,而且算是跑得比較快的計劃以後,我的評估是以「巨量資料」的概念進行歷史研究,隨著網路的速度加快、運用範圍愈廣、愈來愈多資料被數位化、愈來愈多數位生產的資料產生、愈多與人類歷史有關的資料庫交叉結合以及運算能力愈來愈強大等各項發展,收集資料對於歷史學家的挑戰,會從一項基本的技藝,變成一種資料擷取的創意。「巨量資料」的歷史研究現在雖然還在拓荒階段,但假以時日,巨量資料的歷史研究雖然不會成為歷史研究的整體,卻遲早會成為歷史研究重要的一環。目前這項歷史研究新技藝的進展尚屬於開創期,只要有合適的材料、有創意的研究概念,都有可能在這個新領域上有所作為。我認為318公民運動產生的史料與根據這些材料所進行的歷史研究,就是一個這樣的契機。由於318以來的史料,規模已經不小,要完整收集,有賴台灣的歷史系所通力合作,共同參與架構資料庫與系統採集資料,並且分工完成結構性資料架構的建置。這項工作,不但可能改變歷史系學生的思考模式與研究方法,甚至可以整體性強化歷史系學生的職場競爭力。

 

為何以巨量資料的概念研究318公民運動?


巨量資料_02
圖二:330凱道遊行的人數估計

為何說這次公民運動產生的史料就是典型的「巨量資料」?應該先從「量」談起。這次公民運動參與者的人數,如果以實際到場數量最多的330凱道遊行為例,則根據佔地面積估算,在場人數多達44萬多人(圖二),主辦單位估算有50萬人,警方則估計有12萬人。對於主流媒體而言,這場運動最重要的似乎就是人數,以及八點鐘以後近乎快閃的結束。這應該是台灣有史以來人數最多的一場集會遊行,但是,歷史僅止於這個數據嗎?44萬或50萬就算是「巨量」嗎?

如果我們要從「巨量資料」的歷史學角度來收集資料,究竟要如何進行呢?首先,我想以一個很小的例子來說明330凱道遊行的意義不僅止於遊行人數:當天,我和家人以及一些朋友一起參加遊行,我們勉強擠到中山南路臺北賓館西側,好不容易才坐了下來。有一位坐在我們前面的女生回頭過來,和我們打招呼。她是雲林麥寮高中應屆畢業生,已經通過甄試,確定暑假以後可入學,因此前一天晚上就隻身搭客運過來。她算是代表還在拼學測而不能參與的同學,來台北參加這場盛大的活動,享受作為一個公民的感動。雖然這只是一個很小的故事,但是,如果我們能把當天幾十萬人個別的記錄彙集在一起,每個人的基本資料,和誰在一起、待多久、待在哪一個地方,有什麼感想,再加上每一個人所拍的照片、影片等等,則我們不僅可進行各種統計分析(圖三),裡面幾十萬個故事,還可以讓未來的歷史研究者有機會進行無比深入的研究。

巨量資料_03

圖三:330凱道遊行的狀況,幾十萬個小故事構成了當天的場景

現在關於「巨量資料」的討論,只聚焦在「統計」。而所謂資料化或資料性,往往也只是把現象化約成數字。但是,「歷史學的巨量資料」的資料性或資料化,不僅有作為統計數據的價值,其中的文字資料還能提供未來歷史分析的素材與歷史書寫的基本資料。換句話說,除了新工具與新方法外,史家傳統的「技藝」,仍然是歷史分析與書寫的關鍵部分,只是材料比以往更大量、更多元了。而靜態的圖像資料(照片、數位化創作、漫畫等)也能提供很多資訊,讓我們能夠了解不同參與者的情感。我想用一、兩個在網路上流傳的照片和創作當作例子來說明。其中一張是在立法院週邊道路上所拍到的一個場景:一位年輕人每天的任務,就是把其他人交回的棉被疊好,這雖然是一件很簡單的事情,但是每天要重複五百次,需要有相當的耐性。很多人以此認為,當年輕人能夠自主時,能力、耐性都會因此產生出來(圖四)。對傳統的政治史研究來說,這張照片或許完全不重要,但是如果我們是從社會史或其他角度來看,這張照片與其他資料可能就會成為重要的史料。

巨量資料_04

圖四:在網路上流傳的一張照片「一輩子沒有疊過這麼多棉被」(munch攝影)


另外一個例子是一位漫畫家「拉裘立蓓爾」所畫的一系列漫畫,而我選的這張是畫「拉裘報」記者訪問政府高官的一系列問答,標題是:「我的腦子沒洞」。她想要表達的顯然是政府對於所有問題的解決方案,就是建造更多的硬體、徵收土地、對於環境做更多的破壞(圖五)。她在這幅漫畫中表達了許多民眾對於現今政府作為的普遍想法,而此類創作也在這次公民運動爆量湧現。這些圖像資料,都不是簡單的數據所能取代,也是相關歷史中無法被取而代之的。

巨量資料_05

圖五:拉裘立蓓爾的漫畫《我腦子沒洞》,描繪拉裘報記者訪問政府高官

從資料完整性的角度來看,我們資料庫應該要涵蓋的內容,除了比較難搜集的公民方的資料外,還有相對比較集中的,也就是以往留下最多歷史記錄的新聞媒體,包括新聞媒體資料庫中的文稿,以及媒體記者的口訪等等,都是相當重要的資料,也是我們收集的重點之一。此外,政府組織機構方的代表,包括採取不同立場的立法委員,從總統、行政院長、行政院發言人、甚至到國安情治人員等相關事件有關的各級官員,以及從警政署長、各級警官到參與的警察等執行法律者,如果可能,也都應該是口訪的對象。我們也期待政府官員是以自由意志接受口訪。不過,我們預期對政府方的口訪可能會遭遇相當大的困難,說不定會有禁止發言或上級指導發言等的現象出現。對於只針對樣本進行口訪的作法,這些問題可能會導致得到扭曲的歷史資訊。但從巨量資料的角度來看,即使是受到指導的發言,也都是可接受的資料。因為在巨量資料下,我們並不難發現指導發言的現象,甚至可以在設計口訪題目時,就先想辦法避免此一問題。而且,我們也可以把時間拉長,等某些事件塵埃落定以後,再展開口訪。

所謂「巨量」的歷史資料收集,不僅在於量大,更重要的概念是「樣本=母體」。過去在處理大量資料時,因為各種原因以致無法顧及全部時,經常使用的辦法就是抽樣。僅針對特定的需求選取部分的資料作為樣本,久而久之,未被選為樣本的資料就會消失了。但是,318公民運動才剛發生,相關記錄之多也前所未有,如果能夠趁現在完整地收集資料,未來的研究者就能依據各種可能的問題,找出各種現象間的關聯性。要收集幾十萬人的「口述歷史」在過去幾乎是不可能的任務,但是在現今這個網路時代,只要你能夠事先把口述歷史的「問題」設計好,甚至包含時間表與地圖的標示機制,同時完善上傳數位照片與影片檔案的機制,就有可能透過網路收集到大量的資料,再經由資料研讀篩選,進行關鍵性的口訪。由於網路世代的公民運動參與者的特性之一是參與率高,有可能在幾回合的徵集下,得到遠遠超過「樣本」概念的巨量資料。這些資料庫的內容經過特定資料提供者同意,可以變成公開研究資料,可以變成公民的共同記憶庫,也可以在提供者的要求下,暫時不予公開或僅部分公開。而在共同參與和建構此一資料庫的同時,公民的參與也是對於公民運動記憶的再度激勵與召喚。

 

資料收集的機制


巨量資料_06

圖六:將收集到實體材料按原來在立法院議場及週邊的位置歸架,並準備進行數位典藏


這次公民運動的資料,根據類型,可以分為實體材料,就是我們在立法院議場內、外所收集到的各類文宣、畫作、印刷品,以及由國外寄回或送回的海外支援公民運動的作品等等。此類型的材料,因我們過去有數位典藏的經驗,所以相對容易處理,會以標準的程序進行數位典藏工作。

其次是原生的數位檔案,包括數位照片、影片、數位創作(漫畫、Kuso作品等)、網路上流傳的文章與針對的回應等等。要有系統地收集這些材料,讓它們相對集中,最終成為可供歷史與其他學科研究的素材,需要事先設計好後設資料(metadata)格式,才能夠開始徵求資料。這些資料,來源不同,事先也未經過設計,雜亂在所難免。但對於「巨量資料」的研究者而言,擁抱雜亂也是必備能力,因為一定會有大量資料的後設資料填寫不完全、標示不清楚。由於資料的量大又複雜,由少數人員將後設資料補齊也相當費時費工,因此可能還要透過幾輪的「群眾外包(crowdsourcing)」,逐漸將後設資料填補,並且加上使用者標籤。

我們希望這些資料庫與相關機制都是建立在open source工具上,而最終的理想是:不僅要開放資料,也要開放徵求資料的資料庫架構,提供其他機構或個人使用者下載利用。一方面,我們希望資料的不同部分,同時被放在其他資料庫中,提供使用,異地備存;另一方面,我們也希望再有類似的重要事件發生時,可以立即有人利用相同架構,或做若干修正,即可有資料庫開放,方便收集歷史資料。

在資料徵集的策略方面,有兩種互不衝突的方式,一種方式是以資料的類型來徵集,比方徵集數位錄影資料、數位相片、數位視覺作品、PPT與數位文字檔案以及相關的回應。此種方式的好處是資料檔案類型相同,容易歸納整理,而這種資料庫會是所有資料庫中最基本的儲藏所。不過,以資料類型來徵集可能會出現的狀況則是後設資料填寫不齊全的問題,同樣必須以群眾外包的方式來補齊。

另一種方式是收集整合性的資料,比方前述330凱道遊行的資料,我們可以先規劃好時間表,地圖、以及相關人物、內容、照片、錄影、感想以及使用者自設的關鍵字或標籤等表單,彼此串聯。讓參與者在規劃好的表單上逐一填入資料,或上傳資料,這些資料在收入後會依據資料檔案類型分別進入前述資料庫中。而搜尋的界面則會以事件作為起點,以帶有可移動的時間軸的地圖為經緯,或以關鍵字或其他方式來檢索。由於318公民運動史料搜尋是一場實驗,所以我們會兩者並行,分別測試,以找到較佳的操作流程。

以上是以自動化的方式進行資料的收集。而對於任何一個事件來說,這些預先想好的表單都可能會有疏漏,或因為事件的特殊性而引發更多疑問。因此,所有的資料庫都會經過進一步檢視,以決定是否需要進行另一個資料增補的自動化史料徵集,或者以口訪的方式進一步填補空白。

 

資料搜尋新界面


巨量資料_07

圖七:以Google地圖中的行政院及其週邊圖,想像公民佔領行政院約2014年3月24日0 AM的狀況
(黃色點代表公民、橘色代表媒體、藍色點代表警察)


前面已經講過收集整合性資料的方法,但其實此一方法應該還要搭配一種完全不同的搜尋方式。因為,所謂整合性資料收集其實是以事件為標的來收集資料,而事件可以用空間或時間作為搜尋的主要坐標。舉323-324佔領行政院為例,搜尋的界面可能會是一個行政院週邊的地圖或3D模型,底下有一條時間軸。收集資料時,假設以一個小時為段落,讓每個人填入時空坐標與她(他)的觀察。而在某一時段有若干人(比方1000人)填入空間位置,則在地圖上就會有若干個點(1000個點),分佈在行政院週邊的不同位置。點入每一個點,就會看見此人按時間分段的觀察記錄、口訪以及他所拍攝的影像或影片。由於記者也是資料收集的對象,所以各種媒體的報導及攝影或文字記者的足跡也會以不同的顏色標示在地圖上,並連結他的相關報導、口訪或攝影資料。同樣地,警察的口訪、蒐證錄影等資料,最終也希望能夠進入此一資料庫。由於每一個人的記錄,都可與他鄰近之人的記錄交叉互證,這使觀察與解釋的可靠程度得以大幅提高。此種機制本身可以轉化成一種新世代的「口述歷史」或歷史的基本記錄,研究者可以根據此一資料進行深度的歷史、社會學或人類學研究。

 

資料庫的安全性與風險控管的新觀念


本文所謂資料庫的「安全性」問題,大概有兩個方面。首先,是指保密資料的安全。不少重要歷史事件中,都會出現違反現行法律的事件,以及可能隨之發生的法律案件。我們認為歷史學家所收集到的史料,不應作為法律訴訟之用。歷史學家作為一個專業人員,在資料提供者要求保密的狀況下,有保密的義務。檢方或警察,如果要收集資料,應當直接向當事人要求,而不是向歷史學家要求。所以,我們的立場是不會配合檢方或警察的要求而提供資料。如果有必要,我們會利用所有技術,將不能公開的資料藏匿在安全的地方,即使必須面對司法,也要守住對資料提供者保密的保證,就好比醫生不得泄露病人的個資,這是所有專業人員的職責。

安全性的另一方面則是如何保證資料庫的內容不會因為災害而損毀。如前面所述,我們利用open source在中研院建構一個完整的資料庫,並會有標準的異地備援,也就是在其他地方有完整的備份,以保證在災損之後可以儘快恢復。即使如此,我們認為最理想的公民歷史資料庫備援還是「公民備援」,也就是開放資料庫的結構,以及所有可以公開的資料。此種想法的基礎在於我們認為一個公民運動如果具有正當性,擁有社會多數人的支持,則最終就沒有任何東西需要隱瞞。我們會讓有興趣針對特某些資料進行典藏的人,都可以擁有部分資料庫與史料,這些多元與多重的備援才是保證公民史料安全的終極手段。

 

更大的期待


以歷史學家的角度來看,318公民運動無庸置疑是一個重要事件,並且仍未落幕;相關事件對於台灣而言,會有何種影響,也還有待觀察。但它到目前為止所產生的資料,對歷史學、社會學、人類學、政治學、法律等學科而言,都已相當寶貴的。因此,在我們收集資料的同時,也有不少學術界與非學術界的同仁,已經開始進行資料的收集與研究。我們的取向和這些資料收集或研究並不相同,我們希望以「巨量資料」的角度來收集,但這並非中研院或台灣任何一個學術機構可以獨力完成,而需要大量的學生與公民參與。所以,我很期待318公民運動作為一個契機,提供我們以巨量資料的角度收集資料並進行歷史研究的機會。如果我們可以好好利用此一機會,結合大多數研究台灣史的師生,甚至其他史學、社會學、人類學的師生,共同參與,熟悉「巨量資料」的各項研究,那麼,這將會是一個絕佳的操兵機會:利用「巨量資料」的歷史研究作為一個跳板,與世界的巨量資料歷史研究結合,把台灣已經有的大量數位化資料,依據CHIA的架構,重新整合並加入CHIA。而這正是柑仔店小二們不斷討論的將台灣史甚至中國史當作世界史或全球史來研究的宏觀路線。

最後,我想利用此一機會告訴許許多多正在面對司法的公民,如果我們站在多數公民所認同的方向,那麼,當資料愈多,歷史書寫基本上就會偏向多數公民,而且司法判決的方向也會是如此。台灣的公民加油!歷史學界加油!

 


 

參考資料

(1) Schmidt, Eric, Jared Cohen, The New Digital AgeReshaping the Future of People,    
     Nation and Business.
 《數位新時代》(臺北:遠流出版,2013)。

(2) Mayer-Schönberger, Viktor and Kenneth Cukier, Big Data: A Revolution That Will
     Transform How We Live, Work and Think 
(London: John Murray, 2013).
     《大數據》(臺北:遠見天下文化,2013)。

(3) Manning, Patrick, Big Data in History (NYC: Palgrave Pivot, 2013).

 


 

本文採用 創用CC 姓名標示-非商業使用-禁止改作 3.0 台灣版條款 授權。歡迎轉載與引用,但不得為商業目的之使用,亦不得修改本文。轉載、引用本文請標示網址與作者,如:

黃銘崇 / 「巨量資料」概念下的史料收集與歷史書寫
引自歷史學柑仔店(http://kam-a-tiam.typepad.com/blog/2014/06/巨量資料概念下的史料收集與歷史書寫.html)

 


  

Print Friendly Version of this pagePrint Get a PDF version of this webpagePDF

Comments

Rh

太陽花醫療志工團也在做自己的史料收集,在當時我們的記錄都有留下來。
不過光整理的工作就很繁雜....

黃銘崇

謝謝醫療志工團。我覺得很奇特的是採取非暴力抗爭的公民有醫療志工團,但是採取暴力對應的警察,卻要公民的醫療志工團幫忙昏倒的警察急救,這是我親眼見到的。
Anyway
我們目前在架設基本的資料庫,也就是分類收集資料。不論志工團整理到什麼程度,我們都會很樂意收集這些史料。

黃銘崇

多謝。

Lin

你好,我發現有錯字

在拉裘立貝爾的圖下面那段

不過,我們預期對政府方的口訪可能會遭遇相當大的困難,說不定會有禁止『發炎』或上級指導發言等的現象出現。對於只針對樣本進行口訪的作法,這些問題可能會導致得到扭曲的歷史資訊。

應該是『發言』才對

歷史學柑仔店(kám-á-tiàm)

非常謝謝您!已經改正了。日後還請多支持、多鞭策。

Verify your Comment

Previewing your Comment

This is only a preview. Your comment has not yet been posted.

Working...
Your comment could not be posted. Error type:
Your comment has been posted. Post another comment

The letters and numbers you entered did not match the image. Please try again.

As a final step before posting your comment, enter the letters and numbers you see in the image below. This prevents automated programs from posting comments.

Having trouble reading this image? View an alternate.

Working...

Post a comment

Your Information

(Name is required. Email address will not be displayed with the comment.)