Loading
跳到主要內容
:::

非關“典藏”:城菁汝專訪

Digital Archive and Metadata: An Interview with Cheng Ching-ju
文獻研究室 檔案的數位轉向-圖片

本期特別訪談臺灣文化政策研究學會理事城菁汝,她曾參與中央研究院主導的數位典藏國家型計畫。訪談中,除了分享她長期投入數位典藏的實務經驗之外,也從台灣數位典藏發展的脈絡,提出她對於本館數位典藏建置的見解與觀察。

受訪者|
城菁汝 Cheng Ching-ju 臺灣文化政策研究學會理事

採訪.整理|
廖春鈴 Liao Tsun−Ling 台北市立美術館助理研究員
林靖恩 Lin Ching-en 台北市立美術館文獻中心檔管人員

採訪時間|2018.04.29

近年來,本館積極籌備「文獻中心」的設立來進行館藏資料檔案的匯整,以確保資料的永續與傳承。隨著知識數位化的開展,檔案收集與保存型態跳脫了物件的範疇,進入「數位典藏」的領域。受惠於數位技術支援的增強,數位典藏對於龐大資料量的整合、保存、管理,有效且迅速,跨域整合、知識分享的前景更令人期待。然而,即使數位典藏在台灣發展已有時日,技術與觀念方面仍有待突破。如何管控「數位典藏」的質地,關乎最終館藏檔案數位呈現的層次與效果。面對這樣的挑戰,要如何應對?本期特別訪談臺灣文化政策研究學會理事城菁汝,她曾參與中央研究院(以下簡稱中研院)主導的數位典藏國家型計畫。訪談中,除了分享她長期投入數位典藏的實務經驗之外,也從台灣數位典藏發展的脈絡,提出她對於本館數位典藏建置的見解與觀察。

廖春鈴(以下簡稱廖):一開始我對「數位典藏」這個詞其實是感到困惑的。因為在我習慣的美術館語境中,「典藏」意謂Collection,指的是藝術品收藏,是美術館的核心業務之一。後來查到它的英文原文是Digital Archive或Digital Archiving,我才恍然大悟。如果不是現在負責「數位典藏」的建置,我會以為「數位典藏」指的是數位作品的收藏。後來我才意識到,我所熟悉的北美館典藏組的「典藏品查詢系統」其實就是「數位典藏」的運用。這套系統行之有年,我也常常使用,只是它不以「數位典藏」冠名,不會聯想到。以此類推,在我們的週遭「數位典藏」的運用,其實已經相當廣泛。可否請你先簡單介紹一下臺灣數位典藏的由來及發展?

城菁汝(以下簡稱城):數位典藏的興起與推展,是整個大環境面對數位科技影響下的因應之道。現在我們很難想像二十年前,那時智慧型手機及網際網路並不普及,當時就有一些學者思考國家重要的典藏品要如何進入數位化世界,在新的數位環境中賦予它新的生命,永久保存,讓更多人接觸,所以就有「數位典藏」建置的倡議。要了解臺灣數位典藏的發展脈絡,我推薦中研院去年出版的《遠見與承擔》這本書。臺灣數位典藏是基於中研院、國家圖書館、臺灣大學等幾個大型研究機構主事者的倡議所開展。他們意識到,國家需要在數位時代扮演一個角色,特別是收藏文化資產的典藏單位,例如美術館、圖書館、檔案館跟博物館,它們要如何在將來數位時代裡佔有一席之地。中研院主導的數位典藏與數位學習國家型科技計畫(以下簡稱國家型計畫)從2002年到2012年,歷時十年。分為兩期,第一期是從2002年到2007年的「國家型數位典藏」。參與的單位包括中研院、故宮、歷史博物館、國史館,以及擁有大量日治時期珍貴檔案文獻的臺灣大學等。對研究者來講,每做一次研究就要將藏品從庫房調出來,對藏品的保存其實相當不利。若有數位檔,又附帶相關資訊,研究者可從數位檔先判斷,無須每次都要從庫房將藏品調出來。

第二期是從2008年到2012年,這一期比較重視數位典藏的成果如何進行後續的推廣與應用。既然投注了大量人力與國家資源,第一期計畫所累積的成果不應該只提供專業研究人員使用,這些其實是很好的教育資源。因此第二期加進了教育,希望千辛萬苦做出來的數位典藏能運用在教育的學習跟推廣。國家型計畫另一個特色是「公開甄選型計畫」的部份,它主要是針對收藏臺灣本地珍貴文化資產的單位,提供一個機制讓他們可以進行數位典藏。考量這些機構較缺乏資源與人力,這個計畫鼓勵他們與大專院校合作,擬定計畫參加甄選,例如楊英風美術館和交大、優人神鼓和師大。因此興起了一波大專院校研究者跟臺灣文化資產機構合作,共同進行數位典藏。國家型計畫一開始多以蒐藏中華文物的研究機構為主,例如故宮、中研院史語所的典藏品,在公開甄選型計畫時期就納進臺灣本地的文化資產。如此一來,也凸顯國家型計畫多元文化的特色。

數位典藏國家型科技計畫參與單位;參考來源:「數位典藏與數位學習國家型科技計畫」http://teldap.tw/。-圖片
數位典藏國家型科技計畫參與單位;參考來源:「數位典藏與數位學習國家型科技計畫」http://teldap.tw/。

廖:我知道你2002年底加入國家型計畫的中研院後設資料工作組,直到2011年才離開,在這其中你扮演何種角色?

城:我剛加入時根本不懂「後設資料」是什麼。我是歷史與博物館學背景,之前在國外博物館實習,負責藏品入庫、拍照及系統資料填寫。加入計畫後,才知道「後設資料」指的是系統中描述藏品的欄位。尤其2002年還在草創初期,當時臺灣數位典藏相關的文獻還很缺乏,多需參考國外的文獻與經驗。早期我主要負責博物館類的計畫,像故宮、史博館,中研院史語所拓片、竹簡、考古文物跟遺址、遺跡,民族所的文物、人口資料等。一開始其實壓力很大,每個計畫都是一種專業,對於描述藏品的需求也不同,只能從做中學,努力扮演博物館與系統開發兩邊的溝通橋樑。因此我從兩方面都吸收到很多的不同知識,例如故宮研究器物的專家,他們會提出器物上的獸面紋飾,雖然都填「獸面紋」,但不同時期外型上都有差異,這些如何在系統呈現;資訊人員方面,那時中研院資訊所跟計算中心的資訊人員都是最頂尖的,要如何才能開發出符合研究者需求的技術。這溝通過程稱為「後設資料分析與規劃」,每個計畫平均需數個月到半年不等的時間,最後完成「後設資料需求規格書」,作為資料填寫規範及數位典藏系統開發依據。

廖:我想數位典藏是很好的例子,讓我們瞭解,在數位化浪潮之下,如何善用科技與資訊技術來輔助人文學科的研究。照你剛剛的描述,的確是透過國家的推動,再加上人文學科與資訊科技之間跨領域的合作,共同促成了臺灣數位典藏的發展,我覺得相當具有典範性。不過,現在倒是常常遇到兩者無法磨合的案例。

城:當時參與國家型計畫的人,大家都充滿熱情,又相當投入,中央研究院各所成員更是以做研究的態度,遇到問題,大家就一起想辦法解決。在有限的時間內,專心投入、不計成本與辛勞。可是當國家型計畫結束之後,很多典藏單位跟業界合作時,或許是少了後設資料分析者擔任溝通橋樑,典藏單位提出的需求會有直接被系統開發廠商駁回的情形發生。當然也需體諒業者有營運及成本的考量,但是,很少廠商會向典藏單位耐心解釋做不到的原因,到底是因為承辦人需求表達不明確,資料提供不夠?或是廠商軟體開發,硬體設備的問題?無法了解癥結所在,人文學者或是承辦人都會有挫折感。相較於國家型計畫時期,目前數位典藏系統開發實務中,讓我感受深刻的是,後設資料常常分析不足,因此系統雖然開發出來,但不好用;或者是雖然有資料著錄,但資料品質不佳,例如描述得不夠清楚、不好辨識,或者不是使用者會用的查詢字詞。

廖:對於數位典藏,維基百科的描述是:「係指將有保存價值之實體或非實體資料,透過數位化方式(攝影、掃描、影音拍攝、全文輸入等),並加上後設資料(Metadata)的描述,以數位檔案的形式儲存。」可以解釋一下數位典藏與後設資料之間的關係嗎?

城:其實剛剛我們一直談的「數位典藏」有兩個要素,也就是實體物件的數位化以及數位檔Metadata(後設資料)的詮釋。一個數位化的物件,它只是一個數位檔,在系統中或網路上較難被搜尋到,因為它沒有附加標題、年代、創作者、關鍵字等資訊。Metadata在國家型計畫翻成「後設資料」,有些單位翻成「詮釋資料」,在中國翻成「元資料」,這個名詞有各種中文翻譯。大家比較常用的解釋就是「資料中的資料」。簡單來說,要在網路的世界當中被找到、被排序、被統計,就需要更詳細、更清楚的描述詮釋。現在大家熟悉的大數據(Big Data)也是各種Metadata所匯聚而成。

在Metadata的研製過程,內涵分析是典藏單位跟系統開發人員之間溝通的橋樑,非常重要。透過典藏單位提出自身的需求,以及對數位典藏系統的想像。比如說,當時我處理故宮青銅器的「獸面紋」也稱作「饕餮紋」,每個年代的外形及大小都不太一樣,如何透過文字的描述將變形過程的枝枝節節在資料庫呈現出來。又譬如藏品「年代」著錄,如何確保它後來在系統中,不管用什麼方式「西元年、中國朝代、日本紀年、民國年」去搜尋,都是可以被搜尋得到的。所以我必須先和研究人員、館藏品管理人員討論、確認,再設法讓系統人員了解,讓這些細節可以在系統中呈現。需求確認後,我們會製作SPEC(Specification,後設資料需求規格書)統合所有需求。需求規格書的內容包含了典藏單位的計畫背景、系統目標與範圍、後設資料的結構與欄位、欄位的定義與著錄規範、欄位的功能屬性、系統功能需求、控制詞彙或代碼清單、採用的標準、相關標準的比對、XML DTD等,其實就是一套SOP的流程。需求規格書中的「著錄規範」非常重要,它是為了確保在建置後設資料內容時沒有疏漏,也不會因為著錄人員的替換而填出不一樣的Metadata內容。這些規範透過實際1、2筆完整範例的填寫,典藏單位得以在討論的過程中,慢慢地去釐清著錄內容與方式,確認統一的原則,形成著錄規範。這個範例填寫過程很重要,才能確認設計出來的Metadata符不符合需求。

後設資料生命週期作業模式(Metadata Lifecycle Model, MLM);圖片來源:「數位典藏與數位學習國家型科技計畫 後設資料工作組」http://metadata.teldap.tw/。-圖片
後設資料生命週期作業模式(Metadata Lifecycle Model, MLM);圖片來源:「數位典藏與數位學習國家型科技計畫 後設資料工作組」http://metadata.teldap.tw/。

廖:一開始你有提到臺灣數位典藏取經國外經驗,是不是可以談一下國際Metadata後設資料的情形,以及衍生的標準化問題?有沒有可能為了配合國際標準,反而忽略自身的特色與目的?

城:Metadata在不同學科領域各有其國際標準,比如說博物館類的、圖書館類的、檔案館類的、生物類的、數位學習類的,如果能適用當然是最好,與國際接軌也不會有問題。可是如果典藏單位有自己的特殊需求,而國際標準無法提供相符的欄位,其實是可以設計自己的Metadata欄位。可待日後有交換需求時,再將自己開發的Metadata欄位跟國際標準進行比對。我覺得不管是依需求所開發出來的Metadata,還是符合國際標準的Metadata,未來在轉換上,只要有欄位對照表,就可以把定義一樣或相似的欄位對應在一起,資料交換不會有問題。而且國際組織針對這些不同學科的標準都已產出對照表,英文稱Metadata Standards Crosswalk,提供不同的館所、不同的學科在資料交換參考。所以,我覺得不用擔心不相容的問題。數位典藏系統當然是先滿足單位的需求,國際交換是未來式,至少以現在的技術水準跟程序,不成問題,況且未來應該會開發出更快速的轉換方式。

廖:當初在構想本館文獻中心數位典藏時,其實對於未來是朝開放性的。我們曾參訪過楊英風藝術研究中心與雲門舞集,也收到一些建議。在我看來,這套系統未來會不斷擴充,Metadata也會隨著時間、時代的變遷不斷擴增。而藉助資訊科技的日新月異,Metadata的累積將可以獲得更有效的應用。

城:現階段對數位典藏的想像,已經慢慢轉到數位人文學領域。數位典藏是保存及管理,希望使用者能搜尋到物件,並進一步應用與轉換。數位人文學的概念是,在數位環境中進行研究工作,運用各類系統裡的資料,進行大數據分析,像是年代、GIS、詞頻統計或人物社會關係網絡的分析等。當然還需要搭配後續發展出來的計算或是索引工具。當科技越來越進步,也有越來越多可能性。但前提是文獻資料要先進入數位典藏,資料庫要先做出來並開放,Metadata的著錄要清楚詳細,資訊越多越能增加被檢索、被利用、被研究的機會,後續才會衍生各種可能性。

以人名來說,蘇東坡是「蘇軾」,也叫做「東坡居士」,如果系統背後有「人名權威檔」,像是一個人名的比對表,使用者不管是打「蘇東坡」或「蘇軾」,都可以搜尋到相關資料(包含「蘇文忠」的資料,「文忠」是蘇軾的諡號),這就提供了檢索上的便利性。更進一步,還可以將權威檔(等同關係)發展成「索引典」。索引典就是除了「等同關係」,如蘇軾等於蘇東坡,還有上、下位詞(層級關係)及關連詞(聯想關係)。如蘇軾的爸爸是蘇洵、蘇軾的弟弟是蘇轍,蘇軾的好朋友黃庭堅等。所以搜尋「蘇轍」的時候,就同時會顯示跟「蘇東坡」有關聯,跟誰也有關聯,構作出一個知識地圖或社會關係圖,這都有助於後續研究。此外,索引典還可幫助「多語化」。比如說建檔時著錄中文的「瓷器」,如果有多語化的索引典,除了英文的「porcelain」之外,還可加入其他外語,比如荷蘭文porselein,西班牙文porcelana。如此一來,雖然是中文的資料庫,但是系統導入了索引典,所以輸入任何語系的「瓷器」,都會連結到中文資料系統裡的「瓷器」,可不受語言的限制。所以就算經費不足,無法同時建置雙語或多語的資料庫,經由索引典中不同國家語系的字詞輔助,在以中文為主的資料庫中使用者仍可以查到所需要的資訊。

還有就是「控制詞彙」的重要性。例如要策一個有關蝴蝶的展覽,在資料庫搜尋時輸入「蝴蝶」,理論上就可以找到所有「蝴蝶」相關的藏品或文獻檔案,不管是有繪畫裡的、器物紋飾上的、書法的,或是文章裡提到的,通通都要被搜尋出來。可是要達成這個成果,一開始Metadata的填寫就很重要,必須在器物的「紋飾」欄位填入「蝴蝶」,在畫作的主題要填入「蝴蝶」。而且可能還要填一個上層詞彙(層級關係)「昆蟲」,因為未來可能想要展關於昆蟲的展覽。因此,在Metadata的設計及著錄規範裡,控制詞彙及多語化的問題,也必須被考慮。

-圖片

廖:本館籌備中的「文獻中心」正在進行館史發展以及館務運作相關資料檔案的收集與匯整,方法上不僅要兼顧檔案有效管理的功能,還要確保這些檔案未來能夠被使用者快速的搜尋到。對我們來說,數位典藏系統確實提供了一個合理的解決方案,何況本身又有數位人文學的遠景。作為一個長期的觀察者與執行者,你會如何看待文獻中心「數位典藏」的建置與其未來可能的發展?它與台灣數位典藏發展的關係為何?

城:之前國家型計畫的核心是典藏品,而北美館文獻中心建置的是館史文獻資料的數位典藏,比較偏向工作流程、工作成果,像是館所的工作紀錄跟檔案蒐集,這和典藏品是不一樣的內涵。單就Metadata而言,典藏品描述的Metadata是一個層次,與機構相關各類型文件資料的Metadata又是另一個。北美館著手規劃機構歷史相關檔案文獻的數位典藏,這值得肯定。就數位典藏發展的脈絡來看,是從典藏品的數位典藏進入機構的數位典藏,思考如何將整個機構的產出放進數位化的世界。何況現在很多文件資料是born digital,也就是跳過數位化的階段,直接進入Metadata的設計,這樣反而可以更專注Metadata的設計及描寫(或稱「著錄規範」),以及文件彼此間的關聯性。

而且由館內的人自己發起最適合,館內的人最清楚自己的業務底下會有哪些檔案,這些檔案需要如何描述。而且呼應外界的要求與期待,蒐集什麼樣的檔案、檔案需要設計出什麼樣的欄位、欄位需著錄什麼樣的資訊。此外,能挑選欄位產出報表很重要,因應行政單位或是研究者的不同要求可以匯出不同的報表,這些報表資訊也會在系統變成一筆紀錄,我覺得這類的紀錄都應該保存著。

林靖恩(以下簡稱林):北美館的館史與館務推展有許多與藝術家檔案相關的資料,可以請你談談對於單一館舍或機構對於藝術家檔案資料彙整的狀況,以及不同館舍機構之間整合連結的想像嗎?

城:因為北美館收錄當代臺灣最重要的藝術家,可以從館史出發,當館藏的資料、檔案都整理得差不多,應該可以判斷哪幾位當代藝術家檔案是最多的,他跟北美館的交往及關係最密切,就可以做藝術家的檔案或人名權威檔。也不求多,由美術館來建當代藝術家的檔案,這是一個很值得努力的方向。就我所知台北藝術產經研究室正在進行「台灣畫廊產業史料庫」,畫家可能在三大美術館與畫廊都有作品展出,在數位時代這些資料都有機會進行整合。

林:在不同館舍或機構的資料整合上,國家型計畫時期發展的聯合目錄當時也是這樣的概念所產生,可以請您談談聯合目錄的目標與大致的運作方式嗎?城:聯合目錄當初是希望使用者透過一個平台就可以找到在這個國家型計畫項下的所有計畫的典藏品。只要輸入一個檢索詞,例如陳澄波,不管它是哪類型資料,典藏在哪裡,只要是用國家型計畫經費底下的資料,都可以在聯合目錄的網站裡頭被搜尋到。

國家型計畫項下的計畫一開始設計Metadata時,會以需求為主,所以每個計畫所設計出來的Metadata有自己的需求,但都能夠跟國際標準接軌(在「後設資料需求規格書」中的國際標準比對),如計畫Metadata對應到聯合目錄所使用的Dublin Core十五個欄位。國家型計畫的聯合目錄就像圖書館的機制,你可以透過全國圖書書目資訊網(NBINet)查詢到你需要的書在台灣的哪一個圖書館。這是因為圖書館早就有一個全國圖書館的自動化計畫,全台的圖書館都是在同一個系統項下,大家使用的欄位也差不多,所以很容易就建立全國圖書書目的資訊網。

跨館舍的連結部分,因為牽涉不同的典藏單位,藝術作品及文獻類型也都不同,問題會比較複雜。我的建議是,各典藏單位把目前既有的資料先進行數位典藏。當藝術界或是各典藏單位都建置完成,到時候可以透過聯盟或是連結的機制,互相連結。就像當初國家型計畫,就是先投入十年,累積相當的成果,後續才會有不同的可能性持續發酵。我覺得北美館應該陸續將蒐集文獻檔案建立成資料庫,以北美館豐富的收藏跟研究,還有歷年展覽、藝術教育活動以及與現當代藝術家的連結,後續發展很值得期待。

註釋
    回到頁首
    本頁內容完結