The following two tabs change content below.
老貓
出版還有很多東西需要解謎,還有很多事情要探索,所以我們有了出版偵查課。

先向大家報告一個好消息。過去呼籲多年的 ISBN 開放資料,上週終於發現它已經出爐(一陣子)了。似乎業內知道這件事情的還不多,這裡簡單介紹一下。經過國家資料開放平台協調,國圖書號中心,終於釋出了 ISBN 的開放資料 xml 檔。主要是前一個月分預計會出版的圖書資訊,欄位包括:書名、作者、出版單位、版次、出版年月、標題、類號及ISBN。xml 格式長得像這樣:

 <書名>咖哩香腸之誕生
 <作者>烏韋.提姆(Uwe Timm)著; 劉燈譯
 <出版單位>臺灣商務
 <版次>二版
 <出版年月>103/05
 <類號>875.57
 978-957-05-2919-7 (平裝, NT$260, 203面, 20公分)

此外授權方式採用的是政府資料開放平臺標準的規範

「以無償及非專屬授權方式授權使用者得不限時間及地域,重製、改作、編輯、公開傳輸或為其他利用方式,開發各種產品或服務。」

基本上就是愛怎麼用就怎麼用,不需要另外申請,也不用支付額外費用。這真的要表揚一下書號中心從善如流,把業界呼籲多年的事情落實了下來。不過本於精益求精的精神,避免國圖好意白費,以下建議幾個關鍵問題,希望書號中心能夠考慮更新:

一、時效問題。一個月一個檔,或遞延送出上個月的資料,對新書情報等加值運用緩不濟急。

新書快報就是要快,書一上市就要通知,這才符合市場的需求,如果加值商能夠獲取的資訊都是上個月的資料,這種緩慢的速度一定是失敗的。

書號中心也許會擔心,書號一編配就送出來,很多書都沒有出版,因此會有資料不準確的問題。但其實書號中心累積並且遞延一或兩個月才釋出資料,並不會讓資料更可靠。對所有加值商而言,不管是最新申請的,或者遞延幾個月才釋出的書號,他們都必須驗證是否已出版,才能做商業化使用。

所以 ISBN 資料應該在第一時間就釋出,才是對後續加值有意義的做法。不然廠商拿到的都是舊資料,市場上根本沒有競爭力可言。這樣加值運用的效益欠缺,書號中心開放出來的美意也就等於落了空。

最好還能像環保署的空污資料那樣,每小時自動更新。當然 ISBN 不需要快速到每小時,我的重點是「自動更新」,這樣效率才會高。

二、缺乏歷史檔。沒有完整的書目資訊,後面要做任何延伸型的服務都是不可能的。

隨手舉例,如果想做網路書店,你不可能只買最近幾個月的新書,你沒有過去五年,甚至十年的出版書目,怎麼開店做生意?

或者做讀書社群(像豆瓣網那樣),讀者上傳他的藏書,那個書目範圍甚至會到二十年、三十年以上,沒有那些書目做基礎,讀者上傳幾本書號,就發現這個找不到,那個找不到,這種社群也是經營不起來的。

歷史資料越完整,能做的事情越多。我建議書號中心應該多做一個固定型的歷史檔,就像這個古籍書目資料那樣,做好就好了,它不用更新。所以書號中心光是 ISBN 至少就應該釋出三種資料集出來:

臺灣出版圖書歷史資料(1989-2013)
臺灣出版圖書資料(今年以來)
臺灣出版新書預告書訊(最近三十天)

第一種是固定不變的,第二、三種則是逐月甚至每周更新的。這樣的資料集,對後續應用才會有意義。

三、資料欄位的準確性問題。

<作者>欄位中,有作者,也有譯者。欄位中,不但有ISBN,也有裝訂方式、定價、頁數、開本等五種資訊,一起擠在一個欄位中。這不是合格的 XML格式標準,每個加值商如果要運用,都得重新萃取出個別值,重新放到正確的欄位中。

雖然這些「資料」確實是放在 XML 格式中,但對程式而言,他們只是文字,還不是數據(data)。

看起來書號中心現在的作法只是把手工填寫的格式,轉到 XML 上,並沒有真的對「資料庫」的資料做優化。如果國圖的原始資料也是這樣不清不楚的話,其實你自己事後要做圖書數據分析,應該也會覺得痛苦才對。

 ※ ※ ※

有了 ISBN 的開放資料,後續可以運用的加值方案很多,其中有一個是出版產業遲到了二十年,而且看起來也會繼續遲到下去的出版業 EDI(電子資料交換),我們下期來談。(更多老貓文章請看老貓出版偵查課

老貓出版偵查課
  • 用Line傳送