2020年02月26日

第2章「伝わらない言葉たちをローマ字にのせて」(目録) - 『君に届け 〜 OCLCと日文研をつないだ目録・ILLの物語』


●背伸びしたい、その標準に

 さる信頼筋(註:NII)の情報によれば、うちとこの新規書誌作成件数は1年間(2017)で7000件以上、NACSIS-CAT内では全国20位という。こんなちっちゃな機関にしては、てぇしたもんだと思います。
 ですが、そんなNACSIS-CAT内ではがんばってるようなうちとこも、大海のOCLC WorldCatへ漕ぎ出そうとなると、これはまったく話が別です。OCLCが求める標準、ていうか、図書館目録の標準というもの自体、そもそもデータの流通をスムーズに促すための存在であるはずでしたが、、(良い意味か悪い意味かは別として)ガラパゴスに成功した日本の学術目録環境の中でベッタリと業務をこなして来た身にとっては、その”標準”が高い高いハードルとなって立ちはだかる存在になってしまう、という。

 うちとこの現状。
 NACSIS-CATのCATPフォーマット。
 ヨミのローマ字無し。

 OCLC WorldCatさんが求める標準。
 MARC21。
 ローマ字タイトルが必須。

 ここで注釈をしておかなきゃいけないのですが、うちとこが「OCLC WorldCatに参加した」と言うのは、「NACSIS-CATを辞めた」とイコールでは決してありません。あくまでもいままで通り、総合目録データベースとしてのNACSIS-CATさんとべったりの関係であり、ローカルデータベースもOPACもまったくこれまで通りのフォーマットでありながら、データだけコピーしてOCLC WorldCat”にも”入れる、というだけの話になります。本事業の目的は「海外ILL受付」と「目録の国際的な可視化・アクセス可能化」であり、要は「大舞台上で、なんとなくヒットしてくれりゃ、それでいい」と言っちゃえるわけです。目録データベースMARC21に大変身SP、とか、図書館システムOCLCに鞍替えSP、とかではないし、ましてやうちとこの目録担当者が日々OCLCにデータを登録するというようなこともまったくしません。
 だから例えばですが、初年度に数十万件を一括登録したあと、後年の差分については年一回まとめて差分だけ追加、というやり方をとることにしました。タイムラグもしゃあなし、リアルタイムというわけではありません。一括登録の時だけ背伸びして届く関係でいい、と。

 なので、あくまでうちとこのデータはNACSIS-CATに登録済みのCATPフォーマットで、それをMARC21に変換してから、WorldCatに投入しなければならない。
 で、この変換作業をOCLCの欧州サイド(EMEA)にまるごとお願いするということになりました。EMEAのほうでCATP→MARC21変換プログラムを開発しはった、と聞いてます。もちろんその変換仕様はNIIさんが提示してるの(https://www.nii.ac.jp/CAT-ILL/about/infocat/z3950/m21_b.html)の準拠です。
 そう、だからOCLCにはもうすでに成功したCATP→MARC21変換プログラムがある、ということですから、日本のほかの大学図書館さんもこれを同じように使えるんですよ、ていう話です。これがたぶん一番大事。


●伝わらない言葉たちをローマ字にのせて

 次にヨミのローマ字化です。
 これについてはNACSIS-CATさんはすごく都合の良いことに、すべてのタイトル・責任表示のヨミ(カタカナ)を分かち書きして入力することになってますね。だからこれをわりと素直にそのままローマ字化すれば、(いわゆるALA翻字のルールにものすごく厳密にしたがったわけじゃないにもしろ)だいたい問題ない。
 これってわりとシリアスな話で、NACSIS-CATじゃない公共図書館さんとか別カテゴリの専門機関さんとかだとヨミが無いとか分かち書きじゃないとかがあったりして、するっとローマ字変換というわけにはいかなかったりしますね。大学図書館であっても、図書館目録じゃないデジタルアーカイブ系とかのメタデータがヨミや分かちが無かったりするパターンもあって、じゃあ辞書を噛ませて処理するとかいうひと手間になるのかしら、ていう感じです。
 なお、ローマ字変換作業自体はEMEAさんがやったのですが、ローマ字変換規則の設定は紀伊國屋さんのほうから提供されました。このローマ字変換については、これまでも紀伊國屋さんが早稲田さんなりどこそこさんなりのを長年やってきた実績があるらしく、そういうチューニングができているという感じのようです。

 さて、ヨミのローマ字が理由の大きなひとつは「海外の日本研究ユーザが使えるように」なわけですが、もうひとつの大きな理由に「既存書誌とのマッチングをする」というのがあります。
 WorldCatは、書誌共有するタイプの総合目録ですから、うちとこの目録データを無条件で全部流し込むなんてことは、もちろんしません。いったんWorldCat内を検索して、すでに同じ書誌があればそこに所蔵情報を付ける。同じ書誌がまだ無いと判定されれば、うちとこ由来の新規書誌を登録する。「あれば使う、なければ作る」です。
 その有る無し判定のマッチングに使われるメインのデータが、タイトル(245フィールド)とISBNであり、既存書誌のメインタイトルは日本語資料だろうがアルファベット記述されているので、マッチングという第1段階の作業のためにはうちとこの全書誌にローマ字ヨミが必要、ということになるわけです。

 それからさらに、目録の記述自体を英語化してなくていいのか?問題があるかと思います。つまり、いくらタイトルだ何だがアルファベットで記述されていようが、注記だの件名標目だのといった目録記述自体はべったり日本語のままなわけだし。もっと言うと、その目録記述はNCR(日本目録規則)に従って書いてるわけですから、そんなのをAACR2の世界に投入しちゃっていいのかと。
 それについては、OCLC WorldCatさんは「EnglishレコードとJapaneseレコードは別物」制度をとっておられます。つまり同じ資料について、北米のカタロガーが作成した、AACR2準拠の、英語で記述された書誌レコードがある、という一方で別途、日本由来の、NCR準拠で書かれた、日本語記述の書誌レコードがある。両者はマッチングされることなく、「言語がみんなちがって、みんな良い」ということになってるそうです、WorldCatさんの世界の中では。
 うん、まあWorldCatの対象館を全世界に拡大しようとすると、そうせざるを得ないんだろうなというのはわかります。その措置がなかったらどうなるかと言うと、うちとこ由来の日本語書誌が先にWorldCatに登録された場合、あとから北米カタロギング館がマッチングする→いちいち英語&AACR2に書き換える、みたいなことをすることになっちゃう。あるいは、先に英語&AACR2の書誌レコードがあるのに、あとからうちとこがそれを日本風に書き換えちゃう、ということが起こってしまうかもしれない、そっちのほうが相当おそろしいという感じはしますね。(細かい話になりますが、例えば早稲田さんが先に登録した日本語書誌に、うちとこの書誌がマッチングした時、うちとこの書誌だけにあるデータ(注記とか件名標目が多かったり)を追加で書き込む、という方針もあるにはあるらしいのですが、うちとこはそれを採用しませんでした。先にある書誌に、何も逆らうことなくただ所蔵をつける、ていう)


●重なり合う書誌と書誌

 以上のあれこれをふまえて、実際の作業はこんなふうに進められます。
 (念のため再度、うちとこはカタロギング参加館ではなく、データをOCLCさんに提供しているだけ、というあれです)

-----------------------------------------------------
 《ここからうちとこ》
 NIIから、CAT-Pフォーマットの書誌レコード全件(30万件)を入手する。(「NII「個別版ファイル」と呼ばれるもの)
 ↓
 《ここからOCLC(EMEA)》
 CAT-Pフォーマットのファイルを、MARC21フォーマットのファイルに変換する。
 ↓
 ヨミのあるすべてのフィールドに、ローマ字ヨミを自動生成して、書誌レコードに付与する。
 ↓
 うちとこの書誌とWorldCatの既存書誌とのマッチング作業をする。
 既存書誌があれば所蔵のみを登録し、無ければ書誌と所蔵を登録する。
 ↓
 《ここからうちとこ》
 MARC21ファイルからローマ字ヨミとOCLC番号を抽出して、うちとこのローカルデータベースの書誌に付与する。
-----------------------------------------------------

 あらためて見ると、やっぱりだいぶ丸投げでしたね。
 なお、この時点でうちとこの所蔵件数は55万点程度でしたが、書誌件数にすると30万件程度です。
 また30万件には日本語以外の外国語資料も含みますし、貸出対象ではない貴重書やデジタルメディア等も含みます。そこはケチってセレクトする必要はあえてなく、発信という意味では全部載せでいいだろう、と。(実際、日本語以外の資料にもILLリクエストは来たりしてます)

 で、初年度の一括登録の結果。

2020-02-26_05h57_27.png
(荒木のりこ他. 「国際日本文化研究センターにおける目録・ILLの海外対応 : OCLC WorldCat・WorldShare ILLによる新サービスと課題」. 『大学図書館研究』. 2019, 112. https://doi.org/10.20722/jcul.2042 より引用)

 書誌約30万件のうち、1件のエラーをのぞくほぼすべてを登録。
 なお30万書誌のうち、既存書誌が約13万で、新規書誌が約17万でした。

 注、ですが、新規書誌約17万件とは言えども、ほんまにすべてが”初出”なのかというとどうやらそうやすやすとは行かなさそうです。English書誌がすでにある資料で、同一のはずなんだけど、個別にJapanese書誌として登録されてる、という例もまあまあ多いっぽい感じで、なんだろう、ALA翻字形とか数字英字の解釈とか分かち書きとか巻号表記とかそういうことなのかなあ、このへんはworldcat.orgのFRBR機能あるしなあ的な感じで、あまりちゃんと検証はしてないです。…ただし、それがILL実務ではわりと困ることになってる。
 あと、もし細かい間違いなんかがあったとしても、再三言うようにうちとこはカタロギング参加館ではないため、自力でそれを修正するということができないので、そのもどかしさはあるかな、とは思います。

 それ以外のことについては、まあ細かい間違いやトラブルがあったかなというくらいで、全体に影響するような致命的なつまづきなんかはなく、当初の目的通りの「なんとなくヒットしてくれりゃいい」レベルな意味では、満足に成功、というありがたさでした。
 それで、うちとこのOPACにもローマ字は入るし、それどころか対応するOCLC番号まで入れられて、だからworldcat.orgからうちとこのOPACへopenurlでリンク付いてくれてるんですよ、ずいぶん得したな、という感じはします、よかったねえ。いまどきは、よそさんとリンクリンクでなんぼ、ってところあるからねえ。

 というのが2017年春頃から検討して、2018年1月に登録完了、というののおおまかな経緯です。
 で、これをふまえていよいよ本丸の、ILL受付実施、になります。
posted by egamiday3 at 05:59| 日記 | このブログの読者になる | 更新情報をチェックする
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。