研究ブログ

2010/04/04

CiNii著者検索とコップの中の小さな革命

Tweet ThisSend to Facebook | by i2k
2010年4月1日にCiNiiがバージョンアップしました。昨年4月のリニューアル以来、1年ぶりの機能強化です。といっても、CiNiiの基本的な機能や見た目にはほとんど変化はなく、新たに「著者検索」という機能がついたのが今回の目玉です。検索ボックスの赤いタブがそれです。


CiNiiのデータベースに入っている著者名にIDを振って、その著者IDで検索できるようになった、ということなのですが、言うは易く行うは難しで、やろうと思ってから実現するまで1年がかりの大仕事でした。

中身の説明については上記リンクに任せるとして、ここではCiNii著者検索をなぜやろうと思ったのか、どういう意義があるのかという話を個人的な観点から書いてみようと思います。それは、端的に言えば「学術情報サービスの根幹であるデータの作成に機械処理とユーザ参加の仕組みを入れること」です。

CiNiiにせよその他の学術情報サービスにせよ、データは学会・出版社・図書館・大学など、ある種のオーソライズされた組織によって「人手で」作られてきました。この作業がどれほど大変で、誰がその役割を担ってきたのかについては適切に評価されなければなりませんし、いつか書きたいと思うのですが、その話は置いておいて、そうして作られた何百万、何千万というデータに対し、IDを振る作業を再び人手で行うことは現実的に不可能です。

そこで、今回の著者検索では、コンピュータによる自動処理と、ユーザからのフィードバックによって、できるだけ精度が高く、かつコストパフォーマンスのよいシステムの実現を目指しました。

とはいえ、すべて人手で作るのが当たり前の世界において、機械処理やユーザ参加は本質的に「いい加減」なものであり、どれだけ工夫をこらしても同等の信頼性を得ることはできないでしょう。現状の著者検索の精度を含め、さまざまな面でご批判を受けることになるだろうと覚悟しています。

それでもこのようなシステムを作るのは、遅かれ早かれ学術情報サービスのデータは組織による入力・機械処理・ユーザ参加の組み合わせによって作られることになるだろうという見通しと、情報にせよ人物にせよ網羅性の高いIDを持つことが死活的に重要になるだろうという読みに基づいています。とくにIDは、外部のサービスと密に連携するためになくてはならない存在であることは間違いありません。

また、これはいささか内向きな理由に見えてしまうかもしれませんが、国立情報学研究所が(あるいはぼくが)なぜCiNiiを運営しなければならないのか、という問への回答でもあります。研究機関であると同時にサービス提供者であるNIIでしか実現できないことが可能になってはじめて存在意義が生まれます。もちろん自己満足になってはいけませんが、今回は著者IDという明確な目標を立てることで、研究成果とサービスを一体化できたのではないかと考えています。

まだ新機能のリリースから3日目です。今後どういった評価を受けることになるかはわかりません。幸いなことに、フィードバックを300件近くいただいております。まずはこれらのフィードバックを速やかに反映し、よりよいサービスの実現に邁進していく所存です。

14:20 | 投票する | 投票数(4) | コメント(0)
2009/07/13

CiNiiの中の人日記 - 7

Tweet ThisSend to Facebook | by i2k
この日記(というか昔話)を書くにあたって、昔の資料やメールを
漁っているのですが、忘れていた話が出てくること出てくること。
人間の記憶はいい加減なもので、しかも美化して覚えてたりするので、
この日記も話半分でお読みいただければ…。

で、忘れていた話です。これはぼくが担当していたわけではないので、
詳しいことは知らないのですが、お役所の割に(?)やるなあと
思ったことが2つあって、それは業務プロセスの分析にコンサルを
入れたことと、ユーザビリティテストを行ったことです。

前者はCiNiiというかCiNiiの元データを作るためのシステムで、
ここは各学会・大学など登場人物が多いのでワークフローは相当複雑な
ことになっています。そして世の中の大半のシステムと同じように
増築が繰り返されているので、もはや誰にも全体像がわからなく
なってしまったようです。それを外部のコンサルに分析してもらって
システムの構造を明文化してもらうのがこの案件でした。
どうも本来は分析だけでなく新システムの設計までするらしいと
聞いていたのですが、ひとまず分析のところでストップし、
ものすごく分厚い報告書が上がってきました。

当時は「複雑なんだなあ」と人ごとのようにパラパラめくって
眺めるくらいだったのですが、これがあとの新CiNiiの設計時に
強力な武器となりました。というか、これがないと何も意思決定
できないくらいの存在でした。

ちなみに、いまにして思えば設計まで行かなかった理由が推測
できます。誤解を恐れずに言えば、コンサルは一緒に考えてくれる
人であって、考えるのを肩代わりしてくれる人ではない思うのです。
分析はともかく、設計はどれくらい考えられるかの勝負なので、
そこは他人には頼めなかったのだと思いますし、新CiNiiでもそこは
人に任せるつもりは毛頭ありませんでした。

さてもう1つのユーザビリティテストですが、こちらも専門家を呼んで
みっちりやりました。初心者がどの部分で行き詰まるのかを観察したり、
研究者ではどうなるのかを見てみたり、相当な手間とコストがかかっています。
もともとのシステムがユーザビリティをあまり意識していないのに、
こういう本気のテストをかけると相当ひどい結果が出るだろうな…
と思っていたら、案の定こちらもすごい分量のレポートが返ってきました。
CiNiiリニューアルで作り直した書誌パーマリンクも、
PDFのリンクがどこにあるのかわからないなど、ひどい評価でした。

このレポートは関係者一同にとって大きなショックでした。
システム構成が複雑なのは自分たちでもわかっているので
それを指摘されるのは織り込み済みだったのですが、
ユーザビリティについてはまったく意識していない部分に大量の
ツッコミが入ったこともあってインパクトが大きかったのです。
おかげで、その後はイヤでもユーザビリティを意識するようになり、
この部分で褒められるにはどうしたらいいかを考えた結果、
新CiNiiでは褒めてくれる人を最初に味方につける、という新しい
設計手法を採用することになりました。

調査・分析は間接的な作業ゆえに、ここにコストをかけるのは
お役所的にはなかなか難しいのですが、これがあったからこそ
いまのCiNiiがあるのもまた確かです。
国のお金を使う以上、安くていいものを作るのは至上命題ですが、
そのために間接コストをどこまで入れるべきかについて、
もう少し方法論を固めていきたいところです。

02:35 | 投票する | 投票数(4) | コメント(0)
2009/06/27

CiNiiの中の人日記 - 6

Tweet ThisSend to Facebook | by i2k
2006年4月になり、人事異動に驚きつつも、ぼくとCiNiiの関わりは小康状態というか
一段落つきました。ひととおりの意思決定が終わって話が開発モードに切り替わり、
そうすると教員はとくに出番がないのです。
(いま思うとそういう時代もあったのか、という感じですが…)

CiNiiは日々改良・改修が続けられていて、来る書誌公開だけが大事というわけでは
ないので、実際のリニューアル時期は年度の後半に設定されました。
それまではGoogleと連絡を取り合いながら、どのようにクロールしてもらうかを
議論したり(これはこれで負荷の問題や網羅性の保証をどうするかなど、
いろいろあります)、そもそもの公開範囲を決めるなどの作業に関わりました。

あと重要だったのが書誌パーマリンクのURIを決めたことです。これまで
システム用に振っていた論文IDをNAID(NII Article ID)と名付けて
表舞台に引っ張り上げました。そして、URIはいまとなってはおなじみの
http://ci.nii.ac.jp/naid/1234567890というすっきりしたものにしました。

それまでのURIは?や&や=だらけの記号列で、コピペもしにくいし、
致命的なのは変数を並び替えることで1つのページに複数のURIができてしまう
ことでした。そうするとソーシャルブックマークのようにたくさんの人が
同じページを指しても実は違うURIだった、という事態が生じます。
これは最終的にはSEOにつながっていくのですが、その時点では
みんながSEOに興味があったわけではなく、意義が理解されていたかどうかは
わかりません。URIのすっきり化は、コスト的にそれなりにかかる改修だったと
思いますが、ひたすら主張した甲斐があったのか、仕様に入れてもらうことが
できました。

その時点でぼく自身がどこまで考えていたかは定かではないですが、
NAIDを表に持ってきたのは結果的によかったと思っています。
サービスが誰でも作れるようになってきた時代に、データプロバイダーとして
唯一無二の宝物と呼べるものはID体系しかないのではと考えるようになりました。

幸か不幸か究極のIDというのは存在しません。いくつかのID体系が競争しながら
なるべく多くの論文なり書籍なりをカバーしようとがんばっているのですが、
NAIDはそれなりに存在感のあるIDに育ったのではないかと思います。
最初の頃はDOIがないとだめなんじゃないかとかいろいろ検討していましたが、
いまとなってはNIIはNAIDを大切にしていくのがコストパフォーマンス的にも
一番いいのではないかと思っています。
(もちろんDOI等を否定しているのではありませんが…)

そんなこんなで時は流れて2006年が終わろうとする頃に、
書誌パーマリンクの一般公開を含むCiNiiのリニューアル版がリリースされました。
下っ端が横から口をはさんだことが多少なりとも実際のシステムに反映されていて、
このときは本当に感無量でした。実際の開発がどのように行われていたのかは
まったく知りませんでしたが、さぞかし関係者の方々は大変だったと思います。

その後Googleのクロールも始まって、そのうち実用的な連携の姿が見えるように
なるだろう、そうしたら1年ちょっとの事業に対するお勤めも終わりかなあと、
のんびりと構えていたのですが、そうは問屋が卸さない、というか
まだスタートですらないことがわかったのはもう少し後のことでした。

03:24 | 投票する | 投票数(3) | コメント(0)
2009/06/22

CiNiiの中の人日記 - 5

Tweet ThisSend to Facebook | by i2k
黒船Googleがやってきて、NIIは一部にせよ何にせよ、開国の方針を決めました。
それから2006年3月にかけて、急ピッチでいろんな作業が始まりました。

ひとつは書誌詳細ページ(のちの書誌パーマリンク)のデザインです。
これは現状の見た目があまりにもデータベース然としていて
(属性と値の組がひたすら羅列されている)、専門家はいいけど
一般ユーザはまったく分からないので何とかすべきだ、とうるさく主張していたら
自分の仕事になりました。このときちょっとだけ予算をもらったのですが、
いま思うと見た目のためにお金を使うという、お堅い学術情報システムとしては
珍しい例だったかもしれません。(すでにあったらすいません)

もうひとつは、開国に際してものすごく重要なことだったと思うのですが、
「CiNiiとは何ぞや」ということを職員と教員が顔をつきあわせて議論したことでした。
CiNiiの前身であるTOOL-IRやNACSIS-IRを担当されていた職員の方々、
先生方にとっては自明のことだったかもしれませんが、遅れてやってきた
自分のような人間からすると「CiNiiはすでにそこにあるもの」でしかないので
現状を無批判に受け入れるとか、何かを変えるにしても恣意的になりがちです。

この議論では、いまのCiNiiがどういうものかということをとりあえず脇に置いて、
どんなサービスであるべきかを理想論で考えることを目的としていました。
KJ法を試してみたり、昔の資料を引っ張り出して当時の原理原則を確認したり、
研究者的には普段やらないようなことばかりでいい刺激になりました。
何より重要だったのは、いまの担当者が話し合って考えることでCiNiiを
自分たちの問題として捉えるようになったことと、職員と教員が対等な
立場で協力しながら議論を進めたことです。

前にも書いたように、NIIではある種の分業体制ができているのですが、
この議論はそれを明らかに打ち破った形で行われました。
ぼくとしても、ここではじめて職員の方々の論理とか、何が大事だと
考えているのかということを知りました。最初は見知らぬ世界で
ただ面白いなあと思っていただけですが、のちのちCiNiiの再設計フェーズに
入っていったときには、お互いを理解しておいて本当によかったと
心から思いました。その話はまた後日にでも。

さて、この議論を通じて、CiNiiのあるべき姿は5つぐらいのパターンに
絞られました。例えば「日本人の論文を網羅する」とか「日本語の論文を
網羅する」あるいは「日本人が論文を探すための支援をする」という
感じです。そのどれもが似て非なる形というか、論文を集めるにしても
どこに力点を置くかが微妙に変わるであろうというモデル達です。
実のところ、2009年現在でもこのうちのどれを選択するかは
決まっていません。が、今後も議論を繰り返しながら、また外の世界の
状況を考えながら最終的に収斂されていくのだと思います。

デザイン作業の方は年度末で一段落し、2006年4月を迎えたのですが、
突然というか何というか人事異動で職員側のCiNii担当者が変わりました。
少なくともぼくにとっては青天の霹靂で、こういうところにも
職員と教員の違いがあるのだなあということを初めて知ったのが印象深いです。

03:02 | 投票する | 投票数(3) | コメント(0)
2009/06/14

CiNiiの中の人日記 - 番外編

Tweet ThisSend to Facebook | by i2k
昔話からちょっと離れて、12日はCiNiiのワークショップがありました。
事前の募集であっさりと定員を超えてしまい、締め切らないといけなかったようで、
多くの方に関心を持っていただけるのをうれしく思うのと同時に、
責任をひしひしと感じた次第です。

ワークショップでの講演内容や議論の内容は、
「かたつむりは電子図書館の夢をみるか」にて事細かにレポートされています。
いつもありがとうございます!

全体の印象としては、やはりこういう活動なりサービスは多くの視線に
晒されることによってのみ鍛え上げられるのだなあ、ということです。
おかげさまで、1年前には考えられなかったほど、CiNiiは強く育ちました。
そして、これからも同じように見ていただいたり参加していただくことで、
もっとたくましくなっていくのだと思います。

個人的には、会場の盛り上がりもあって、「自分がやることのハードルを
上げてしまったなあ…」という発言をたくさんしてしまいましたが、
これも何かの縁(?)ということで改めて目標を高く設定しなおして、
開発を進めたいと思います。

ということで、まだ興奮冷めやらぬといったところなのですが、
ワークショップの間、そしてその後にいろいろ考えているうちに、
ずっともやもやしていた「自分なりのビジョン」が少し形になってきた
気がするので、それをいまのうちに書き留めておこうと思います。

それは「学術のウェブをつくる」という言葉に尽きます。

ぼくがCiNiiでやってきたこと、例えば書誌の完全公開やOpenSearch・RDFの
公開は、すべて「学術のウェブ」を実現するためのものでした。
(と、今日からはこのように説明することにします…)
そして、これからCiNiiの改良やその他のサービスを作るときには、
それが「学術のウェブ」のためであるかどうかで判断したいと思っています。

その究極の形は「論文検索サービス」や「ウェブ時代の電子図書館」とは
似て非なるもの、あるいは全然違うものになるのかもしれません。

当然のことながら、この考え方には異論・反論があるかと思います。
NIIの来歴、現状のCiNiiの位置づけや運営モデル、等々にそぐわない
部分があるかもしれません。
けれども、ぼく自身はこういう考えのもとでCiNiiに関わっているということを
明示しておくことで、今後起こるであろう議論の土台にしたいと思います。

いまのところ「学術のウェブ」はただの言葉・イメージであって、
何らかの具体的な姿があるわけではありません。
一緒に煮詰めていただける方を募るとともに、立場の異なる方と
議論させていただきたいと思っています。

それでは、今後ともよろしくお願いいたします。

03:59 | 投票する | 投票数(1) | コメント(0)
2009/06/07

CiNiiの中の人日記 - 4

Tweet ThisSend to Facebook | by i2k
GoogleからNIIに連絡が来たのは、たしか2005年の後半だったと思います。
コンテンツサービス事業に関わって間もない下っ端の目から見ても、
これが「黒船来る」というのはよくわかりました。

Googleの依頼は、CiNii収録の論文をGoogle Scholarで検索できるように、
データ(=論文のメタデータと本文)を提供してほしいということでした。
この時点では、Google Scholarは英語版だけがあって日本語版は
存在していなかったので、いつ出るのだろうと噂されていたところでした。
そういう状況で、正面玄関から(?)やってくるGoogleに「さすが」と
思ったのと、「ついに来たか」という思いがありました。

2005年の時点では、CiNiiのメタデータ・本文にアクセスできるのは
有料ユーザのみだったので、その現状を考えれば飲めない話だし、
飲む必要のない話だったと思います。

とはいえ、学術情報サービスの今後を考えるうえでGoogle的なものとの
関係を明確にするのはとても重要なことである、という認識があったことから、
内部での議論が始まりました。

議論の最初の方では百家争鳴というか、やはりデータを出すべきではないとか、
反対に全部出しても生き残れるようにすべきとか(ぼくが言いそうなことですが)、
いろんな可能性が提示されました。その中で、いくつか実現できそうなプランに
収斂されていき、最終的な決定をする時期に近づいてきました。

そのころ、ぼくは内部の会議に出すためのA4一枚の資料を作りました。
自分では「檄文」と呼んでいるのですが、この資料ではCiNiiと外部システムとの
連携方法について、
・メタデータを完全公開して検索エンジンのターゲットにしてもらうこと、
・検索エンジンからのアクセスも最終的にはCiNiiにたどり着くので本質的に問題ないと思われること、
・こういったアクセスを外に逃がさないような仕組みを作ること、
などなど、いまのCiNiiの基本構造に通じる議論をしています。

なんでこんな資料を作ったのかについては記憶があやふやで、
保守的な結論に傾きそうな気配を感じたのか、
単に夜中でテンションが高かったのか(これは確実)、
よく覚えていません。惜しむらくはこの檄文のファイルが
自分のPCのどこを探しても見つからないことで、
もしかすると偽りの記憶だったのかと思うことすらあります…。

それはそうと、檄文を会議に出したあと、しばらくたって最終的な結論が
出ました。その結論は、Google Scholarに論文データが掲載されるように
CiNiiのシステム・サービスを一部改良するという画期的なものでした。

正直なところ、この檄文がどういう影響を与えたのかはまったくわかりません。
別に誰かに頼まれて作ったわけではないし、また今思えば何も知らない
新米にありがちなナイーブな意見だし、まともに取り合ってもらえなくても
まあ当然というところです。上層部ではすでに既定路線だったのかも
しれませんし…絵文字:笑顔

ところがというか何というか、CiNiiを改良するという結論には、その作業に
ぼくが主体的に関わるべしというおまけがついていました。
それまでは会議の隅っこで話を聞くばかりだったのですが、はじめて事業に
直接タッチすることになったのです。

それが2006年が明けてすぐの出来事でした。

02:37 | 投票する | 投票数(4) | コメント(0)
2009/05/31

CiNiiの中の人日記 - 3

Tweet ThisSend to Facebook | by i2k
今回のCiNii全面リニューアルに関わることになったのは、
その前のCiNii一部リニューアル(2006年12月〜2007年4月)に関わって、
そのまま続きをやることになった、という単純な理由なのですが、
ではCiNii一部リニューアルに関わったのはなぜかというと、長い経緯があります。

NIIには研究機関としての顔と、東大→NACSIS→NIIと名前を変えながら
続いてきた研究インフラ管理・提供組織としての顔があります。
この2つの顔について、前者は教員が受け持ち、後者(事業と呼んだりします)は
職員が受け持つということになっています。
研究を教員がやるというのは大学と同じでまあ当然ですが、事業の方は、
初期の何もなかった時代には教員・職員が一丸となって取り組んでいたものの、
システムがある程度できあがってきたらあとは運用が大事ということで
もっぱら職員が担当するということになりました。

こういう分業体制の確立は必然というか、研究にせよ事業にせよそれぞれの
専門家がそれそれの分野に責任を持って関わるというのは適材適所で効率がよいし、
何ら問題ないと思います。
そして、分業体制ができたあとに入ってきたぼくのような人間は、
事業にはタッチせず研究教育のみを行うというのがひとつのパターンになりました。
(そうでない人もたくさんいます)

分業がうまくいくのは、研究も事業もほどよくクローズドな分野で、
他からの影響を受けにくい構造になっているからなのですが、
ここ数年で外部環境が大きく変化して、学術情報の世界でも何か変わらないと
いけないのでは、という雰囲気があります。

雰囲気だけならゆっくり考える、という対応ができるのですが、
ある時、唐突かつ早急にNIIが選択を迫られるという出来事がありました。
それをもたらしたのはやっぱりというか何というか、Googleでした。

00:00 | 投票する | 投票数(0) | コメント(0)
2009/05/27

CiNiiの中の人日記 - 2

Tweet ThisSend to Facebook | by i2k
そもそもCiNiiというのは何ぞや、という話を始めると長くなるのですが、
(それこそ本の1冊ぐらいは書けるのでは)ざっくり書くと古くは東大の
論文検索TOOL-IRを起源として、それをNIIの前身NACSISが受け継いで
NACSIS-IRになり、これと電子図書館サービスNACSIS-ELSとくっつけて
ウェブのUIをつけたもの、という理解になると思います。

↑リンクのURIに隠し機能(?)を使っています

初代CiNiiは2005年リリースですが、TOOL-IRから数えればすでに30年近い
歴史があって、駆け出し研究者(といってももう勤続5年ですが…)が
関わるには手に余るというのが正直なところです。なにしろ先達が偉大すぎる。

そんな中で、図書館情報学を学んできたわけでもないぼくが
どういう経緯で関わることになって、何をしたのかについて
次回以降で書いていきたいと思います。

余談ですが、先日TOOL-IRを管理していた部署が発行していた当時の
ニュースレターを見せてもらう機会があったのですが、そこには
「TOOL-IRが多くの人に使われるようになって負荷対策が大変だ」と
書かれていました。それから幾星霜、いまもまったく同じ問題で
悩み続けています…。

00:00 | 投票する | 投票数(0) | コメント(0)
2009/05/26

CiNiiの中の人日記 - 1

Tweet ThisSend to Facebook | by i2k
2009年4月1日に新しいCiNiiがリリースされて、はや50日がたちました。
いまのところ大きなトラブルはなく(水面下ではいろいろありますが絵文字:笑顔)、
まあ安定運用できているのではないかと思います。


この新CiNii(もう現CiNiiですが)、自分にとっては2年以上、
その前段も含れば3年に渡って文字通り心血を注いだ一大プロジェクトでした。
この間に学んだことは本当に多くて、学術情報の世界、そして歴史の重みを
垣間見ることができたのは大きな収穫です。
そしていま目の前にある課題も。

CiNiiについてやるべきことはまだまだいっぱいあり、今もその真っ最中では
ありますが、一区切りついたこともあって、これまでの経緯を
まとめてみようと思います。何か目的があってということはありませんが、
次のCiNiiを作る誰かのお役に立てればいいかなあと。(結局自分だったりして…)

ついでに、Researchmapというセミオープン・セミクローズドな環境で
どう活動していくか練習をしようという魂胆です。

それでは、はじまり、はじまり。

※いちおうおことわりというか言い訳ですが、この日記で書かれることは
大向一輝という一関係者の私見であり、NIIの公式見解ではないことを
ご了承ください。とくに自分が関わっていない時代の歴史的経緯については
あんまり自信はありません…。

00:00 | 投票する | 投票数(0) | コメント(0)

カウンタ

21065