研究ブログ

研究ブログ

BCCWJ収束宣言

BCCWJこと『現代日本語書き言葉均衡コーパス』のDVD版データが完成した。1億493万語のデータが、2種類のXML文書と形態論情報の表形式データとなって、DVD2枚に圧縮されて格納されている。全部解凍すると67GBほどになる。詳細な書誌情報と160ページのマニュアル付である。これからDVDのプレスを始めるので、1月中には発送をはじめられるだろう。

BCCWJは、今年3月に『少納言』での文字列検索が可能となり、8月からは『中納言』による本格的な形態論情報検索が可能になったが、DVDによる全データの公開が宿題として残されていた。当初は10月末の公開を予定していたが、スタッフに療養者が出たりして遅延してしまった。幸い、こうして何とか収束宣言を出すことができた。そのことに嬉しさよりも、まず安堵感を感じる。DVD版は8月以来、先行予約を受け付けてきたが、すでに50件を超す申し込みがある。その期待にやっと応えることができる安堵感である。先行予約された皆様にはもう少しだけお待ちいただきたい。

0

特定領域研究事後評価

この春に5年間の活動を終了した科研費特定領域研究「日本語コーパス」の事後評価結果が出た。評価結果は「A(研究領域の設定目的に照らして、期待どおりの成果があった)」であった。めでたい結果なのだが、少し考えたことがあったので、ここに記しておく。

今回の評価結果はA+, A, A-, B, C の5段階なので、Aは最上ではない。一方、評価委員会による評語を読むと、研究の問題点は全く指摘されておらず、6つあるすべての観点でプラスの評価を頂戴している(評語はhttp://www.mext.go.jp/a_menu/shinkou/hojyo/chukan-jigohyouka/1316703.htm
参照)。それではどうしてA+にならなかったのだろうか。過去の例を検討するために、文科省のHPに公開されている昨年度の評価結果を調べてみた(http://www.mext.go.jp/a_menu/shinkou/hojyo/chukan-jigohyouka/1301130.htm)。

平成22年度は42プロジェクトが事後評価を受けた。成績の分布はA+が6プロジェクト、Aが32プロジェクトで、Bが4プロジェクトである。このうちA+評価を得たプロジェクトの評語を読むと、新しい研究領域の開拓に貢献したプロジェクト、あるいは「著名な国際学術誌」に論文が多数掲載されたプロジェクトがA+評価を受けているようであった。この分析が正しいならば、たしかに「日本語コーパス」はAにとどまってもしかたがない。「日本語コーパス」は基本的にはコーパス言語学の先進国へのキャッチアップを目標としたプロジェクトであったし、研究成果のなかで査読論文192編を公開したものの、大半は日本国内の査読誌だったからである。

ここで気にかかったのは、もし「著名な国際学術誌」がScienceやNatureなどをさしているのであれば、それは人文系・社会系のプロジェクトにとっては(そして工学系、情報系のプロジェクトにとっても)いささか不公平な判定基準だということであるが、これについては、各プロジェクトの成果報告書に目を通してみないことには、憶測に基づいた議論をすることになってしまうので、ここまでとする。

もうひとつ気にかかったのは、昨年度評価対象となった人文系・社会系の4プロジェクトがおしなべてB評価となっていた点である。評語を読むと、これらのプロジェクトでは成果の客観的な指標が明瞭でないこと、ないし領域外へのインパクトが弱いことが問題にされたようだ。「日本語コーパス」は当初から工学系との融合的研究を推進したし、研究成果の一部がApple社のOSに採用されるという社会的インパクトの強い応用成果もあったから、A評価をいただけたのだろうが、このような成果を人文・社会系プロジェクト全般に求めるのは少し酷かもしれないという気がする。

もっとも、一昨年以前にはAをとった人文系プロジェクトも複数あるから、昨年度の結果は偶然なのかもしれない。この問題は今年度の評価結果が公表されれば、もう少しはっきりするだろう。
0

詐欺と文体

1週間ほどまえ、音声研究の先達A先生からスペインで強盗にあって身ぐるみはがれたので2500ユーロ送金してほしいという英文メールが届いた。A先生は私も指導していただいたことがある世界的に著名な研究者である。ご高齢でもあり、本当ならば大変だ。

しかし世界を股にかけて活躍された先生が大使館にもご家族にも連絡せず、私などにメールを送ってくるのはどう考えても異常である。詐欺の可能性が高いとみて、そのままほおっておいた。

今朝になって知人のS氏から連絡があった。
先生からメールを受け取ったがどうしようかという相談だった。これは黒白つけざるをえないなと考えて、A先生の携帯に電話したところ、すぐご本人が出てこられて、詐欺であることが明らかになった。問い合わせの電話が多数かかってきて大変らしい。ひとりだけだが実際に送金してしまったイタリア人がいたそうである。

不謹慎は承知のうえで書くのだが、この事件でひとつ感心したことがある。メールの英語がA先生の文体の特徴をうまく模倣している点である。普通よりも長めの文(1文が平均で22.7語)、meanwhile, probablyといった副詞の多用、predicamentのようなやや高級な語の使用などである。これは私一人の感想ではない。S氏も同じ意見であったし、A先生も何人かからそう言われたとおっしゃっていた。犯人がこのメールをどうやって作成したかは知りようがないが、意図的にA先生の文体を模倣していることは間違いない。どう考えてもおかしなメールにひっかかる人が出たのは、この文体の類似を抜きにしては考えにくい。

思うに、文体がうまく模倣されていれば、詐欺の成功率は想像以上に高いのかもしれない。模倣メール1本書くのに1日かかったとしても、書いてさえしまえば、PCをハックして盗みだしたアドレス帳に登録されている何百人かの宛先に送りつけるのは造作もないことである。それで今回のように30万円ほどを手にできるならば、生業として決して捨てたものではない。

文体論は応用価
値に乏しい研究だと思っていたが、どうやらそうでもなくなったようである。そのうち文体模倣の自然言語処理技術でも開発されたら大変なことになりそうだ。


0

『現代日本語書き言葉均衡コーパス』の公開

『現代日本語書き言葉均衡コーパス』(BCCWJ)のオンライン公開を開始します。ウェブアプリケーション「中納言」によるオンライン検索です。短単位検索、長単位検索、文字列検索の三通りの方法で1億語を超えるデータが検索できます。もともと有償での公開を想定していましたが、まだシステムが安定していないので、当面無償で公開します。

利用にあたっては書面による申請が必要です。下記で「利用申請」ボタンをクリックすると、利用条件が示されますので、熟読のうえ、利用申請を行ってください。 http://chunagon.ninjal.ac.jp
有償化の時期は未定ですが、その際は、あらためて契約をかわしていただくことになります。また、従来から公開してきているデモンストレーション用全文検索サイトは「少納言」と名前をかえたうえで、従来通りの機能を無償で提供しています。http://www.kotonoha.gr.jp/shonagon/

『現代日本語書き言葉均衡コーパス』データ全体のDVDによる公開は10月以降、年内を予定しています。こちらは有償での公開となります。詳しい情報は後日お知らせします。
0

科研費採択通知

連休の終わりちかくになって科研費基盤(C)などの採択通知が届いた。あわせて「基金化」のメリットについても学術振興会のホームページに説明が掲載された(http://www.jsps.go.jp/j-grantsinaid/index.html)。
 ここで内容をくりかえすことはしないけれども、一言感想を述べると、会計年度の壁がとりはらわれたのは科研費の運用面での大きな改善だと思う。この制度改善にかかわった関係者に感謝するとともに、今後、より大きなカテゴリの科研費補助金にもこの改善が及ぶことを期待する。
 科研費はこの十数年で本当に使いやすくなってきた。今回の改善で科研費に残された問題点はいよいよ研究者への給与支払いぐらいになってきた。
0

科研費採択通知の遅延

 4月は多くの研究者にとって喜怒哀楽の月である。文科省と日本学術振興会による科学研究費配分の内定がでる月だからである。申請が通れば一安心だが、落されたなら、それなりの対策を講じなければならない。
 今、その科研費に困った事態が生じている。文科省直轄の大型プロジェクトと学術振興会担当分のなかでは研究規模が大きい基盤(A),(B)には内定が出たが、件数としては圧倒的に多いはずの基盤(C)や若手研究者対象の若手(B)の内定通知が遅れている。研究費がくるのかこないのかわからず、蛇の生殺し状態である。
 学術振興会のHPをのぞくと「基金化の制度改正を行うための法律案(「独立行政法人日本学術振興会法の一部を改正する法律案」)が現在国会に提出されているため」という説明がある。この法律についての解説は文科省のHPに見つかるが(http://www.mext.go.jp/b_menu/houan/an/171/1263075.htm)、私のような法律オンチには、なぜこれで基盤(C)などの内定通知が遅れるのかは理解できなかった。
 ともかく政治の混乱がまた科学の現場を混乱させている。今は大震災でてんやわんやなのはわかるが、そもそも3.11以前に審議を終えておいてほしかった。このままいつまでも内定が出ないと、今度は日本の科学技術・学術研究に災いがおよぶことになる。
 文教族の先生方にお願いしたい。超党派で法律を通すための活動をすぐに始めていただきたい。日本学術会議あたりも何か発言してしかるべきではないか(金澤先生、よろしくお願いします)。
0

『現代日本語書き言葉均衡コーパス』

この5年間、開発を続けてきた『現代日本語書き言葉均衡コーパス』の全データ(1億480万語)が全文検索できるようになった。以下のURLでお試しいただきたい。
http://www.kotonoha.gr.jp/demo/



このサイトはデモ用サイトなので、多数のヒットがあった場合、ランダムに選んだ500件だけを表示するようになっている。また文字列検索時に正規表現も使えない(検索結果の絞り込みには利用できる)。これでは研究には使えないという方は今年の夏まで待っていただきたい。形態素解析済データをウェブ上で検索可能にする予定である。またデータそのものをDVD-ROMで公開する予定もある(こちらは有償とさせていただく予定)。

ちなみに7年前に公開した『日本語話し言葉コーパス』についてのインタビューが、最近、このresearch mapに掲載された。興味のある方はこちらもどうぞ。
http://researchmap.jp/article/tsunagaru/201103/
0

梅棹忠夫

 梅棹忠夫氏の自伝(『行為と妄想』中公文庫)を読んだら著作目録の項目総数が5000件とあって腰をぬかした。これは自伝執筆時(1996年)の数字で約50年間の成果らしいから、1年あたり100件、3日から4日に1篇は長短何らかの原稿を書きあげて発表していることになる。気がひけるが一応参考のために書くと、私は卒業論文以来の著作歴が30年ちょっとで業績リストが300件ちょっとだから、ちょうど10分の1のペースである。
 ところで梅棹氏は国立民族学博物館長だったときに研究所員が発表した論文のページ数で年棒を割ってもとめた1ページあたりの生産単価を発表して物議をかもしたことがあった。私は職場の将来計画委員会の下っ端委員になって業績評価の問題を担当していたときにこのことを知った。たしか同僚のA澤氏から雑談のなかで教えてもらったのだった。こりゃあいいやと思い、半分嫌がらせのつもりで、こんな方法はどうでしょうかと委員会で発言したら、予想どおりまともにとりあってもらえなかった記憶がある。
 しかし、著作目録5000件という事実を知ったうえでいま再考してみると、いったい梅棹氏はどの程度の「単価」を適切と考えていたのか空恐ろしく感じる。こういうトップの下で研究するのは大変なプレッシャーにちがいない。しかし民博がしっかりした学問的基盤のうえにジャーナリスティックなセンスもそなえた研究者を少なからず輩出したのはやはりこういう人が上に座っていたからなのだろう。

 

0

/b, d, g/

少し前に日本語の/z/の変異について書いたが、そこで紹介した研究の続報にあたる論文が日本音声学会の「音声研究」に掲載された。/z/が破擦音になるか摩擦音になるかは、子音の調音時に声道に一時的な閉鎖が形成されるかどうかの変異だが、これと同じ調音運動のゆれが有声破裂音である/b, d, g/にも観察される。バの閉鎖が弱化してブァのように発音されたり(IPAで書けば[β]の音)、ダの子音が弱化して英語のtheの子音のように発音されたりする変異である。こうして文字で説明すると異常な発音という印象を与えるかもしれないが、このような変異は実際には頻繁に生じている。歌手のなかにはバ行の子音を頻繁にβで発音している人がいるが(すぐ思いつくのは竹内まりやのバラード。「終楽章」か「夏の恋人」を聴いてみてください)、これに気づいている人はあまりいないだろう。それぐらい自然な発音のゆれなのである。

今回もコーパス(CSJ-Core)を使って分析してみたところ、、これらの子音の弱化現象も、/z/の変異と同様、基本的には、子音の調音に利用可能な時間の多寡によっていることがわかった。調音のために十分な時間があれば破裂音になり、時間が足りないと弱化がおきるという、ただそれだけのことである。ただし/g/はやや複雑で、十分に時間があっても必ずしも破裂音になるとは限らない。また/b/, /d/, /g/を比較すると、破裂音の調音に必要とされる時間に組織的な差があることがわかった。その理由は…論文をよんでほしい。
0

Halliday

 
   I belong to that previous era when one could hope to be a generalist 
   in the field of language study, something that is hardly any longer 
   possible today. 

 図書館で文体論関係の本を渉猟していたら、M.A.K. Hallidayが2004年に行ったコーパス言語学についての講演を見つけた。ICAME23での講演である。上の引用はその冒頭ちかくでみつけることができる。言語学はもう巨人を必要としない時代に入ってしまった、とこの巨人は語っている。
 音声学者を別にすれば、私が直接話したことのある言語学者のなかで、巨人という呼び方がもっともふさわしいのがHallidayである。以下はその接近遭遇の思い出である。

 私は2009年の3月に香港で開催されたICCPOLという会議のkeynote speakerを務めた。会議の前に会場校であるHong Kong Polytechnic University のファカルティにも何か話してほしいというので、日本語におけるパラ言語情報の音声学について講演した。
 聴衆10名以下の講演会だったが、そのなかに痩身白皙の老人がいた。講演中にも何回か質問があり、質疑の時間はほとんど彼の質問に答えることになった。広東語のような複雑な声調言語では、韻律によるパラ言語情報の伝達にかなり大きな制約が生じるはずだが、この問題をどう考えるかというのが、質問の焦点だった。普通話のパラ言語情報についてはわずかに知識があったので、その例を挙げると、Mandarin is not a tone language in the sense that Cantonese is a tone language というような反論がかえってきた。文字にすると大変厳しい感じがするが、実際にはニコニコ笑いながらの発言だった。
 実は質疑が終わるまで、この人が誰かを知らされておらず、何だかすごいジイサンだなと思いながらうけこたえをしていた。終了後、司会者から"Professor Michael Halliday"と紹介されて呆然としてしまったことを思い出す。歴史に直面したという感じであった。
 これがきっかけになって、ときどきHallidayの本を手にするようになった。学生時代に読んだ(読もうとして挫折した)ときは、思弁的な研究をしている人という印象が強かったのだが、いま読んでみると、思弁的にみえる分析の背景に、多くの外国語を含む膨大な言語事実についての知識の蓄積があること、それがヨーロッパの哲学的土壌のうえで熟成発酵されていることがうかがわれ、正に巨人という感じをうける。
 上に紹介した講演も話し言葉と書き言葉の問題を論じた論考として、出色の内容である。
0