研究ブログ

研究ブログ >> 記事詳細

2017/03/18

藤村靖先生 (そして C/D モデル) との出会い

Tweet ThisSend to Facebook | by fmmatsui
2017 年 3月15日〜17日まで日本音響学会に参加して、Donna Erickson 先生や川原繁人先生と一緒に、Converter/Distibutor モデル (C/D モデル) についていくつか大切な点を議論をした。とても充実した議論で、藤村靖先生にも現時点の成果をお伝えしたいねといった話をしていた直後だった。13 日に藤村先生がお亡くなりになったという速報を受け取った。全てのものの動きが止まった。周囲の音も天上に吸い込まれていくように、まるで聞こえなくなった。

空間芸術である美術に対し、音楽は時間芸術といわれる。マーラーの交響曲を一瞬で楽しむことはできない。音の本質は時間現象だ。一応、国際音声字母では4種類程度の長さを記号として区別できる。それでも子音と母音との間に生じる持続時間の違いを扱うには不十分だ。音韻理論になると、時間的性質に関しては線条性しか扱わないことが多い。音韻論で音声の実時間上の性質まで扱える枠組みは、Catherine Browman による Articulatory Phonology などごく限られた理論だけだ。そうした理論の中で、私が最も気に入っていた枠組みは、Julie Carson-Berndsen によるTime Map Phonology (1997) だった。この理論は記号レベルの音韻素性を最小単位とし、そこから事象の時間関係を扱う Event Logic を内包した有限状態オートマトンによって、分節音の線条性および調音の協調運動における時間関係の計算を行う。これによって、Articulatory Phonology における gestural score に相当する情報を導ける。つまり、Time Map Phonology は、Steven Bird のPhonological Event,   Computational Phonologyそして Articulatory Phonology におけるいくつかの概念を統合したような枠組みを持つ。これがこの理論の魅力だった。まず、時制やアスペクトと共通の形式論理を使うことにより、言語システム全体が実時間の流れを同一の論理で捉えていることを主張できる。また、時間軸における音韻情報の計算量が、有限状態オートマトンの範囲に収まる点も重要だ。Chomsky 階層に基づく言語の計算量については、文脈依存規則間に生じる dead lock に関する議論などを除き、音韻論の世界ではそれほど重要視されてこなかったように思う。Computational Phonology はこの問題に関して一つの答を与えた素晴らしい研究だったが、その頃既に興隆を極めていた最適性理論は計算量の問題に見向きもしていない。音韻論のそういった潮流の中で、Time Map Phonology は Computational Phonology の延長線上にあって、調音の協調運動にまでその範囲を広げることに成功していた。さらに、記号レベルの音韻素性を保持しているため、音韻レベルでの差異の体系という本質も表現できる。Speech recognition を視野に入れた理論だから、音響情報から音韻素性をリバースエンジニアリングできる余地を持っている点も魅力的だった。もっとも、ある研究会で Time Map Phonology を用いた有声破裂音の変異音知覚について発表した時は、会場から何の反応も返ってこなかった。最適性理論でなければ音韻理論の研究ではないといった時代だったから、今思えば当然のことかもしれない。

藤村先生の C/D モデルに関するご講演を初めて伺ったのも、ちょうどその頃だった。2003 年のことだ。ご講演が終わりに近づいても、頭の中は混乱するばかりだった。記号情報をいかにして convert するのか、それをどう distribute するのか、まるで理解できない。何に適用でき、何を予測できるモデルなのかすら分からなかった。いくつかの論文を取り寄せて読んでみて、シラブルパルス (あるいは iceberg) の性質については朧気ながら理解できた。それでも、iceberg の間にある「隙間」のことが全く分からない。これは一体何だ? そして、iceberg が例えば分節音の変異とどう関わるのだ? Converter/distributor の性質は何だ? まるで分からないままだった。何より、論文で扱われている現象自体が Time Map Phonology でも説明できそうで、音節を単位とする C/D モデルでなければならない必然性はないように思われた。

それでも、2007 年に岩波書店から発売された「音声科学原論—言語の本質を考える—」は夢中で読んだ。この本は論文とは異なり、藤村先生がご自身の言語観を明確に述べていらっしゃるので、C/D モデルという枠組みをなぜお考えになったのかがよく分かる。例えば、以下のような文章だ。
『音形論 (注:phonology のこと) が扱うのは、言語形式の固有性が、異なる形式の間の音形論的な対立の様相としてどう記述できるかという問題に限られると考えたいというのが私の立場である。例え、入力と出力の関係が不透明 (opaque) な写像関係であっても、音声実現の計算が (発話条件を考慮して) 一義的 (unique) に決定できる限り、(原則として) そのような音声信号の性質は音形論の記載事項に含まれないと考えたいのである。』(p.114)

また、シラブルパルスが生成するシラブル三角形の内部構造がはっきりと記述されている点もありがたかった。それでも、C/D モデルの詳細は相変わらず分からないままで、Time Map Phonology の魅力は私の中では薄れなかった。「言語の本質を考える」という副題は魅力的だったけれども、どこにその本質があるのだろうと思ってしまったことを反省を込めて告白しておく。

C/D モデルについて真剣に考える切っ掛けになったのは、2011 年に高田三枝子先生の博士論文が「日本語の語頭閉鎖音の研究」(くろしお出版) として出版されたことだった。高田先生のデータには、文字通り衝撃を受けた。そこには、語頭有声破裂音の VOT 分布について 0ms gap に絡むとても重要なデータが載っていた。もちろん、連続量であるはずの VOT が -10ms〜0ms を取りにくいということは、既に Lisker & Abramson (1964) でも指摘されている。しかし、Keating (1984) の研究も含め、いずれもこの 0ms gap は音素間で成立するもので、有声子音という 1 つのカテゴリーにおける VOT 分布の性質ではない。それに対し、高田先生の研究は、日本語の有声子音という単一のカテゴリーにおいてでも VOT の 0ms gap が成立すること、そして特に関西方言における有声子音の VOT は 0ms gap を伴う双極性の分布を描くことを明確に示していた。

まず疑ったことは、多数の話者の結果を総合するから双極性分布を描くのであって、単一の話者が発音する VOT データを集めたら単極性の分布になるのではないかということだった。個人的には、信じがたい分布の形状だったのだ。関西は地元なので、データの収録には事欠かない。ほぼ半年かけて、関西方言における有声破裂音の VOT データを継続的に集めてみた。しかし、結果は高田先生のデータ通りだった。集団であれ、個人内であれ、VOT 分布は 0ms gap を伴う双極性分布を描いた。分布の形状も、高田先生のグラフとほぼ同一だった。

言語データにおいて、例えば 30% と 40% という生起率の違いは、quantity の問題として扱える。しかし、0% と 10% の違いは quantity の問題というだけではない。それは、本質的な quality の問題だ。その点でも、高田先生の発見は真に重要なものだった。0ms gap を伴う双極性分布には、語頭有声破裂音の本質に関わる何かがある。分布の生じる理由が分かれば、voicing という現象をリバースエンジニアリングできるかもしれない。

VOT の分布を扱う上で、ほとんどの音韻論は全く役に立たない。実時間について、何の予測もしないからだ。そもそも音韻論にとって、差異をもたらす離散的で範疇的な表示は重要だが、分布のような連続量は言語の本質とは関係がない (と思われている...Harmony Theory などは別だろうが)。だが、前述したように、VOT の分布には量の問題ではなく、カテゴリーという質の問題が現れている。かたくなな音韻論者でも、本当はこの分布の問題を避けて通ることはできない。

実時間の音声現象を扱うなら、まずは Articulatory Phonology だ。だが、この理論にとって VOT の分布形状は深刻な問題だった。最も単純な解決方法は、語頭に有声阻害音を持つ lexical item に関して、2 種類の gestural score を仮定することだろう。しかし問題は、一個人の VOT 分布であっても双極性分布を描くことだった。ある個人の言語知識の中に、1 つの有声破裂音に関して 2 種類の gestural score が用意されているのか? その可能性はほとんどありそうもない。しかし、1 つの gestural score から 0ms gap を伴う双極性分布を導くには、tract variable の性質を複数考えるしかない。その性質の違いは何から出てくるのだろう? 発話速度?共時的なことだけを考えるなら、これは 1 つの解になり得る。しかし高田先生のご研究によると、少なくとも 1930 年代以前には「語頭半有声化地域 ⊂ 語中有声化地域 ⊂ 語中鼻音化地域」という半順序関係が成立するという。つまり、tract variable の性質には言語的な要因も影響するのだ。弁別素性やエレメントといった記号レベルの表象を持たず、gestural score を基本的な表示として用いる Articulatory Phonology では、こうしたカテゴリカルな言語的要因に駆動されているにも関わらず、0ms gap を伴う双極性分布を描くという現象を扱うことがとても難しい。

Time Map Phonology の枠組みでは、もう少し美しい説明が可能だった。高田先生ご自身が著書の中で考察なさっているように、記号レベルで {voiced}, {unaspirated voiceless}, {aspirated voiceless} という 3 つのカテゴリーを設けておけばよい。素性で言うなら、[voiced] 素性と [spread glottis] 素性を使う。関西方言では、{unaspirated} が「有声破裂音」のカテゴリーに入ると仮定すれば、有声破裂音について記号レベルから 2 種類の gestural score (に相当するもの) をもちろん導出できる。{voiced} と {unaspirited voiceless} に各々対応する score だ。しかし、それでも問題は残る。1 つは分布の形状だ。語頭有声破裂音の双極性分布のうち、VOT マイナス側の分布は正規分布に近いベル型の形状を持っているので、これは大きな問題にならない。しかし、VOT プラス側の分布は 0ms〜+10ms にピークを持ち、そこから急に減少する非対称な形状を描く。これが問題だった。unaspirated あるいは speread glottis にこうした分布を描く性質を仮定すればよいのだが、そうすると無声破裂音の VOT 分布に大きな歪みが起こることを予測してしまう。もう 1 つの問題は、無声破裂音の帯気音性についてだ。aspirated や spread glottis のような性質を導入した場合、「パン」のように語頭にアクセントを持つ時に edge effect によって常に p 音が非常に強い帯気音化を起こすことを予測してしまう。しかし、実際の発音では、日本語の p 音の帯気音化はそれほど強いものではない。そもそも、spread glottis 素性に特殊な分布を内在させること自体が恣意的で、やはりオッカムの剃刀でそぎ落としたい点だった。これを避けるには、その性質自体を別の要因から導出するしかない。時系列上の経時的な積分は、その 1 つの方法になりそうだった。とりあえず、試してみよう。そう思って組んでみたモデル図は、どこか既視感のあるものだった。そう、C/D モデルの IRF に近い。何かを掴めたような気がして、もう一度「音声科学原論」を読み直してみた。

今度は、全てが明快だった。今まで、なぜ分からなかったのだろうと思うくらい、自然なことがそこには書かれていた。システムの全体像として、Time Map Phonology よりもはるかにシンプルなモデルであることも初めて理解できた。例えば、C/D モデルで日本語を扱う場合、syllable と demi-syllable の概念さえあれば、phonotactics の制約すら必要ない。そして何よりも、調音とは何かという問題意識がモデル自体に明確に反映されているのだった。「言語の本質を考える」という副題は、そういうことだったのだ。

残念なことに、音声科学原論には、モデルの細かいパラメータに関する議論がほとんど書かれてない。実際にモデルを動かすには speculation の積み重ねになってしまうだろう。それでも C/D モデルの魅力から逃れられそうになかった。そもそも Time Map Phonology だって、細かいパラメータは恣意的なものだ。それなら、パラメータの根拠は薄くても、C/D モデルを動かしてみる価値はあるだろう。IRF の性質と過小指定の効果にだけ的を絞って、30 通り近くの可能性を試してみた。はっきりと 1 つのパターンに絞り込むことはできなかったが、それでも (ほぼあり得なさそうな可能性も含めて) 定性的には数通りの可能性を考えれば十分だった。

ちなみに、C/D モデルで VOT 分布の可能性を考えてみた結果、Articulatory Phonology でこの現象をどう扱ったらよいのかということにも気がついた。誤解を覚悟でいうなら、Time Map Phonology と同じく、C/D モデルからも gestural score に近い情報を導くことが可能なのだ。Time Map Phonology のやろうとしていることの多くも、おそらく C/D モデルから導出できる。ただ、Event Logic は C/D モデルにも組み込んでみると、より厳密な理論にできるかもしれない。いずれにせよ、Articulatory Phonology や Time Map Phonology よりも、C/D モデルのほうが理論としてさらに強い制限を持つ。言い換えるなら、それだけ C/D モデルは反証可能性が高い。科学哲学として反証可能性はいくつか問題もあるが、反証可能性の高い理論はやはりそれだけ魅力的である。

そうはいっても、C/D モデルについて勉強し始めたばかりであるし、その本質を理解できている自信は全くなかったから、まずは小さな研究会で内容を発表してみた。その研究会にいらっしゃったのが、Donna Erickson 先生と早稲田大学の匂坂先生だった。両先生とも、発表内容について藤村先生に直接連絡を取るよう薦めてくださった。藤村先生といえば、東大を蹴ってベル研に移られる時に、東大の教授会で「同じ研究機関に 5 年以上しがみつくのは、無能なやつだけだ」と言い放ったという武勇伝が有名だ。そういう先生にこんな未熟な内容をお送りしても、「研究以前である」の一言で終わるだろうと思った。それでも、何かヒントはいただけるかもしれない。藤村先生に、ラフなドラフトを添付して、何かコメントをいただければとメールを送ってみた。

短い返事がすぐに来た。大阪にいらっしゃる用事があるという。梅田の新阪急ホテルアネックスに宿泊するので、そこのロビーで会いましょうと誘ってくださった。2014 年 5 月 9 日に初めて藤村先生にお目にかかれることになった。本当にありがたかった。

ホテルのロビーには、待ち合わせ時間の 15 分前に着いた。少し早めに行ったつもりだった。しかし、先生は既にそこで待っていてくださった。挨拶というより、お詫びのことばを繰り返していたように思う。それから、先生と一緒に近くの日本料亭に入り、一緒に天ぷらを食べることになった。

藤村先生に伺いたいことは山ほどあった。モーラや demi-syllable をどう扱うのか。そもそも C/D モデルのいう音節とは何か。シラブルパルスの中心点は何を意味するのか。IRF の性質はどのように決まるのか。IRF が規定する時間範囲の中で何が起こるのか。その潜在的な時間範囲と、顕在化する時間範囲をどう決めるか。C/D モデルが採用する過小指定は C/D ダイアグラムの中でどう実現されていくのか、などなど。VOT のデータを元に、できる限り、藤村先生のお考えを聞きたいと思っていた。しかし、こちらが質問する度に、先生が繰り返しおっしゃったのは、「君はどう考えていますか」ということばだった。仕方がない。「〜と考えているのですが、C/D モデルの考え方に合っているでしょうか」「うん、そうかもしれないね」。その繰り返しだった。これでは埒があかない。自分の研究がどこで間違っているのかも分からない。ぼろぼろに批判されるよりも、もっと困る。思い余ってお願いをしてみた。「C/D モデルを勉強し始めたばかりなので、ほとんど何も分かっていないのです。間違っている点と先生のお考えを教えていただきたいのですが」

「君の思うことをやってください。」それが藤村先生のお答えだった。そしてふと独り言のようにおっしゃった。「高橋先生もそうだったよ」

C/D モデルの情報をネットで探していた時に、藤村先生が高橋秀俊先生と共同でお書きになった本を見つけて、手に入れていた。ロゲルギストの「物理の散歩道」が中学の図書館に入っていて、当時の愛読書だったので、この本も読んでみたかったのだ。大学院で指導してくださった郡司隆男先生から、「パラメトロン計算機」を貸して頂いたこともあった。

「ロゲルギストの先生方って、自由で、いかにもそうおっしゃいそうですね」
藤村先生はしばらく黙っておられた。

「ロゲルギストを読んだんだね」

そこから、藤村先生は急に饒舌になった。高橋先生のこと、言語の中でも特に音声の研究に興味を持っている理由 (明確な証拠があって、物理学できれいに説明できるからね)、服部四郎先生との出会いまで、ゆっくりと落ち着いた口調のまま、様々な思い出を話してくださった。特に、服部先生のエピソードは興味深いものだった。もともと、服部先生が藤村先生を尋ねていらっしゃったらしい。母音の調音とその音響的性質についてのご質問だったそうだ。ヤーコブソンの研究に触発されたんだね、ということばと、調音動態をきちんと確認するためにいかに苦労なさったかというエピソードが特に印象的だった。調音動態の証拠を得るために様々な工夫を凝らされたことの一端は、服部先生と藤村先生が連名になっている「鼻音と鼻音化母音」の論文からも伺い知ることができる。そのことが後の X 線マイクロビームの開発につながりましたかと伺うと、もちろんそうだ、ウィスコンシン大学の X 線マイクロビーム装置もいろいろ工夫したなぁと楽しそうにおっしゃっていた。藤村先生が渡米された後も、服部先生とは音声や音韻についてしばしば議論が続いたそうだ。特に音素の考え方について、服部先生の影響を強く受けたとおっしゃっていた。服部先生は、藤村先生にとっても学問に大変厳しいと感じられる方だったらしい。興味深いお話ばかりで、録音機を持って行かなかったことをつくづく後悔した。

結局、その日は藤村先生の思い出話でお開きとなり、C/D モデルについて、藤村先生ご自身のアイデアを伺うことはほとんどできなかった。それでも、モデルの基本単位について、syllable か demi-syllable かで迷ったというお話には強い印象を受けた。別れ際、「やはり先生のお考えを詳しく伺いたいです」と申し上げたところ、藤村先生はもう一度繰り返しておっしゃった。「君の思う通りにやってみなさい」

それから数回メールのやりとりをさせていただき、先生から調音データに関するメールを突然いただいたりもした。次に藤村先生と直接お目にかかれたのは、同じ年の 7 月 22 日と 23 日に東京大学で開催された "Adventures in Speech Science" の時だ。藤村先生の米寿をお祝いして開催された国際ワークショップだった。今そのプログラムを見直してみても、調音に関する生理学的研究、神経学的基盤、最新の音声工学、そして国立国語研究所の前川先生による藤村先生のご業績の紹介まで多岐に渡っていて、藤村先生がいかに幅広い研究を行っていたかがとてもよく分かる。その最後に、C/D モデルのセッションが設けられていた。Erickson 先生に無茶振りされて、未熟なままの研究をそこで発表する羽目になった。それでも、質疑応答の時に非常に重要な指摘をくださったのが、藤村先生のパートナーである Williams 先生だった。スペイン語の VOT についても興味深いデータを教えてくださり、本当にありがたかった。

シンポジウムが終わった後も、Williams 先生がいくつかの点を確認しに来てくださったので、正直に、speculation ばかりで、間違っている可能性が高いとお答えした。「オサムに聞いた?」とおっしゃるので、「好きなようにやりなさい、というお答えでした」と答えると、笑っていらっしゃった。その後、Williams 先生と一緒に藤村先生のところにご挨拶に伺った。一言、「よく分かったよ」。きっと研究の不出来な点をじっと我慢してくださっていたのだろう。よい研究だったら、思い出話をしてくださった時のように饒舌になっていらっしゃったに違いない。それでも、先生が発表を聞いてくださったのは本当にうれしかった。いつかは、先生ご自身の膨大な経験に基づくアイデアや直感までもを話してくださるかもしれない。

しかし、それが藤村先生と直接お話できた最後の時間だった。

Adventures in Speech Science の成果を受けて、『音声研究 第19巻第2号』に「音声科学の最前線:C/Dモデルその音声学・音形論への衝撃」という特集が組まれた。C/D モデルに関する 13 本の論文が収録されている。中でも、川原繁人先生による CD モデルの概説は、この理論を理解する上で最も分かりやすいものだろう。そして、藤村先生と Williams 先生による "Remarks on the C/D model" は、藤村先生が我々に残された宿題でもある。

藤村先生との最後のやりとりは、やはりメールだった。上記の特集号に投稿した論文について、Williams 先生がとても素敵なメールをくださった。その Williams 先生のコメントに応える形で、藤村先生からもメールが届いた。一言、"I agree with you about Matsui.  Thank you." とあった。

藤村先生や高田先生のご研究に出会ってから、既に分かっていると思われている音声学的事実についても、EPG や他の生理的指標を用いて定量的に証拠を集めることを心がけるようになった。川原先生や Jason Shaw 先生と共に、EMA を用いた調音の実験を経験できたのも大きな収穫だった。東京方言や関西方言では得られないデータを求めて、松浦年男先生や黒木邦彦先生を頼って、方言調査にも出かけるようになった。もともと引きこもりの armchair linguist で、方言調査には性格的に全く向いていないのだが、データ収集のためにはそうも言っていられない。そうして得られたデータをC/D モデルの観点から分析して見ると、今まで気がつかなかった音声の興味深い点をはっきり意識できるようにもなった。これが正しい理論の魅力だ。正しい理論は研究者にとって顕微鏡のようなものだ。それ以上に、正しい理論は真実を把握するための大切な言語なのだ。

今のところ、C/D モデルには謎も多い。それを一つずつ明らかにしていくことが、藤村先生のご遺志に応えることになるだろう。同時にそれは、言語の本質を見つける旅だ。藤村先生はその道を切り開いた真のパイオニアだった。今はただ安らかに、藤村先生。
12:02 | 投票する | 投票数(0) | コメント(0) | 評論