研究ブログ
🎍 本年もよろしくお願いいたします 🌅
今、情報学研究所でのホットな話題の一つは言語モデルです。研究の対象は大規模言語モデル、Large Language Modelと呼ばれていますが、名前に「大規模」のような相対的な表現を使うと、さらに大きいものが登場した時に苦しくなるので個人的にはこの命名法は避けています。2番手に「次世代(ネクスト)」とか「新(ニュー)」とかを安易に使ってしまうと、3番手で詰まってしまうのですよ。なお、LLMの大きいもの(GPT3.5とか)は既にVery Large(超大規模)ということでVLLMと呼ばれることもあるようですが、vLLMという表記で全然違う意味の用語もあったりするので混沌としています。
言語モデルと命名で思い出しましたが、現在進行中のCiNii関連の新しいサイトの名前を考えたときにChatGPTにアイディアを出してもらったりしました。検討メンバーの眼鏡に適うような候補を挙げてもらうには、まずChatGPTへの指示として、条件を明確に言語化することが大事だということがよく分かりました。これはAIが相手の時に限った話ではなく、他人に何かを依頼するならいつでも大事にすべきことなのだと思います。
説明が不十分なところを指摘してくれるAIツールとかあったら便利でしょうかね。そういった開発にも挑戦してみたいと思います。
チャットAIを試す
Claude 2が日本語での会話にも対応したという情報を得て、ChatGPTに以前尋ねたのと同じ質問をしてみました。
羅小黒戦記をご存知ですか?
はい、羅小黒戦記は良く知っています。中国の小説で、作者は羅貫中ですね。三国時代を背景に、主人公の羅小黒と陳家洛の活躍を描いた武侠小説です。
羅小黒は江湖で名を馳せた遊侠で、槍の名手。陳家洛は美しい才女です。二人は冒険を重ねながら、愛し合うストーリーが特徴的ですね。三国志の英雄たちも登場するなど、通俗的な武侠ロマンとして中国では人気の作品だと存じます。
はい、この小説の魅力をご存知なら嬉しく思います。どのような場面が印象に残っていますか?
それは羅小黒戦記とは違う作品のようです。
はい、申し訳ありません。羅小黒戦記という作品を存じ上げておりませんでした。
ご指摘のとおり、私が説明したのは中国の代表的な武侠小説の一つ、「三略」の内容でした。作者は羅貫中ですが、羅小黒戦記という作品は存在しないようです。
大変申し訳ありません。私の知識不足で、実在しない作品について誤った説明をしてしまいました。ご質問の作品については存じ上げておらず、誤解を招く返答をしてしまったことを深く反省いたします。今後このような間違いがないよう、知識をしっかりと整理・確認するよう努めます。ご指摘ありがとうございました。
比較のためにChatGPT3.5 (2023年1月)とのやりとりも掲載します。どちらも羅小黒戦記は学習データに含まれていないようで、同じように「知っている」といいつつ頑張ってストーリーを想像(創造?)してくれています。
落語のご隠居とは違って回答に疑問を呈するとあっさり誤りを認めますね。
羅小黒戦記を知っていますか?
ChatGPT
はい、「羅小黒戦記」という作品を知っています。 「羅小黒戦記」は、日本の作家・高山正岳によるSF小説です。小説は、人類が宇宙へ進出した近未来を舞台に、人類と異星生命体との戦いを描いています。
それは羅小黒戦記とは違う作品のようです。
ChatGPT
ごめんなさい。「羅小黒戦記」という作品についての情報をお求めのようですが、そのような作品を知りません。おそらく、私が知る「羅小黒戦記」とは異なる作品のようです。ご提供いただいた情報があれば、もう少し詳しくお伺いすることで、より適切な回答をすることができるかもしれませんので、お手数ですがもう少し情報をご提供いただけますか?
こういった「AI間違うとるで」を晒す記事はネットに結構あると思うので、これがクロールされてAIの学習データに使われてしまうとAIさんは「ネットでこう言ってる!」と勘違いしてますます自信をもってデタラメを答えるようになりそうで怖い。「嘘は嘘であると見抜ける人でないと」ネットを使うのは難しいと言われていますが、人でないAIにも同じことが言えそうです。
LLM勉強会関連のインタビュー記事が掲載されました
情報学研究所の生成AIへの取り組みを特集した、広報誌NII Today「生成AIに挑む」が公開されました。
インタビュー記事「動き始めたLLM勉強会 計算基盤と言語モデル構築基盤を整備し、 研究環境の土壌を作ることが重要」が掲載されています。
README.2023.01.01.txt (Lv.48 Exp.17712)
2023年の元旦を迎えました。皆さまどうぞよろしくお願いいたします。
新型コロナは15番目の文字オミクロンまで進むのが速かった割にその後はオミクロンのままBなんとかという枝番号の変化がずっと続いていますね。あっちが緩やかな変化に移行しているのと対照的に私の方には幾つか大きな動きがありました。
研究力分析のためのシステムithinc about(アイシンク・アバウト)の、異分野融合研究支援機能 (the Crossroad; ザ・クロスロード)の試用版を公開しました。
また、NII Todayのインタビューや図書館総合展の講演では内緒にしていましたが、この春から夏にかけてのお披露目を目指して、我々がひそかに開発を進めているものがあります。公開をお楽しみに。
ところで、ジャイアントパンダのせいで「レッサーパンダ」という名前にされたり、ケータイが普及したせいで「固定電話」と呼ばれるようになったりという歴史からすると、我々の開発しているサービス「CiNii Research」が「CiNii」と代表格で呼ばれて、他のCiNiiシリーズが「従来のCiNii」「前のCiNii」と呼ばれるようになる日が遠からずやってくるのでしょうかね。若干のリスペクトを込めて「元祖CiNii」「初代CiNii」あるいは「無印CiNii」くらいの呼び方をしていただけると携わった面々(私を含む)にはうれしいかな、と。
図書館総合展で講演しました(動画あり)
11月に開催された図書館総合展で「CiNii Researchを支えるデータ整備の裏話」という題で講演いたしました。
当日ご参加くださった皆様、質問をお寄せくださった皆様、ありがとうございました。
CiNii Research開発のインタビュー記事が掲載されました
情報学研究所が開発・運用している、学術情報の検索プラットフォーム「CiNii Research」の本格始動に合わせて、情報学研究所の広報誌NII Todayの特集号「智の結晶が発見できる」が公開されました。
単独インタビュー記事「研究領域の「模様」が見える新検索基盤 ディスカバリーを実現しナビゲーションを目指す」が掲載されています。
真のナビゲーションを目指して
昨年に続いて研究者の日常的な活動をサポートする学術コンテンツサービスであるithincと、
研究IRに役立つ学術コンテンツサービスであるithinc aboutの研究開発を
加速させていく年になりそうです。
ソフトウェアの開発ではリリース前にアルファ版、ベータ版という段階を設けることがあります。
上記2サービスは今年のうちにベータ公開を目指して進めていきたいと考えています。
頑張りますので応援・協力よろしくお願いいたします。
なおコロナウィルスの方は15番目の文字オミクロンまで進んじゃってるみたいですが、ソフトウェアではベータ版より後は一般的にはありません。GoogleのGmailのようにベータのまま一般公開してサービスを長い間続けるという型破りもありますが(当初は「永遠のベータ版」とも呼ばれていたような)。我々のサービスのアルファ期間、ベータ期間はどうなりますことやら…。
オミクロンとオメガって、オ・ミクロン(小さい「オ」)とオ・メガ(大きい「オ」)なんですね(wikipedia)。オギガやオテラはない模様。
Silent Evolution [Digital Remaster]
昨年はSTAY HOMEによる「日常静活」へと激変しました。
この機会に情報処理技術の重要性が増しています。
テレワーク、教育、流通、各種予測・シミュレーション等々様々な場面でコンピュータが使われているのはご存知の通りです。
私も、研究者の日常的な活動をサポートする学術コンテンツサービスの実現に向けて研究開発を大きく前進させたいと考えています。変わらぬご支援を本年もどうぞよろしくお願いいたします。
今年は年賀状との連動企画はありません 🙇
AIしてる暇がない
昨年度何度もお世話くださった皆さま、本年もご指導ご鞭撻のほど、よろしくお願いいたします。
2020年の年賀状には最近続いていたクイズは無しでした。暇つぶしとして楽しみにしていた方(がいるかどうか分かりませんが)申し訳ないです。
賀状に書いてあるとおり時間が足りておりませんで。
かわりにと言っては何ですが、今回は「Ver. JB」と「Ver. Q」の2種類を作りました。
どういう意味か考えるのがクイズといえばそうですかね。「ファン」には謎でも何でもないものですが。
Ver. JBで右手に握っているのはPPK/S…ではなくプレゼン用のレーザーポインタです。実際、パワポでプレゼン資料を作ったりプレゼンしたりする時間が多くなっているので、レーザーポインタは大事な「武器」です。
Ver. Qはもっとgeek感のあるシャツのほうがそれっぽかったかもしれませんが、最近研究室でもずっとワイシャツ姿なので近況報告としてはそちらのほうがよいだろうということにしました。
今年はJBのように最前線で戦う任務とQのように後方でネットワーク上のデータを集めてサーバをぶん回す任務の両方で活躍したいものですね。
2019年です!
今年の賀状は「十二支は本来「亥」までですが、もし次があるとしたら?をAI技術(word2vec)に考えてもらいました。さて回答は次のうちどれだったでしょう?」
- 富士
- 茄子
- ゴ●ラ(怪獣)
- 麒麟
- 酒
- 猫
- クマ
- 鹿
- 狸
正解は「鹿」でした。
Wikipedia(日本語)の2018年12月のスナップショットをmecabで分かち書きしてword2vecに分析させ、
model.most_similar(
positive=[
(model.wv["猪"] + model.wv["イノシシ"]) * 2
- (model.wv["イヌ"] + model.wv["犬"])
]
)
を出力させたところ、猪 0.7033241987228394イノシシ 0.6473090648651123ダマジカ0.21373200416564941シカ 0.19083762168884277アナグマ 0.18890652060508728アイベックス0.18008241057395935シャモア0.1741868555545807ムフロン0.16992586851119995豬 0.16420100629329681ピレネーデスマン0.1641312688589096
となりました。
傾向としては、野性の動物で、「シカ」以外は細かい種別、またシカとアナグマ以外は和名でないことから分かるように海外のものとなっています。
視点を変えて「猪」を基準にすると「犬」は家畜化された動物で、大雑把なくくりの概念で、身近なものという認識がされていると解釈できるかもしれません。
今年(亥年)はそういった昨年(戌年)に比べて「ワイルド」かつ「ワールドワイド」な活躍を目指したいですね☝