研究ブログ

研究ブログ

データドリブンxxx

近年、データドリブン開発やデータドリブン・マーケティング、データドリブン・
リクルーティングなど、データドリブンxxxということがよく謳われるようになって
きましたが、既成の方法論(理論モデル)を代替するものとなるのでしょうか?

様々なメディアにおいて
 データドリブン(駆動)xxx  
 =>  意思決定モデルの表現としてディープラーニングを適用  
 =>  成長した人工知能が業務担当者を代替
という図式で、様々な業務が失われると危機感が煽られていますが、その図式成立
の前提には超大量データの利用可能性があります。

例えばよく知られている大量な画像データに基づく判別など、いまのところ成功例
は限定され、大きな投資が可能な特定企業に
限られているのが現実です。

したがって、一般的にデータ駆動xxxという言い回しは誇張感があり、現実的には
いままで主であった理論モデル(演繹的アプローチ)に
よる知見を、利用可能な
スモールデータをもとに導かれる統計モデル
(帰納的アプローチ)の設計に活かす、
複合的アプローチがこれから
求められてくると考えます。

また、その過程で既成の理論モデルにも正のフィードバックが施され、学術的にも
価値のある新概念形成につながっていく、データをもつ企業
と普遍的法則を探求する
アカデミアとの産学連携の理想的なサイクルが
生まれていくと考えています。

0

スケールの異なる対象群を1つのモデルで表現する

小売店の商品の販売予測などでは、商品毎(あるいはSKU単位)の販売予測モデル
を構築することが求められますが、近年では商品のライフサイクルも短くなり、個別にモデル
化できる十分な学習データを利用できないケースが多々あります。

そのような場合、商品属性(および販売トレンドとしての過去実績値)を説明変数として複数
の商品をまとめたモデルを構築します。

その際に気をつけていただく必要があるのは、販売数量の多い商品と販売数量の少ない
商品が混在する場合の評価です(例えば単価が安い売れ筋商品で1か月に100万セット、
高価で販売数量が100セット以下など、桁数が大きく異なる場合)。

通常のように平均誤差を最小にするモデルを求めると、商品単位で見た場合、販売数量
の多い商品の誤差率は非常に低い一方で、販売数量の少ない商品の誤差率は逆に非常
に高い偏ったモデルが得られます
(業務では一般に誤差値よりも誤差率で評価します)。

このようなケースでは、教師データとして与える販売数量の変数を対数変換(Log10)して扱う
のが有効です。対数変換することで数値のスケールが同等となり、数量の大小に関係なく、
一つのモデルで取り扱うことが可能となります。

0

ビッグデータの賞味期限

昨年ぐらいから、IT業界での話題中心の一つとして、ビッグデータがある。しかしながら、流れてくる情報は高速検索を実現するHadoopやオンメモリDBなどテクノロジー中心、対象ユーザーも大企業の情報システム担当者向けの内容であり、まだまだ一般のユーザーは蚊帳の外という感覚があるのではなかろうか。

ソーシャルネットのテキストデータ分析やWEBアクセスログ解析、あるいは実店舗での購買データ、とくに会員カード情報とリンクしたID-POSデータなど、マーケティングへの活用が主にうたわれている。しかしながら、現状、これらのデータを業務に活かすことのできる企業は、すでに大量データを処理するインフラを持っている小売りを中心とする大企業であり、現状では最新データを翌日の業務に使うために、夜間のバッチ処理での対応を行っているが、競合他社に先んじるためのよりリアルタイム性の高い意思決定のニーズのある、限られた業務に限定されている。

データとそれを格納し処理するインフラは、料理に例えると食材と調理道具に冷蔵庫にあたる。次に必要なのは料理教室、レシピ検索 あるいはてっとり早く調理品を提供するコンビニであろうか? 

いうまでもなく一番大事なのは、食材や
調理道具でもレシピでもない。今日残業で頑張ってきたお父さんにとって、今晩の夕食は、お茶漬け程度で軽く済ませ、食事とは関係ない温かいお風呂と休息が必要なのかもしれない。

本当に必要なのは、家族の好みや体調などの変化を五感を通じて理解する妻、母親(顧客を深く知るフロント担当者)の存在であり、いくらITベンダーが、数理につよいデータサイエンティストを集めたところで、よく気が付く家政婦以上にはならないであろう。

食材同様、データについても賞味期限がある。ビジネスターゲットのセンシングで発生する超大量データ(テラ、ペタ、エクサバイト、・・・)を制約なく格納できます!と謳うITベンダーの口車に安易に乗り、コストに見合う成果を期待してはならない。対象をモデル化するにあたり、リアルタイム、あるいは短い時間スケール(タイムステップが短い~ms)のダイナミクスと、長いスケールのダイナミクス(タイムステップが長い~day)は、異なる因果法則に支配されており、コストをかけて貯めたデータは、ほとんどが意思決定にとって影響を及ぼさない、あるいは情報価値の低いデータに直ぐに化ける。実際のところ、ビッグデータが本質的な問題解決に関わるケースは非常に限定される。

おそらく、人間の脳の記憶のメカニズム同様に、短期記憶と長期記憶、情報価値に基づく忘却機構のメカニズムをもつデータベースが、意思決定
業務における自然なシステム形態の有り方を規定していくのではないだろうか。








0

モデルフリー、モデルベースという2つの視点


さまざまな領域のお客様のモデル作成支援をさせていただいるおかげで、表現方法は違うが概念として共通の考え方や視点が活用されていることに気づかされる。


最近よく出会うのが、「モデルベース」および「モデルフリー」という問題解決へのアプローチ、あるいは視点である。

「モデルベース」とは、理解しようとする対象を、その内部モデルに基づいて理解し、シミュレーションによって対象の行動を予測、意思決定を行う一般的な考え方である。
一方、「モデルフリー」とは、対象の直接的な行動あるいは状態とその過去からの履歴のみから、将来の振る舞いを予測し、意思決定等につなげるアプローチである。

物理学でいうと、「モデルフリー」は、対象の微視的性質に依存せず、観測可能な状態に基づいてダイナミクスを論ずる熱力学、その反対に、「モデルベース」は、そのミクロな粒子の運動方程式をベースにマクロな観測量を予測する統計力学にあたると言えよう。

制御工学の世界では、「モデルフリー」あるいは「モデルベース」の制御器計の話題が近年大きなテーマとなっているが、制御の言葉でいうと、モデルフリー=フィードバック制御、モデルベース=フィードフォワード制御(対象以外の外部環境情報に基づく予測制御)と考えると、各アプローチの特徴理解が容易となろう。

行動科学/脳科学における意思決定論の中では、人間の意思決定が、「モデルベース」かあるいは「モデルフリー」かどうかについて近年議論されている。前者が意識的な意思決定を担うとされる前頭前野、後者が、無意識的な意思決定を担うとされる
大脳基底核等が担うのではないかとの議論が盛んである。

証券の世界では、個別銘柄の株価の動きのみに着目するテクニカル分析は「モデルフリー」であり、一方、実際の企業の財務諸表等と株価を結びつけるモデルから株売買を判断するファンダメンタル分析は「モデルベース」に対応する。

概して、「モデルフリー」と「モデルベース」のそれぞれの適用領域は、前者が対象の構造変化が激しく、モデル化がそもそも困難な対象あるいは特性であり、後者は、その逆で、対象の構造あるいは特性が比較的安定している対象に対して、有効なアプローチと言える。


0

モデルベース開発の一般業務システムへの展開

モデルベース開発という言葉、聞きなれない方も多いと思いますが、自動車の制御システム開発等で特に注目されている開発プロセスです。

制御システム開発の特徴をかいつまんで紹介させていただくと、大きく3つの行程で構成されます。

 ①システム要件に対するシステム設計
   機能設計の論理的正当性や非機能要件を考慮して、システム設計書として表現。
   システム設計書は、複数人のレビューアによって内容を吟味、経験知識をベースに
   その妥当性を確認する。

 ②システム開発
   設計およびプログラミング、エミュレータ(仮想環境)でのテスト・検証を行う。

 ③実機での
テスト・検証
   作成したプログラムを実機へ組み込み、非機能要件が満足されていること、
   想定外のオペレーションに対して、システムが問題なく動作することを確認する。

開発プロセス上の問題は、下流行程において、上流行程に起因する問題が発覚し、
手戻りが発生、追加の開発コストや納期遅延につながることである。

モデルベース開発では、そのリスクを回避するために、工程①で、物理モデルあるいは外部データに基づきシステム同定により得られる数理モデルを使用して、システム設計の妥当性を、PC環境でシミュレーションに基づき検証、問題点を早期に発見して、手戻りのリスクを抑える点が特徴である。

シミュレーション活用の肝は、もちろん活用するモデルの性能で決まる。

残念ながら、一般の業務システムにおいて、設計検証のためのシミュレーション活用は、まだトライアルの段階だが、ビッグデータ・テクノロジーの急速な発展とともに、必要なデータ収集インフラ環境が着実に整ってきており、期待は高まっている。
0

格付け会社を格付けする

アメリカの大手格付け会社であるS&P提訴のニュースが話題となっていますね。

米政府、S&P提訴で4500億円超の支払いを請求
司法省は、住宅市場の問題が表面化し始めた2004年9月から07年10月の間にS&Pが格付け基準と分析モデルの改定を遅らせ、その結果、格付けの精度を保つために必要とアナリストの間でみられていた範囲を超えて格付け基準の質が低下したと主張。

この問題がクローズアップする前の昨年、以下の論文を専門の先生方と共同執筆させていただいた。
内容は、アメリカの2大大手格付け会社であるS&PとMoody's、そして日本の格付け会社であるR&IおよびJCRの格付けデータと、財務諸表に基づくAltmanのZ-score(デフォルト因子)との関係をモデル化し、リーマンショック前後での日本国内製造業の評価構造(=モデル構造)に変化があるかを検証したものである。

一般的に、格付け会社の自国の企業評価は甘いといわれているが、本論文ではこの事実が定量的に確認され、S&Pの評価の安定性と、国内格付け会社の構造の変化(一貫性への疑問)が示された。

S&Pは、当然そのような事実は無根であることを主張しているが、同様のモデル解析をアメリカ企業に対して実行した場合に、彼らの主張を肯定するものか、それとも反証するものなのか、検証する価値は大きいですね。
0

全体像をつかむ

業務の関係で参考資料に読んだものだが、クルマのメカニックには疎い、私のような読者に分かりやすい本を、以下にご紹介させていただく。

クルマはなぜ走るのか
日経BP社 御堀 直嗣  著

クルマ好きの方や整備士の方とクルマ関係のお話すると、いつもはてなマークが5つぐらいつくのであるが、そのマークが一気に1つぐらいになった感覚。なぜか、今日は、クルマへ接し方が、いつも以上に優しい気持ちになっている自分がいた。

余談はさておき、現代の車はコンピュータ制御の塊であることは知られているが、一般人だけでなく、その道一筋のプロのエンジニアであっても、その全体像を把握している人は皆無ではないかと、ある有名なエンジニアの方からお聞きしたことがある。同様の話は、我々IT業界ではよくある話なのだが、じつは、どの業界も同様の問題を解決できないでいるというこことに、問題の根深さを痛感させられる。

システムを例にとると、現在あるシステム構造は、設計当初存在した前提条件に基づいて構築されたわけであるが、時間とともに業務状況が変化し、それにともなってシステムに求められるものも変化、機能追加や改修の繰り返し、仕様を理解している担当者の移動、ドキュメントのメンテナンス不備(システムエンジニアのドキュメント作成能力の問題も大きい)によって、全体像の把握が人間の限界を容易に超えてしまう。

システムのライフサイクルを如何に価値あるものとして、長く生き延ばせるか?まさに人の命を預かる町医者の視点が、システムエンジニアにも求められているわけであるが、大事なことは、現在のシステムの価値に対して本質的なものと非本質的なものとの立て分けること、システムのあるべき全体像をつねに見据えながら、その変化の方向性を模索することを怠ってはならない。




0

顧客視点に立つということ

よく知られているように、国内農業は多くの課題を持っている。担い手不足と超高齢化、あるいは、TPP(環太平洋戦略的経済連携協定)に端を発する、海外からの低価格食材・食品の参入による価格破壊と国内農業の崩壊危機のニュース。日本国民のライフラインである国内農業に、明るい材料が見いだせない、危機的状況が続いている。

製造業は、高度成長時代の分業による大量生産時代からマーケットの動向に対応した多品種少量生産の業務統合の時代へと変化しているが、農畜産業も例外ではなく、生産物の付加価値向上を目的として、生産(1次)だけにとどまらず、加工(2次)から販売(3次)へ(1+2+3=6次産業化)と、大きな変化を余儀なくされている。

そのような時代背景の中で、最近、お世話になっている地域で、お米作りから和菓子の加工、そして店舗販売を行っているある法人企業のウェブ販売強化を目的として、WEBサイト改善のお手伝いを始めた。

まず、WEBサイトを改善する際に大事なことは、それは、マーケティングの視点でビジネスモデルを見直し、WEBサイトの役割を明確にすることである。

・WEBサイトにアクセスするお客様はどんなお客様なのか?
・そのお客様の目的は何なのか?
・そのお客様にとって、お店が提供できる価値とは何か?  

上記観点に基づいて初めて、WEBサイトでどんな情報を発信すべきか、そして発信すべきでないか(お客様の頭の中の混乱原因)を意思決定することができる。

どの業界でも同様だが、基本的に、「売り手が売りたいもの(価値)」と「お客様にとっての価値」は往々にして一致しないということ。この事実を受け入れ、改めて個々のお客様にとっての価値を見極め、自社が提供するモノやサービスの提供方法を見直していくことが、顧客視点に立つということであり、単に顧客が求めているものを後追いで提供するスタンスに陥らないよう、時代をリードする気概を常に持っていきたいものである
0

マインドマップによる思考整理術

ここ数年、頭の中の物事を整理するためのツールとしてマインドマップが手放せなくなっている。もともとソフトウェア開発を生業としていることから、特にオブジェクト指向言語を使った開発の設計段階で、静的関係性を表現するクラス図というものを描き、概念間の本来あるべき関係性の定義からソフトウェアをデザインすることに慣れているため、マインドマップの使い方と活かし方はすんなりと腹に落ちた。

マインドマップは、生業の中で、お客様への業務改善提案、あるいは自社のビジネス企画、あるいは実務としてのデータ解析/予測モデル開発戦略の方向づけに役立てている。

また、マインドマップを活用したアプリケーションにも関心を持っていて、研究現場において、自身がもつ仮説や実験事実、既存概念との関係をマインドマップを使って整理でき、ボタンクリック一つで研究論文のひな形が作れるような仕組みを検討しています。

また、業務と離れたところでは、数日前から、マインドマップの可能性を膨らませる方法として、SNS上で見知らぬ志ある人々が集まって、個々がもつ世界観(概念マップ)を照らし合わせたり、意見を出し合いながら、新しい展開を模索されている方に偶然知り合う機会をいただき、自身も参加させていただいています。

21世紀は脳の世紀といわれますが、その言語的表現であるマインドマップが名刺代わりに交換されるような社会、何かワクワクしますね!
0

製造現場の経験と勘を伝承する仕組み


製造業のおもに人件費を中心とする製造コストの削減を目的として、生産工場の海外移転、
そして部品や特殊技術を提供する下請け中小零細企業の経営危機が叫ばれている。

更には、現地の人材を採用するにあたって、国内で通用した阿吽の呼吸、長年の経験に基づく意思決定や品質管理のノウハウの伝承の困難による品質の低下が、クローズアップされている。

そのような中で、情報技術と業務ノウハウを組み合わせることで
経営課題を解決する仕組み
を模索する試みが始まっている。

工場の生産ラインとデータベースを直結、マイクロソフトとオムロンが協業

IBM、社内の全データを可視化するビッグデータ探索ソフトを発売

これらの仕組みを構築するなかで、最も大事なことは、
業務ノウハウというものが、基本的
に無意識下で行われているという事実であり、経験者が改めて知識情報システムに知見
データを意識的に入力しようとする、すなわち、
顕在意識レベルで言語に置き換えるマッピ
ング作業の質が問題となる。

言語によるアンケートデータから導きだされる表面的ニーズと、実際の消費者のニーズが往々にして食い違うことは、マーケティング領域では良く知られるようになり、f-MRIなどの脳科学データ(非言語)に基づいた解析が、コスト面はこれからの課題であるが、徐々に主流となりつつある。

そのような中で、この製造現場の経験と勘の伝承も、熟練者の無意識的な行動データに
その解を求めることが必要で、そんな中で、ビッグデータIT基盤の真の価値が認められつつある。

0