2021年6月16日
AI・機械学習のためのデータ前処理 [入門編] --- Pythonでゼロからはじめる
- ,
- ,
- 出版者・発行元
- 科学情報出版
- 記述言語
- 日本語
- 著書種別
2010年ごろを境に,ビッグデータという言葉が,わたしたちの身の回りに急速に浸透し始めた.同時に,ビッグデータから機械学習に基づき知的なAI システムを構築することが昨今のブームとさえなってきている.本書は,これらの機械学習システムを構築するうえで避けては通れない,データの前処理の部分を中心に解説している.AI などの機械学習システムを第一に想定しているが,本書で説明する各種の技術は,ビッグデータから有用な知識を獲得するデータマイニングやデータ分析などにも有効に用いることができる. さて,ビッグデータという言葉は耳に心地よく,なんとなく宝の山のように感じるかもしれないが,実はビッグデータは玉石混交であり,宝とゴミが入り混じっている.さらには,データの規模が大きくなればなるほどゴミも増え,その中から宝を取り出すのがますます困難になってくる.コンピュータサイエンスの分野では,``Garbage In, Garbage Out" (略してGIGO) という警句がある.文字通り,「ゴミからはゴミしか得られない」 「ゴミを入れればゴミが出てくる」 ことを意味しているが,この警句はまさに機械学習の一面を言い当てている.よい機械学習システムを構築するためには,データからゴミを排除し,データを学習しやすい形に加工するという作業が重要となってくるが,これこそがまさしく前処理の真髄である. 最近は,TensorFlow やKeras をはじめとする数多くの機械学習用のフレームワークやライブラリが無償で利用可能であり,これらのフレームワークやライブラリを利用することで,一見,プログラミングの敷居は低くなってきているようにみえる.公開されている機械学習用のデータセットを利用して,誰もが簡単にAI システムを作ることができる.しかし,独自のデータセットを用いて,独自のシステムを構築する場合には,大きな問題が立ちはだかっている.よくいわれていることであるが,現実のデータは汚い.データをそのまま使えば,それこそ ``Garbage In, Garbage Out" の事態に陥る.現実のデータから,有用なAI システムを構築できるかどうかは前処理の成否にかかっているとさえいえる.また,一説によると,実際のAI や機械学習システム構築の現場では,エンジニアが作業に携わる時間の6 割~ 8 割はデータの収集と前処理に費やされているともいわれている. 本書では,従来の機械学習の書籍では十分に扱われていなかった前処理技術に焦点をあて,技術の単なる解説だけではなく,実際に動くプログラムを通して,読者が理解できるような実践的な書を目指した.本書には姉妹編として 『実践編』 も出版が計画されているが,『実践編』ではより高度な前処理技術と,テキスト・画像・音響・音楽等のメディアデータに対する前処理技術について解説した.本書『 入門編』 とあわせてご活用いただきたい.
- リンク情報