グーグルのクラウドを支えるテクノロジー > 第70回 機械学習パイプラインにおける学習データの異常検知システム(パート1)
私が編集支援しているCTC教育サービスのコラム「グーグルのクラウドを支えるテクノロジー」第70回「機械学習パイプラインにおける学習データの異常検知システム(パート1)」がCTC教育サービスで公開されました。興味がある方はご覧ください。
###
はじめに
今回からは、2019年に公開された論文「Data Validation for Machine Learning」を元にして、機械学習モデルの学習データに含まれる異常を検知するシステムについて解説します。このシステムは、機械学習を利用するGoogle社内のプロジェクトで標準的に利用されているもので、機械学習パイプラインを構築するためのオープンソースであるTFXを用いて構築されています。
機械学習パイプラインとは?
第67回からのシリーズで取り上げたFederated Learningでは、モバイルデバイス上のデータを用いて、キーワード予測の機械学習モデルを学習する仕組みを説明しました。そこでは、新たなデータを用いて、日々、継続的にモデルの学習を行う仕組みが用意されていました。OCR(文字認識システム)のように、学習データが固定的なユースケースであれば、モデルの学習を繰り返す必要はありませんが、Webで提供されるサービスのように、利用者の行動に合わせて進化すべき領域では、Federated Laerning以外の一般的な機械学習システムであっても、このような継続的な学習は重要になります。一般に、「学習データの収集 → モデルの再学習 → 再学習済みのモデルによる予測」といった一連の処理を自動化して、これを継続的に実行するシステムを機械学習パイプラインと呼びます。
この続きは以下をご覧ください
https://www.school.ctc-g.co.jp/columns/nakai2/nakai270.html