グーグルのクラウドを支えるテクノロジー > 第72回 機械学習パイプラインにおける学習データの異常検知システム(パート3)
»
私が編集支援しているCTC教育サービスのコラム「グーグルのクラウドを支えるテクノロジー > 第72回 機械学習パイプラインにおける学習データの異常検知システム(パート3)」が公開されました。興味がある方はご覧ください。
###
はじめに
前回に引き続き、2019年に公開された論文「Data Validation for Machine Learning」を元にして、機械学習モデルの学習データに含まれる異常を検知するシステムを紹介します。前回は、データスキーマを用いたデータの異常値検知、および、データの統計値に基づく異常値検知の仕組みを説明しました。今回は、スキーマから自動生成したデータを用いて、モデルとデータの不整合を検知する仕組みを紹介します。
スキーマを用いたテストデータの生成
ここでは、前々回の図1で、「Model Unit Testing」に当たる部分の機能を説明します。一般に、機械学習モデルを開発する際は、モデルに入力するデータの種類について、一定の想定が置かれます。簡単な例で言うと、ある入力値は負の値をとることはない、と言った想定です。このような前提で設計されたモデルに想定外のデータ(先ほどの例であれば、負の値のデータ)を入力すると、的外れな予想結果が出力されるだけではなく、ソフトウェアエラーが発生して予測システムが停止するななどの問題を引き起こす可能性があります。
この続きは以下をご覧ください
https://www.school.ctc-g.co.jp/columns/nakai2/nakai272.html
SpecialPR