AIは使ってもらうのが9割~第3回 とはいえ集めるのが大変
ITに強いビジネスライター 森川ミユキです。
AIは使ってもらってなんぼというテーマで連載させていただいております。
前回までで、DXのとっかかりとしては手軽なテーマがいいということで「書類の転記作業の自動化」から始めた事例を取り上げました。そしてそのために必要な学習データにについて説明しました。今回は千件程度でも学習データを集めるのは大変というお話をします。
とはいえ集めるのが大変
転記作業の自動化という目的であれば1,000件ぐらいの学習データで実用的なモデルが作れるとお話ししました。
しかし1,000件程度といえども集めるのは大変です。というのは、元書類と提出書類の差分から学習データが作れるというものでもないらしく(※)、実際にどんな処理が行われたか、つまり操作ログが必要なんだそうです(もしかしたら操作してもらうのが一番てっとり早いということだったかもしれません。その辺理解が足りていません。ごめんなさい)。
ん。ということは最初は学習データがなくて、機械学習モデルもないということ?
実際にはこうやって学習データを集めたらしいです。まずはデータサイエンティスト自身が手作業で、100件ぐらいの学習データを作ります。当然精度は低いのですが、それで一応機械学習モデルができあがります。
次にタイミング良く新人研修の時期だったので、研修と称して新人に業務画面を使って、実際の操作をしてもらいます。ただし実務をやってもらうわけにもいかないので、過去の書類で作業してもらうわけです。
それによって、さらに数百件の学習データができましたので、これを使って精度を高めたというわけです。
その後は業務で実際に使ってもらううちに学習データが増えていくので、精度もどんどん上がっていくという皮算用だったのですが、はたしてそんなにうまくいくものでしょうか?
次回に続きます。
※:私はそれでできそうな気もしてたのですが、どうもそんなに甘くはないようです。
最新のIT動向やITのビジネスへの応用について、経営者などビジネスパーソンに分かりやすく伝えることができるライターです。経営レベルでのIT活用について書ける数少ないライターの一人とお客様から評価されています。
最近注力しているテーマは、下記の通りです。
- データ活用(データドリブン、DX等)
※JDLA Deep Learning for GENERAL 2019#2取得しました - マーケティング全般(ブランディング含む)
特にデジタルマーケティングに関しては、新旧のマーケティング理論はもちろん、周辺ビジネス理論(デザイン思考、ジョブ理論等)やIT導入・運用方法論(プロトタイピング、アジャイル開発、DevOps等)を含めた深いコミュニケーションが可能です。
クラウド、データ活用基盤などITインフラ関連も得意としています。
▼お仕事のお問い合わせはこちらへ