グーグルのクラウドを支えるテクノロジー > 第27回 スケッチデータを用いたディープラーニングモデル Sketch-RNN(パート2
私がCTC教育サービスで編集支援している中井悦司氏のコラム「 グーグルのクラウドを支えるテクノロジー > 第27回 スケッチデータを用いたディープラーニングモデル Sketch-RNN(パート2」が公開されました。
興味がある方はお読みください!
###
はじめに
前回に続いて、2017年に公開された論文「A Neural Representation of Sketch Drawings」をもとにして、ディープラーニングを用いて簡単なスケッチ(線画)を再現する機械学習モデルを解説します。前回説明したように、入力データに対して類似性のあるデータを出力する「オートエンコーダー」とよばれる仕組みが基礎となります。
Sketch-RNNの構造
図1は、前回紹介したSketch-RNNと呼ばれる機械学習モデルの全体像です。左側の青色の部分が、前回の図3における「エンコーダー」に相当する部分で、入力データから特徴量を抽出する処理を行います。最終的に得られる特徴量は、128次元(具体的な次元数はモデルによって異なります)のベクトル値、すなわち、128個の数値の集まりですが、このモデルでは、ここに乱数の要素を取り入れています。どういうことかと言うと、入力データから直接に特徴量を計算するのではなく、まずはじめに、特徴量空間における「平均 μ」と「標準偏差 σ」を計算します。その後、これらを用いた正規分布の乱数(μ を中心として、σ 程度の広がりを持つ乱数)を生成して、これを特徴量とします。σ の値が大きいほど、生成される特徴量の「ゆらぎ」が大きくなります。また、入力データから μ と σ を計算する部分には、時系列データを取り扱う「RNN(Recurrent Neural Network)」を使用しています。つまり、線画を描く順序も考慮したデータ処理が行われます。
この続きは以下をご覧ください
https://www.school.ctc-g.co.jp/columns/nakai2/nakai227.html