コンテクスト(文脈)を創造が新しいビジネスの価値創造につながります。色んな角度から「コンテクストクリエーション」をみてみましょう

クラス分類とクラスタリングの違い

»

実は、ITMediaマーケティングにて「ざっくり分かりたいマーケターのための「AI」超入門」という連載を続けているのです。その第2回の「AIの"人間らしい問題解決"を可能にする6つの技術」という記事において、私はAIというのは6つの人間らしい技術を実現すると書きました。それは、この6つです。

  1. 探索(search)
  2. 推論(inference)
  3. クラス分類(classification)
  4. 回帰(regression)
  5. クラスタリング(clustering)
  6. 次元削減(dimensionality reduction)

この中で、3番と5番、つまり「クラス分類」と「クラスタリング」の違いは何かとよく聞かれるんです。ちょっとそこを小職なりにご紹介しようかと思います。

この二つの機能をざっくりで言うと、どちらも「データを分けるんです」になってしまうので余計に区別がわからなくなってしまいます。本当に混乱してしまいますね。ちょっとこれをスッキリさせましょう。

「クラス分類」と「クラスタリング」と文字を見てみると「クラス」とあるので、同じようなものかなとも思ってしまいますが、実は綴りが全然違います。クラス分類のクラスは「Class」であり、クラスタリングは「Clustering」と書きます。別物なのです。

クラス分類のクラス、つまり、classを辞書で引くと「分野、類、部類、種類」と出てきます。
対して、クラスタリングのクラスタ、つまり、clusterを辞書で引くと「群れ、集団、一団」と出てきます。
つまり、この直訳から解釈するに、クラス分類はは対象になる分類を見つけるというニュアンス、クラスタリングは、データそれぞれを集団化するというニュアンス、このニュアンスの違い、お分かりでしょうか。

わかりにくいという方は、手法自体の違いで覚えるのはいかがでしょうか。技術的には全く異なります。一般的に機械学習(Machine Learning)と呼ばれるAIの一つの技術があるのですが、それには大きく分けて「教室あり学習」と「教師なし学習」と2種類あります。「教師あり学習」とは、事前に教師データなるものを用意して正解を用意し、対象とするデータにその正解に合うように導く方法です。「教師なし学習」とは、教師あり学習のように、事前の教師データはなく、対象とするデータ自身から何か示唆を求めようとする方法です。

ちょっとややこしい話になってしまいましたが、ざっくりいうと、「クラス分類」は「教師あり学習」、「クラスタリング」は「教師なし学習」と整理しておきましょう。

で、実際どう違うのか?っていうわけです。

「クラス分類」は、事前に決まっている分類を新たに入力されたデータに正確に付与する手法と考えてください。例えば、これは犬なのか猫なのか人間なのかを判別するというのも「クラス分類」です。事前にどう分けるか決まっている場合は「クラス分類」という手法を用います。そうです、クラス(class)といえば、「分野、類、部類、種類」のことでした。決められた分類を着実に行うということです。
また、事前にどう分けるかをコンピュータに示すために教師データが必要なのです。つまり、「クラス分類」は「教師あり学習」となります。

「クラスタリング」は、データの中で集まりを見つける手法だと考えてください。似たもの集合を出すというところでしょうか。例えば、レモンとバナナとりんごとみかんなどの果物がデータとして入っていた場合、そのデータをクラスタリングすると、レモンとバナナが似たもの集合としてでてくるかもしれません。黄色ですからね。クラスタ(Cluster)といえば、「群れ、集団、一団」という意味なので、そういう一団をデータから見つけるという感じですね。
また、クラス分類とは違い、分け方を事前に指示するのではなく、データからその一団を見つけるということで、事前にデータは必要ないのです。つまり、「クラスタリング」は「教師なし学習」となります。

最後に使い方ですが、最初に分類の仕方を指定できる場合は「クラス分類」手法を使います。
データの分け方はわからないけど、なんとなく整理したいときには「クラスタリング」手法を使います。
こんな感じで覚えておけば、「クラス分類」、「クラスタリング」あやふやにならなくて済むでしょう。

Comment(0)

コメント

コメントを投稿する