オルタナティブ・ブログ > Mostly Harmless >

IT技術についてのトレンドや、ベンダーの戦略についての考察などを書いていきます。

AI がプログラミングを支援する「GitHub Copilot」 ~その学習データはどこから?

»

MicrosoftはOpenAIへの出資後、GPT-3を使ったプログラミングのAI化を進めています。昨年Power FixにGPT-3ベースのAI機能を統合すると発表し、同時期にMicrosoft傘下のGitHubの新機能としてプログラミングを支援するAIについても発表されていました。それが、今回正式なサービス(有償)として提供開始されました。

書きたいコードをAIが書いてくれる「GitHub Copilot」の威力

詳細は記事の通りなのですが、皆さんもご存じの通り、AIには学習データというものが必要です。プログラミングを支援するAIであれば、大量の(しかも良質な)ソースコードを学習しなければなりません。そのデータはどこから来るのか? 今回の発表がGitHubのサービスであり、GitHubといえば言わずと知れたオープンソースのプログラム交換サイトです。ということは、当然GitHubに登録されているコードを使っているのでは? という疑問が生まれます。1年半前のブログでも、ちらっとその話は書きました。

fork.pngGitHubの利用規程はどうなっている?

ということで、この記事を読んでからGitHubの利用規程を見てみたのですが、概要欄「D. ユーザ生成コンテンツ」に、このような記載があります。

あなたが GitHub に投稿したコンテンツの所有者はあなたです。ただし、お客様にはコンテンツの所有に伴う責任を負います。また、当社ではお客様にサービスを提供するために、一部の権利を当社に付与してくださるようお願いしています。

何かの権利をGitHubに付与するよう求めていますね。本文を見ると、『お客様は、「あなたのコンテンツ」の所有権および責任を保持します。』など、一般的な条項に混じって、「5. 他のユーザへのライセンス許可」という項目があります。

お客様が公に投稿する「ユーザ生成コンテンツ」は、他者によって閲覧される場合があります。 リポジトリを公に表示するように設定することにより、お客様は、他者がリポジトリを表示および「フォーク」できるようになることに同意するものとします (これは、他者が管理するリポジトリ内のお客様のリポジトリから他者が「コンテンツ」の独自の複製を作成できることを意味します)。

他のサイトではあまり見かけない文言なのではないでしょうか。「フォーク」というのはオープンソース特有の言葉で、あるソースコードが「分岐」して、オリジナルと分岐したコードが各々独自の進化を続けるといったことがよくあるのです。Googleのモバイルブラウザで使われているエンジンのBlinkは、AppleのWebkitからフォークしたものです。

つまり、GitHubに投稿したソースコードを、他の人がフォークすることを認めてあげて下さい、ということですね。ただ、フォーク自体はオープンソースでは広く認められており、これが「AIの学習用に使える」と解釈できるのかどうかは、これだけではわかりません。

GitHubに直接聞いた人達がいた

というようなことを考えていたら、同じことを考えている人達がやはりいました。昨日の記事です。

GitHubの利用をやめるようオープンソースソフトウェア非営利団体が強く呼びかけ

オープンソースソフトウェアコミュニティのために活動している非営利団体Software Freedom Conservancyが、「GitHub」の利用をやめて他プラットフォームへの移行支援を行う長期計画を発表したということです。経緯としては、

Software Freedom Conservancyは、2021年7月にMicrosoftやGitHubの担当者とビデオチャットを行って、Copilotに関する疑問をいくつかぶつけたものの、「(今の時点では答えられないが)すぐに答える」と回答を保留されました。

しかし、その後半年待っても回答は無く、さらにもう半年待っても回答が無かったため、今回の呼びかけに至ったということです。Copilotに関する疑問とは、主に以下のものです。

GitHubの当時のCEOによる「(1)公共データでMLシステムのトレーニングを行うことはフェアユースであり、(2)出力はコンパイラと同様にオペレーターに帰属する」という主張は、どういった判例を参考にしたものなのでしょうか?

要するに、1年前に当時のCEOが「公共データでMLシステムのトレーニングを行っている」ことを認めていたわけですね。それに法的根拠はあるのか、と聞いていたわけですが、それに回答が無かったと言うことです。まあ、やっぱり使っていたんだということがわかってすっきりしましたが、利用規程を読んでもなかなかわからないものだということもわかりました。

冒頭のXtechの記事にも「コードの著作権の問題を指摘する声もある」とあるように、AIがその範囲を広げるにつれ、技術的な問題以外で外部の社会と軋轢を生むことが多くなってきました。これを解決できるAIは、まだ存在していません。

 

ITの最新トレンドをわかりやすく解説するセミナー・研修を承ります

figure_question.png時代の変化は速く、特にITの分野での技術革新、環境変化は激しく、時代のトレンドに取り残されることは企業にとって大きなリスクとなります。しかし、一歩引いて様々な技術革新を見ていくと、「まったく未知の技術」など、そうそうありません。ほとんどの技術は過去の技術の延長線上にあり、異分野の技術と組み合わせることで新しい技術となっていることが多いのです。

アプライド・マーケティングでは、ITの技術トレンドを技術間の関係性と歴史の視点から俯瞰し、技術の本質を理解し、これからのトレンドを予測するためのセミナーや研修を行っています。ブログでは少し難しい話も取り上げていますが、初心者様向けにかみ砕いた解説も可能です。もちろんオンラインにも対応できます。詳しくはこちらをご覧下さい。

講演のサンプル動画を公開しました

Comment(0)