パスワードを忘れた? アカウント作成
15719765 story
マイクロソフト

SFC、FOSS 開発者に GitHub の使用をやめるよう呼びかけ 96

ストーリー by headless
計画 部門より
Software Freedom Conservancy (SFC) が GitHub の使用をやめると宣言し、他の FOSS プロジェクトが GitHub の使用をやめられるよう手助けする長期的な計画を発表した (SFC のブログ記事The Register の記事)。

SFC では GitHub がプロプライエタリソフトウェアであることや商用プロジェクトを受注していること、コピーレフトの考え方に否定的であること、Microsoft の子会社であることなどを理由に以前から GitHub の使用に賛成してはいなかったが、今回の動きは GitHub が AI ペアプログラマーサービス「Copilot」の一般提供開始をアナウンスしたことがきっかけのようだ。

Copilot の学習には GitHub でホスティングしたコードのみを使用したと説明されているが、ソフトウェアライセンスの問題が明確になっていないという。GitHub 前 CEO の Nat Friedman 氏が ML システムの学習に公開データを使用することはフェアユースにあたると述べているものの、SFC は法的な判断が出ていないと反論する。AWS が先日プレビュー版の提供を開始した同様のコード生成ツール CodeWhisperer も Copilot と同様に機械学習によるコード生成ツールだが、学習に使用したコードのライセンスを尊重する姿勢ははるかにいいとのこと。

SFC は GitHub の使用をやめるための情報を提供する特設サイト「Give Up GitHub」を公開しており、GitHub に代わるオープンソースなホスティングサービスとして Codebergsourcehut、セルフホスト型サービスとして GiteaGitLab Community Editionsourcehut を挙げている。
  • ヴィーガニズムやな (スコア:2, すばらしい洞察)

    by Anonymous Coward on 2022年07月03日 21時46分 (#4281984)

    FOSSを名乗るのならちょっとでもプロプラに関わってる企業はevilみたいな。
    Windows上で開発してたら天罰かもしれない。
    どうしてこうネット上だと原理主義化しやすいのだろうか。内ゲバ狙いで偽装して燃やすのは面白いかもしれんが。

    ここに返信
    • by Anonymous Coward on 2022年07月04日 9時50分 (#4282143)

      逆張ってイキるのはいいけど、これ著作権問題でしょ?
      勝手に「機械学習無罪」で再配布してる盗人側を擁護するのは筋悪くない?

    • by Anonymous Coward

      どうしてこうネット上だと原理主義化しやすいのだろうか。内ゲバ狙いで偽装して燃やすのは面白いかもしれんが。

      少数派の原理主義者でも仲間を見つけられるし、原理主義者だけで集まれば、自分達が多数派だと錯覚できるから。

      所謂エコーチェンバー効果だね。

    • by Anonymous Coward

      何であれ分散化は大事
      一社独占という状態はよろしくない
      SNSもそうだけどね

  • by Anonymous Coward on 2022年07月03日 20時40分 (#4281946)

    SFCと聞いて、湘南藤沢キャンパスとおもって記事見たら違った

    ここに返信
    • by Anonymous Coward

      SFCといえばスーパファミコンじゃないの?

      • by Anonymous Coward

        BUBCOM-80 [ipsj.or.jp]を売ってた会社だろ、常識的には。
        # おっさんホイホイ

        • by Anonymous Coward

          BUBCOM-80 [ipsj.or.jp]を売ってた会社だろ、常識的には。
          # おっさんホイホイ

          おっさんではなくじいさんでは。

          • by Anonymous Coward

            磁気バブルメモリか。どうやってバブルを綺麗に並べて、記録できるのか、
            未だに理解してない。バブル列が出来るように、パターンとか切っているんかな

  • AIでコードを書くと場合によっては問題があるかもしれないよ、というのならわかる。
    でも、ホストしたコードがAIの学習データとして使われるからgithubをやめろというのはどうなんだろう。使われるのが嫌な人はgithubやめたらいいだろうけどそれでもさらにライセンス無視でクロールされて勝手に学習データに使われる可能性もある。だからそもそもオープンにせずにソースコードクローズドにした方がいいよぐらいならわかるけど。

    #ソースコードじゃないけど最近の記事にこんなのがあった。恐ろしい

    文章生成AI「GPT-3」にハンドルネームを入力したら本名がフルネームで出力されたという報告
    https://gigazine.net/news/20220627-gpt-3-reveal-full-name/ [gigazine.net]

    ここに返信
    • by Anonymous Coward

      ソースコードや個人情報漏洩リスクを懸念してインターネット禁止しちゃう某社のことですか?

    • by Anonymous Coward

      似たような事例かも?ということで、コメントまでそのまま元のコードが出て来た事例。

      https://twitter.com/mitsuhiko/status/1410886329924194309 [twitter.com]

      ただし、GitHub Copilot がブロックする語句のリスト [developers.srad.jp]で個別に排除されたと思われる。

    • by Anonymous Coward

      「GitHubに絵をうpるとコラ素材に使われる」みたいな話だから
      そりゃ引き揚げるのが正解じゃないの

      • by Anonymous Coward

        GitHub以外なら誰にも盗用されないというなら引越しが正解だろうけどね。そんな保証がない。

  • by Anonymous Coward on 2022年07月04日 16時57分 (#4282543)

    しばらく前から個人用で codeberg を使っている。

    git コマンドは remote の URL を変えればもちろん動く。
    リポジトリを GitHub にミラーする設定も可能 (逆はできない)。
    バックエンドが gitea なので、GitHub を使ったことがあれば codeberg の UI もすぐに分かるはず。
    GitHub Pages に相当する機能もあるので、ホームページをホストするのに使っている。

    一方 sourcehut は独自のシステムを使っている。
    使い方も全く異なるので興味があるけど、有料なので自分は試してない..

    ここに返信
  • by Anonymous Coward on 2022年07月03日 20時00分 (#4281917)

    SFC的にはGPLのコードを学習させて作ったAIはGPLで公開しないといけないけど、Githubはそれをしていないってからアウトってこと?

    それより、そのAIが生成したコードこそGPL(他)にしないといけなさそうだけど、そんなのお遊びでしか使えなくね?

    ここに返信
    • by 90 (35300) on 2022年07月03日 22時20分 (#4282002) 日記

      いま各国で法整備が進んでいて、ネットから集めたデータで学習させたAIは元データをすごく抽象化して知的な理解を構築しているのでもはやネタ元の著作権とかありえん、という方向に向かってます。実際に絵とか写真だとデータが膨大すぎて誰も検証できておらずその建前が通りつつあるのですが、テキストに関してはうまく喋らせるとソースを一語一句違えず吐くのでこれヤバいんじゃ…? という懸念が広がってます。

      で、その懸念が高まってついにGItHubから逃げたプロジェクトが出たのがこの一件です。成り行きによってはネットから拾った絵をカオスラウンジする諸処のAIが一緒に滅びるか、または逆に合法化します。

      • by Anonymous Coward

        各国の状況は存じませんが、それは学習データとして利用することが複製に該当するかどうかの話であって、モデルの生成物の話ではないと思います。
        モデルの生成物が学習元データと複製とみなされるほど似ていれば、当然複製になると思います。
        また、うろおぼえですが、機械学習モデルは著作権の主体にはなれないという判例は少なくとも米国で出ていたと思います。
        つまり、実際には何も免責されておらず、Copilotの結果が誰かの著作物と似ていれば、その利用者が著作権侵害に問われることになると思います。

        なぜか賞賛されているAmazonのCodeWhispererですが、どうも生成コードがモデルの学習で利用したコードと類似している場合に警告を出してくれる機能があるようです。
        その警告を見て、利用者が生成結果を利用するかどうか判断できるわけです。
        この辺りが落としどころに思えるので、GitHubも同様の機能を実装するんじゃないですかね。

        • by Anonymous Coward

          > 類似している場合に警告

          卒論や課題でコピペがばれないように言い回しを変えるのと似たものを感じた。

      • by Anonymous Coward

        画像分類用DNNの敵対的サンプル(≒DNNが内包する〇〇らしい画像)は人間には理解不能な砂嵐ではあるけど、
        抽象化されてるっていうか人間には判別困難な特徴量(特に質感周り)などを直で拾ってるような印象。

        画像系のDNNも強い相関のあるピクセルグループ単位でなら元データを吐き出すのではないかな。
        画像分類だと画像は元データが1サンプルあたりでも多めで保持すべき分類の空間も狭いから
        部分構造が抽出できても元絵が取れたと判断しにくく問題になりにくいだろうとは思うけれど。
        紙幣のユーリオンや繰り返し構造になってるステガノグラフィみたいな部分構造は取れそうな気がする。
        学習元が3DCGなら有償アセットのテクスチャとかを取り出せるケースもありそう。

        コード生成だと保持される分類の空間も広くてサンプル同士が融合しにくく、
        同一だと数行どころか最悪1行でも完コピと判別できるので目立つけど
        根本は画像でも同じ事になっているんじゃないかな。

      • by Anonymous Coward

        なんか違和感ある内容だなと思ったらまたあなたですか・・・
        いい加減、にわか知識をそれっぽく組み合わせた文書くのやめてくれませんかね。
        一見すると知見ある識者が書いた文に見えるのがたちが悪い。

    • by Anonymous Coward on 2022年07月03日 21時37分 (#4281978)

      そうそう。GPLのコードが入っていて問題ないのなら、FOSSではないソースコード(すなわちMicrosoftが自社で有するWindowsやOfficeのコード)も入っていていいよね?なんで入れないの?っていう。

      https://news.mynavi.jp/techplus/article/20220701-2385316/ [mynavi.jp]

      2. 任意のコードでモデルをトレーニングすることが許可され、そしてライセンス条項に拘束されないというのであれば、なぜFOSSのデータのみを使ったトレーニングを実施したのか。Microsoft WindowsやMicrosoft Officeのコードベースがトレーニングセットに含まれていないのはなぜなのか。

      https://sfconservancy.org/blog/2022/jun/30/give-up-github-launch/ [sfconservancy.org]

      2. If it is, as you claim, permissible to train the model (and allow users to generate code based on that model) on any code whatsoever and not be bound by any licensing terms, why did you choose to only train Copilot's model on FOSS? For example, why are your Microsoft Windows and Office codebases not in your training set?

      • by Anonymous Coward

        学習の結果が複製に該当するかどうかとコードを公開しているかどうかは別の話だからでは?
        Microsoftだろうが誰だろうが、著作権者が公開を希望していないコードを学習に使わないのは当然の配慮に思える。

        個人的にはただの難癖にしか聞こえず、質問2でSFCとやらの信頼度がだいぶ下がった。

      • by Anonymous Coward

        親会社プロダクトのソースコードに子会社がアクセスできたら不味いだろ。
        ハッキングしてコードを入手しろとでも?

        • by Anonymous Coward on 2022年07月04日 10時16分 (#4282157)

          都合が悪いときは、MSが社内で非公開情報を共有しているのはずるいとクリーンルーム開発を要求する
          都合が悪いときは、社内リソースを活用していないのはおかしいという
          それぞれは矛盾していないように見えるが合成すると矛盾する
          都合が悪いのでそのことには気が付かないようにする
          所詮は都合次第よな

    • by Anonymous Coward

      プロプライエタリなソフトでもgccでコンパイルされたバイナリコードは多く使われていて、それに対してGNUやFSFなどがGPLで公開しろと要求したなんて話は聞かないけどなぁ

      • Re:GPLとAI (スコア:3, 興味深い)

        by Anonymous Coward on 2022年07月03日 20時37分 (#4281940)

        コンパイラは変換ツールに過ぎず、バイナリコードはソースコードのライセンスを引き継ぎます。
        AIを膨大な学習元ソースコードから適切なコード片を選び出して提示するツールと捉えると、提示されたコード片が学習元ソースコードのライセンスを引き継ぐのはそんなおかしくない主張かと。

      • by Anonymous Coward

        ターゲットに含まれる可能性のあるランタイムライブラリについては、ランタイムライブラリ例外がありますね。
        要するにGCCでコンパイルした結果に含まれるランタイムライブラリにはGPLが適用されないとわざわざ言っている。
        それ以外は著作権が主張できるレベルのGPL由来の表現がターゲットに含まれないでしょう?

        AIから出てきたものが、何かと似すぎていたらアウトでいいと思うけどね。
        AIを作ること自体はGCCの例と関係ないと思うので置いておく。

      • by Anonymous Coward

        「Microsoft の子会社であること」
        まあこれが唯一の理由であとは後付けみたいなもんなんじゃない?
        「プロプライエタリソフトウェアであること」に発狂してたらスマホは持たずにLinuxでFirefoxしか使わん!みたいな人たちしか残れないし

        • by Anonymous Coward

          まあそれだろうな。今時全部オープンなもので、と言ったら使えるビデオカードがないだろ。

          • by Anonymous Coward

            nvidiaがドライバーをオープンソース化したので、それで良いのでは?

            • by Anonymous Coward

              blob(ブラックボックス)付をオープンソースと言って良いなら。

        • by Anonymous Coward

          HP見てみたら、twitterとかyoutubeの公式アカウントがあってほんと笑えたわ。

      • by Anonymous Coward

        「そのとき」も議論になって、スタブコードはプロプラ運用おっけーって結論出た。つまり、再度、議論は必要。

    • by Anonymous Coward

      その理屈で行くとGPLのコードを読んだ経験のある人間が書いたコードは全部GPLにしろとか言われそう

      • by Anonymous Coward

        俺はこの人のコードに影響を受けた、サンプリング代払え言うなら払うよ、ぐらいの余裕が欲しいよね

        • by Anonymous Coward

          >サンプリング代払え
          そんなライセンス提示されたらそっ閉じ以外の選択肢があるの?

          • by Anonymous Coward

            創造主に汚された身体を認めたくないなら、業界から降りるしかないのでは。

      • by Anonymous Coward

        AIとは言っても知能と呼ぶには程遠く、ソースコードを元に自動生成するプログラムでしかない。

      • by Anonymous Coward

        じっさい、見て書き写すのはNGだが、見て学んで自分の表現で書くのはOKで、
        その差はどこだということで揉めると裁判になる。
        面倒事を避けやすくするにはクリーンルーム手法がある。

  • by Anonymous Coward on 2022年07月04日 8時46分 (#4282119)

    移行した [impress.co.jp]のに!?

    ここに返信
    • by Anonymous Coward

      ここにコメントするならGitとGitHubの区別がつくぐらいのレベルは欲しいな

      • by Anonymous Coward

        誰に言ってるの?

typodupeerror

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

読み込み中...