SFC、FOSS 開発者に GitHub の使用をやめるよう呼びかけ 96
ストーリー by headless
計画 部門より
計画 部門より
Software Freedom Conservancy (SFC) が GitHub の使用をやめると宣言し、他の FOSS プロジェクトが GitHub の使用をやめられるよう手助けする長期的な計画を発表した
(SFC のブログ記事、
The Register の記事)。
SFC では GitHub がプロプライエタリソフトウェアであることや商用プロジェクトを受注していること、コピーレフトの考え方に否定的であること、Microsoft の子会社であることなどを理由に以前から GitHub の使用に賛成してはいなかったが、今回の動きは GitHub が AI ペアプログラマーサービス「Copilot」の一般提供開始をアナウンスしたことがきっかけのようだ。
Copilot の学習には GitHub でホスティングしたコードのみを使用したと説明されているが、ソフトウェアライセンスの問題が明確になっていないという。GitHub 前 CEO の Nat Friedman 氏が ML システムの学習に公開データを使用することはフェアユースにあたると述べているものの、SFC は法的な判断が出ていないと反論する。AWS が先日プレビュー版の提供を開始した同様のコード生成ツール CodeWhisperer も Copilot と同様に機械学習によるコード生成ツールだが、学習に使用したコードのライセンスを尊重する姿勢ははるかにいいとのこと。
SFC は GitHub の使用をやめるための情報を提供する特設サイト「Give Up GitHub」を公開しており、GitHub に代わるオープンソースなホスティングサービスとして Codeberg と sourcehut、セルフホスト型サービスとして Gitea や GitLab Community Edition、sourcehut を挙げている。
SFC では GitHub がプロプライエタリソフトウェアであることや商用プロジェクトを受注していること、コピーレフトの考え方に否定的であること、Microsoft の子会社であることなどを理由に以前から GitHub の使用に賛成してはいなかったが、今回の動きは GitHub が AI ペアプログラマーサービス「Copilot」の一般提供開始をアナウンスしたことがきっかけのようだ。
Copilot の学習には GitHub でホスティングしたコードのみを使用したと説明されているが、ソフトウェアライセンスの問題が明確になっていないという。GitHub 前 CEO の Nat Friedman 氏が ML システムの学習に公開データを使用することはフェアユースにあたると述べているものの、SFC は法的な判断が出ていないと反論する。AWS が先日プレビュー版の提供を開始した同様のコード生成ツール CodeWhisperer も Copilot と同様に機械学習によるコード生成ツールだが、学習に使用したコードのライセンスを尊重する姿勢ははるかにいいとのこと。
SFC は GitHub の使用をやめるための情報を提供する特設サイト「Give Up GitHub」を公開しており、GitHub に代わるオープンソースなホスティングサービスとして Codeberg と sourcehut、セルフホスト型サービスとして Gitea や GitLab Community Edition、sourcehut を挙げている。
ヴィーガニズムやな (スコア:2, すばらしい洞察)
FOSSを名乗るのならちょっとでもプロプラに関わってる企業はevilみたいな。
Windows上で開発してたら天罰かもしれない。
どうしてこうネット上だと原理主義化しやすいのだろうか。内ゲバ狙いで偽装して燃やすのは面白いかもしれんが。
Re:ヴィーガニズムやな (スコア:1)
逆張ってイキるのはいいけど、これ著作権問題でしょ?
勝手に「機械学習無罪」で再配布してる盗人側を擁護するのは筋悪くない?
Re: (スコア:0)
どうしてこうネット上だと原理主義化しやすいのだろうか。内ゲバ狙いで偽装して燃やすのは面白いかもしれんが。
少数派の原理主義者でも仲間を見つけられるし、原理主義者だけで集まれば、自分達が多数派だと錯覚できるから。
所謂エコーチェンバー効果だね。
Re: (スコア:0)
何であれ分散化は大事
一社独占という状態はよろしくない
SNSもそうだけどね
湘南藤沢キャンパス (スコア:1)
SFCと聞いて、湘南藤沢キャンパスとおもって記事見たら違った
Re: (スコア:0)
SFCといえばスーパファミコンじゃないの?
Re: (スコア:0)
BUBCOM-80 [ipsj.or.jp]を売ってた会社だろ、常識的には。
# おっさんホイホイ
Re: (スコア:0)
BUBCOM-80 [ipsj.or.jp]を売ってた会社だろ、常識的には。
# おっさんホイホイ
おっさんではなくじいさんでは。
Re: (スコア:0)
磁気バブルメモリか。どうやってバブルを綺麗に並べて、記録できるのか、
未だに理解してない。バブル列が出来るように、パターンとか切っているんかな
ソースコード書くのにAIツールを使うな!ならわかるけど (スコア:1)
AIでコードを書くと場合によっては問題があるかもしれないよ、というのならわかる。
でも、ホストしたコードがAIの学習データとして使われるからgithubをやめろというのはどうなんだろう。使われるのが嫌な人はgithubやめたらいいだろうけどそれでもさらにライセンス無視でクロールされて勝手に学習データに使われる可能性もある。だからそもそもオープンにせずにソースコードクローズドにした方がいいよぐらいならわかるけど。
#ソースコードじゃないけど最近の記事にこんなのがあった。恐ろしい
文章生成AI「GPT-3」にハンドルネームを入力したら本名がフルネームで出力されたという報告
https://gigazine.net/news/20220627-gpt-3-reveal-full-name/ [gigazine.net]
Re: (スコア:0)
ソースコードや個人情報漏洩リスクを懸念してインターネット禁止しちゃう某社のことですか?
Re: (スコア:0)
似たような事例かも?ということで、コメントまでそのまま元のコードが出て来た事例。
https://twitter.com/mitsuhiko/status/1410886329924194309 [twitter.com]
ただし、GitHub Copilot がブロックする語句のリスト [developers.srad.jp]で個別に排除されたと思われる。
Re: (スコア:0)
「GitHubに絵をうpるとコラ素材に使われる」みたいな話だから
そりゃ引き揚げるのが正解じゃないの
Re: (スコア:0)
GitHub以外なら誰にも盗用されないというなら引越しが正解だろうけどね。そんな保証がない。
Re: (スコア:0)
機械が自動的に24時間体制で盗用するかもしれないというのは量的な違いが質的な違いを産む例だと思う
Re:ソースコード書くのにAIツールを使うな!ならわかるけど (スコア:1)
アクセスフリーであることとパブリックドメインであることは違うよ。
君の主張は「好き勝手に使われるのが嫌なら公開するな」ってことで、それはパブリックドメインか非公開しかない世界になって確実に今よりも不自由で不便になる。
codeberg 使ってる (スコア:1)
しばらく前から個人用で codeberg を使っている。
git コマンドは remote の URL を変えればもちろん動く。
リポジトリを GitHub にミラーする設定も可能 (逆はできない)。
バックエンドが gitea なので、GitHub を使ったことがあれば codeberg の UI もすぐに分かるはず。
GitHub Pages に相当する機能もあるので、ホームページをホストするのに使っている。
一方 sourcehut は独自のシステムを使っている。
使い方も全く異なるので興味があるけど、有料なので自分は試してない..
GPLとAI (スコア:0)
SFC的にはGPLのコードを学習させて作ったAIはGPLで公開しないといけないけど、Githubはそれをしていないってからアウトってこと?
それより、そのAIが生成したコードこそGPL(他)にしないといけなさそうだけど、そんなのお遊びでしか使えなくね?
Re:GPLとAI (スコア:2)
いま各国で法整備が進んでいて、ネットから集めたデータで学習させたAIは元データをすごく抽象化して知的な理解を構築しているのでもはやネタ元の著作権とかありえん、という方向に向かってます。実際に絵とか写真だとデータが膨大すぎて誰も検証できておらずその建前が通りつつあるのですが、テキストに関してはうまく喋らせるとソースを一語一句違えず吐くのでこれヤバいんじゃ…? という懸念が広がってます。
で、その懸念が高まってついにGItHubから逃げたプロジェクトが出たのがこの一件です。成り行きによってはネットから拾った絵をカオスラウンジする諸処のAIが一緒に滅びるか、または逆に合法化します。
Re: (スコア:0)
各国の状況は存じませんが、それは学習データとして利用することが複製に該当するかどうかの話であって、モデルの生成物の話ではないと思います。
モデルの生成物が学習元データと複製とみなされるほど似ていれば、当然複製になると思います。
また、うろおぼえですが、機械学習モデルは著作権の主体にはなれないという判例は少なくとも米国で出ていたと思います。
つまり、実際には何も免責されておらず、Copilotの結果が誰かの著作物と似ていれば、その利用者が著作権侵害に問われることになると思います。
なぜか賞賛されているAmazonのCodeWhispererですが、どうも生成コードがモデルの学習で利用したコードと類似している場合に警告を出してくれる機能があるようです。
その警告を見て、利用者が生成結果を利用するかどうか判断できるわけです。
この辺りが落としどころに思えるので、GitHubも同様の機能を実装するんじゃないですかね。
Re: (スコア:0)
> 類似している場合に警告
卒論や課題でコピペがばれないように言い回しを変えるのと似たものを感じた。
Re: (スコア:0)
画像分類用DNNの敵対的サンプル(≒DNNが内包する〇〇らしい画像)は人間には理解不能な砂嵐ではあるけど、
抽象化されてるっていうか人間には判別困難な特徴量(特に質感周り)などを直で拾ってるような印象。
画像系のDNNも強い相関のあるピクセルグループ単位でなら元データを吐き出すのではないかな。
画像分類だと画像は元データが1サンプルあたりでも多めで保持すべき分類の空間も狭いから
部分構造が抽出できても元絵が取れたと判断しにくく問題になりにくいだろうとは思うけれど。
紙幣のユーリオンや繰り返し構造になってるステガノグラフィみたいな部分構造は取れそうな気がする。
学習元が3DCGなら有償アセットのテクスチャとかを取り出せるケースもありそう。
コード生成だと保持される分類の空間も広くてサンプル同士が融合しにくく、
同一だと数行どころか最悪1行でも完コピと判別できるので目立つけど
根本は画像でも同じ事になっているんじゃないかな。
Re: (スコア:0)
なんか違和感ある内容だなと思ったらまたあなたですか・・・
いい加減、にわか知識をそれっぽく組み合わせた文書くのやめてくれませんかね。
一見すると知見ある識者が書いた文に見えるのがたちが悪い。
Re:GPLとAI (スコア:2)
IDとってカルマ貯めればカルマ補正(デフォルト: +1)がつくのでイカン理由がわかりません
Re:GPLとAI (スコア:1)
そうそう。GPLのコードが入っていて問題ないのなら、FOSSではないソースコード(すなわちMicrosoftが自社で有するWindowsやOfficeのコード)も入っていていいよね?なんで入れないの?っていう。
https://news.mynavi.jp/techplus/article/20220701-2385316/ [mynavi.jp]
https://sfconservancy.org/blog/2022/jun/30/give-up-github-launch/ [sfconservancy.org]
Re: (スコア:0)
学習の結果が複製に該当するかどうかとコードを公開しているかどうかは別の話だからでは?
Microsoftだろうが誰だろうが、著作権者が公開を希望していないコードを学習に使わないのは当然の配慮に思える。
個人的にはただの難癖にしか聞こえず、質問2でSFCとやらの信頼度がだいぶ下がった。
Re: (スコア:0)
親会社プロダクトのソースコードに子会社がアクセスできたら不味いだろ。
ハッキングしてコードを入手しろとでも?
Re:GPLとAI (スコア:1)
都合が悪いときは、MSが社内で非公開情報を共有しているのはずるいとクリーンルーム開発を要求する
都合が悪いときは、社内リソースを活用していないのはおかしいという
それぞれは矛盾していないように見えるが合成すると矛盾する
都合が悪いのでそのことには気が付かないようにする
所詮は都合次第よな
Re: (スコア:0)
プロプライエタリなソフトでもgccでコンパイルされたバイナリコードは多く使われていて、それに対してGNUやFSFなどがGPLで公開しろと要求したなんて話は聞かないけどなぁ
Re:GPLとAI (スコア:3, 興味深い)
コンパイラは変換ツールに過ぎず、バイナリコードはソースコードのライセンスを引き継ぎます。
AIを膨大な学習元ソースコードから適切なコード片を選び出して提示するツールと捉えると、提示されたコード片が学習元ソースコードのライセンスを引き継ぐのはそんなおかしくない主張かと。
Re: (スコア:0)
ターゲットに含まれる可能性のあるランタイムライブラリについては、ランタイムライブラリ例外がありますね。
要するにGCCでコンパイルした結果に含まれるランタイムライブラリにはGPLが適用されないとわざわざ言っている。
それ以外は著作権が主張できるレベルのGPL由来の表現がターゲットに含まれないでしょう?
AIから出てきたものが、何かと似すぎていたらアウトでいいと思うけどね。
AIを作ること自体はGCCの例と関係ないと思うので置いておく。
Re: (スコア:0)
「Microsoft の子会社であること」
まあこれが唯一の理由であとは後付けみたいなもんなんじゃない?
「プロプライエタリソフトウェアであること」に発狂してたらスマホは持たずにLinuxでFirefoxしか使わん!みたいな人たちしか残れないし
Re: (スコア:0)
まあそれだろうな。今時全部オープンなもので、と言ったら使えるビデオカードがないだろ。
Re: (スコア:0)
nvidiaがドライバーをオープンソース化したので、それで良いのでは?
Re: (スコア:0)
blob(ブラックボックス)付をオープンソースと言って良いなら。
Re: (スコア:0)
HP見てみたら、twitterとかyoutubeの公式アカウントがあってほんと笑えたわ。
Re: (スコア:0)
「そのとき」も議論になって、スタブコードはプロプラ運用おっけーって結論出た。つまり、再度、議論は必要。
Re: (スコア:0)
その理屈で行くとGPLのコードを読んだ経験のある人間が書いたコードは全部GPLにしろとか言われそう
Re: (スコア:0)
俺はこの人のコードに影響を受けた、サンプリング代払え言うなら払うよ、ぐらいの余裕が欲しいよね
Re: (スコア:0)
>サンプリング代払え
そんなライセンス提示されたらそっ閉じ以外の選択肢があるの?
Re: (スコア:0)
創造主に汚された身体を認めたくないなら、業界から降りるしかないのでは。
Re: (スコア:0)
AIとは言っても知能と呼ぶには程遠く、ソースコードを元に自動生成するプログラムでしかない。
Re: (スコア:0)
じっさい、見て書き写すのはNGだが、見て学んで自分の表現で書くのはOKで、
その差はどこだということで揉めると裁判になる。
面倒事を避けやすくするにはクリーンルーム手法がある。
やっと (スコア:0)
移行した [impress.co.jp]のに!?
Re: (スコア:0)
ここにコメントするならGitとGitHubの区別がつくぐらいのレベルは欲しいな
Re: (スコア:0)
誰に言ってるの?
Re:やっと (スコア:1)
リンク先 [impress.co.jp]には、
とあって、GitとGitHubを区別してる。
で、#4282119が何をどう勘違いしてるって話をしてるの?
Re: (スコア:0)
思考が硬直した人間が案外多いのがインターネットの普及で明るみに出ました。
宗教的なものに染まりやすいのか、そもそも論理的な思考ができないのか、最初から人間は愚かなのかはわからんが。
人間は愚かなので滅ぼしたいと思ったことありませんか?一緒に宇宙へ隕石を探しに行きませんか?
Re: (スコア:0)
陰謀論者はまあ病気ですからね…
信じる方も無論色々残念だし…
Re: (スコア:0)
似たようなものかもしれないけど、1点だけ違う所も。
反ワクは単なる思想だけの話ではなくて実際それを信じて打たない人が増えると
社会全体での感染リスクを上げる事になったり医療費増大を招くことになるけど
反GitHubなら単なる思想の問題だけであって特段社会全体に悪影響はない。
せいぜい部外者からすればプルリクしやすいかどうか程度の差にしかならんし。
まあ好きにすれば?程度の話。
元々どこのサービスを使うのかは個人の自由の範疇。