2. If it is, as you claim, permissible to train the model (and allow users to generate code based on that model) on any code whatsoever and not be bound by any licensing terms, why did you choose to only train Copilot's model on FOSS? For example, why are your Microsoft Windows and Office codebases not in your training set?
GPLとAI (スコア:0)
SFC的にはGPLのコードを学習させて作ったAIはGPLで公開しないといけないけど、Githubはそれをしていないってからアウトってこと?
それより、そのAIが生成したコードこそGPL(他)にしないといけなさそうだけど、そんなのお遊びでしか使えなくね?
Re:GPLとAI (スコア:2)
いま各国で法整備が進んでいて、ネットから集めたデータで学習させたAIは元データをすごく抽象化して知的な理解を構築しているのでもはやネタ元の著作権とかありえん、という方向に向かってます。実際に絵とか写真だとデータが膨大すぎて誰も検証できておらずその建前が通りつつあるのですが、テキストに関してはうまく喋らせるとソースを一語一句違えず吐くのでこれヤバいんじゃ…? という懸念が広がってます。
で、その懸念が高まってついにGItHubから逃げたプロジェクトが出たのがこの一件です。成り行きによってはネットから拾った絵をカオスラウンジする諸処のAIが一緒に滅びるか、または逆に合法化します。
Re: (スコア:0)
各国の状況は存じませんが、それは学習データとして利用することが複製に該当するかどうかの話であって、モデルの生成物の話ではないと思います。
モデルの生成物が学習元データと複製とみなされるほど似ていれば、当然複製になると思います。
また、うろおぼえですが、機械学習モデルは著作権の主体にはなれないという判例は少なくとも米国で出ていたと思います。
つまり、実際には何も免責されておらず、Copilotの結果が誰かの著作物と似ていれば、その利用者が著作権侵害に問われることになると思います。
なぜか賞賛されているAmazonのCodeWhispererですが、どうも生成コードがモデルの学習で利用したコードと類似している場合に警告を出してくれる機能があるようです。
その警告を見て、利用者が生成結果を利用するかどうか判断できるわけです。
この辺りが落としどころに思えるので、GitHubも同様の機能を実装するんじゃないですかね。
Re: (スコア:0)
> 類似している場合に警告
卒論や課題でコピペがばれないように言い回しを変えるのと似たものを感じた。
Re: (スコア:0)
画像分類用DNNの敵対的サンプル(≒DNNが内包する〇〇らしい画像)は人間には理解不能な砂嵐ではあるけど、
抽象化されてるっていうか人間には判別困難な特徴量(特に質感周り)などを直で拾ってるような印象。
画像系のDNNも強い相関のあるピクセルグループ単位でなら元データを吐き出すのではないかな。
画像分類だと画像は元データが1サンプルあたりでも多めで保持すべき分類の空間も狭いから
部分構造が抽出できても元絵が取れたと判断しにくく問題になりにくいだろうとは思うけれど。
紙幣のユーリオンや繰り返し構造になってるステガノグラフィみたいな部分構造は取れそうな気がする。
学習元が3DCGなら有償アセットのテクスチャとかを取り出せるケースもありそう。
コード生成だと保持される分類の空間も広くてサンプル同士が融合しにくく、
同一だと数行どころか最悪1行でも完コピと判別できるので目立つけど
根本は画像でも同じ事になっているんじゃないかな。
Re: (スコア:0)
なんか違和感ある内容だなと思ったらまたあなたですか・・・
いい加減、にわか知識をそれっぽく組み合わせた文書くのやめてくれませんかね。
一見すると知見ある識者が書いた文に見えるのがたちが悪い。
Re: (スコア:0)
では90(35300)より知識ある識者を屏風から出していただきたく。え、まだ絵に描いてもいない? 困るなあ。
Re: (スコア:0)
それはわからんけど、いつもself moderationして(スコア:2)なのはいかんよなぁ
Re:GPLとAI (スコア:2)
IDとってカルマ貯めればカルマ補正(デフォルト: +1)がつくのでイカン理由がわかりません
Re: (スコア:0)
なるほど、ID取ってカルマ貯めてついでに自己モデやお仲間モデすれば、支離滅裂な放言が許されるどころか持ち上げられるのが/.ってことか
つまり内容ではなく発言者で評価が決まるわけだな
いや知ってたけど
Re: (スコア:0)
「/.」ではなく「スラド」です。
頭をアップデートしましょう。
頭が古いわりに文末に”。”を付けない作法とは。
Re: (スコア:0)
IDとACの発言価値が同じわけないだろw
それも2ぐらいでガタガタいういかにも小物
Re: (スコア:0)
モデは直近で誰かにプラスされたIDのみ配布、かつシステム上自演は不可
嫌なら「称賛されてるIDにウケが良い外面」をきちんと整えればいいだけ
努力、してますか?
Re: (スコア:0)
直近で誰かにプラスされたID?
カルマプラスになったあとずっとAC投稿やログインなしで放置してた頃もモデ権降ってきた気がするけどなぁ……
最近はログインすらしてないけど。
Re: (スコア:0)
最初からスコア:2の人がおるんや。んでnamedは常にモデ持ってるわけでもないんや。
Re: (スコア:0)
正確には、カルマボーナスを使う事で最初からスコア:2に出来る。 [srad.jp]
プラスモデされないままだとカルマボーナスが消費され尽くして最初からスコア:2に出来なくなる。
なお、オプションで、「カルマボーナスを使わない」にチェックが入ってると、自動でスコア:2にならない。
Re: (スコア:0)
理想と現実は違う。
AIの作り方によっては学習データと一致するようなのばかり出力するものにもなってしまう。
そして困ったことに、まったく同じAIと学習データのセットであってもそういうことが起きる。過学習させるとそういう確率が増えてくから。
だから理想論としてはAIは抽象化されてるからセーフなんだけど、現実論としてはケースバイケースになる。
でも一言で「ケースバイケース」といっても、現実的にこういう分野で完全一致ばかり出力するAIを作るわけがないし、だからそれがアウトなのかセーフなのかをどう判断するかというのが非常に難しい。ぶっちゃけ無理。
「こういうデータ与えたらこういう結果になった。これは元データのこの著作権を犯してるからアウトだ」という侵害例を列挙して、その各権利者が裁判にゆだねるしかない。まぁ無理だよね。
Re:GPLとAI (スコア:1)
そうそう。GPLのコードが入っていて問題ないのなら、FOSSではないソースコード(すなわちMicrosoftが自社で有するWindowsやOfficeのコード)も入っていていいよね?なんで入れないの?っていう。
https://news.mynavi.jp/techplus/article/20220701-2385316/ [mynavi.jp]
https://sfconservancy.org/blog/2022/jun/30/give-up-github-launch/ [sfconservancy.org]
Re: (スコア:0)
学習の結果が複製に該当するかどうかとコードを公開しているかどうかは別の話だからでは?
Microsoftだろうが誰だろうが、著作権者が公開を希望していないコードを学習に使わないのは当然の配慮に思える。
個人的にはただの難癖にしか聞こえず、質問2でSFCとやらの信頼度がだいぶ下がった。
Re: (スコア:0)
>著作権者が公開を希望していないコードを学習に使わないのは当然の配慮に思える。
んじゃなんで「 任意のコードでモデルをトレーニングすることが許可され、そしてライセンス条項に拘束されない」のたまってるのかってことよ。思いっきり拘束されてんじゃんと。
要するに「GPLのソースコード使ったけど成果は公開しないよ。だってトレーニングに使ったといってもその成果とは関係ないじゃん」って言いたいがためと思っても仕方ないよ。
マイクロソフトの子会社なんだからマイクロソフトと交渉してソースを提供してもらわないのはなぜ?
断られたとかちゃんと理由を言えよ(そして答えはない)ってこと。
あと配慮云々な使ってるコードにも配慮して出力されたコードにも適切なライセンスつけるべきだろ。
なんで公開してない方に「だけ」配慮してんだよ。
Re: (スコア:0)
親会社プロダクトのソースコードに子会社がアクセスできたら不味いだろ。
ハッキングしてコードを入手しろとでも?
Re:GPLとAI (スコア:1)
都合が悪いときは、MSが社内で非公開情報を共有しているのはずるいとクリーンルーム開発を要求する
都合が悪いときは、社内リソースを活用していないのはおかしいという
それぞれは矛盾していないように見えるが合成すると矛盾する
都合が悪いのでそのことには気が付かないようにする
所詮は都合次第よな
Re: (スコア:0)
よな!よな!
Re: (スコア:0)
Q: 何故入れないのか?
(一般向けの回答)
入れる必要が無いからです。「入れて問題無い」と「入れる義務がある」ってのは別の話です。
(研究者・エンジニア向けの回答)
オープンなソースコードを使わないと、再現性が保てなくなるからです。
トレーニング&性能評価等の追加試験をおこなうには、オープンなソースコードを使うことが必要不可欠です。
(スラド向けの回答)
揚げ足取りをしたいなら、もう少しマシな質問を用意してください。
Re: (スコア:0)
プロプライエタリなソフトでもgccでコンパイルされたバイナリコードは多く使われていて、それに対してGNUやFSFなどがGPLで公開しろと要求したなんて話は聞かないけどなぁ
Re:GPLとAI (スコア:3, 興味深い)
コンパイラは変換ツールに過ぎず、バイナリコードはソースコードのライセンスを引き継ぎます。
AIを膨大な学習元ソースコードから適切なコード片を選び出して提示するツールと捉えると、提示されたコード片が学習元ソースコードのライセンスを引き継ぐのはそんなおかしくない主張かと。
Re: (スコア:0)
コンパイラがやってることも構文解析して、いい感じにアセンブリコード片割り当ててるような
そのアセンブリコード片の出所も気にしないといけないのか
Re: (スコア:0)
確かにアセンブリコード片が「誰がやってもそうなる」範囲に収まってなければ著作権が認められる可能性はありそうですが、既に #4281947 が説明してくださってるようにgccには例外条項もありますので恐らく大丈夫。
Re: (スコア:0)
ターゲットに含まれる可能性のあるランタイムライブラリについては、ランタイムライブラリ例外がありますね。
要するにGCCでコンパイルした結果に含まれるランタイムライブラリにはGPLが適用されないとわざわざ言っている。
それ以外は著作権が主張できるレベルのGPL由来の表現がターゲットに含まれないでしょう?
AIから出てきたものが、何かと似すぎていたらアウトでいいと思うけどね。
AIを作ること自体はGCCの例と関係ないと思うので置いておく。
Re: (スコア:0)
「Microsoft の子会社であること」
まあこれが唯一の理由であとは後付けみたいなもんなんじゃない?
「プロプライエタリソフトウェアであること」に発狂してたらスマホは持たずにLinuxでFirefoxしか使わん!みたいな人たちしか残れないし
Re: (スコア:0)
まあそれだろうな。今時全部オープンなもので、と言ったら使えるビデオカードがないだろ。
Re: (スコア:0)
nvidiaがドライバーをオープンソース化したので、それで良いのでは?
Re: (スコア:0)
blob(ブラックボックス)付をオープンソースと言って良いなら。
Re: (スコア:0)
HP見てみたら、twitterとかyoutubeの公式アカウントがあってほんと笑えたわ。
Re: (スコア:0)
Facebookもあるのな。mastdonはわかるけど。
YouTubeなんて使わず、自前サーバで配信する気概ぐらい持たないと、説得力ないわな。
Re: (スコア:0)
「そのとき」も議論になって、スタブコードはプロプラ運用おっけーって結論出た。つまり、再度、議論は必要。
Re: (スコア:0)
その理屈で行くとGPLのコードを読んだ経験のある人間が書いたコードは全部GPLにしろとか言われそう
Re: (スコア:0)
俺はこの人のコードに影響を受けた、サンプリング代払え言うなら払うよ、ぐらいの余裕が欲しいよね
Re: (スコア:0)
>サンプリング代払え
そんなライセンス提示されたらそっ閉じ以外の選択肢があるの?
Re: (スコア:0)
創造主に汚された身体を認めたくないなら、業界から降りるしかないのでは。
Re: (スコア:0)
創造主をチェーンソーでぶった切るというのはどうでしょう
Re: (スコア:0)
AIとは言っても知能と呼ぶには程遠く、ソースコードを元に自動生成するプログラムでしかない。
Re: (スコア:0)
Re: (スコア:0)
じっさい、見て書き写すのはNGだが、見て学んで自分の表現で書くのはOKで、
その差はどこだということで揉めると裁判になる。
面倒事を避けやすくするにはクリーンルーム手法がある。
Re: (スコア:0)
既存コードのパクりと言われないように、バグらない範囲で改変してくれるAIが欲しいな