アカウント名:
パスワード:
LLaMaが使ったデータセットのThe PileのBooks3に大量の著作権侵害の疑いのある書籍データが含まれていたそうな。松尾研究室の言語モデルもThe Pileを使ってる。https://gigazine.net/news/20230821-books-3-ai-data-set/ [gigazine.net]
The Pileの汚染が確定してるんなら色々とアウトじゃん
除外した上で再学習させればいいのに、なんでめんどくさがってやらないんだろうね。何年も前のウィキペディアの編集に著作権無視の文章が追加されてるのが発見されたら、それ以降の版全てを削除するのを拒むやつみたい。嫌なら了承を取るか金で解決すればいいけど、それもやりたくないんでしょ。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家
濾過器 (スコア:0)
LLaMaが使ったデータセットのThe PileのBooks3に大量の著作権侵害の疑いのある書籍データが含まれていたそうな。
松尾研究室の言語モデルもThe Pileを使ってる。
https://gigazine.net/news/20230821-books-3-ai-data-set/ [gigazine.net]
Re: (スコア:0)
The Pileの汚染が確定してるんなら色々とアウトじゃん
Re: (スコア:0)
除外した上で再学習させればいいのに、なんでめんどくさがってやらないんだろうね。
何年も前のウィキペディアの編集に著作権無視の文章が追加されてるのが発見されたら、それ以降の版全てを削除するのを拒むやつみたい。
嫌なら了承を取るか金で解決すればいいけど、それもやりたくないんでしょ。