
Google、音声コーデックLyraをオープンソース化。低いビットレートでも高音質 32
ストーリー by nagazou
圧縮 部門より
圧縮 部門より
Googleが2月25日に発表した音声コーデック「Lyra」がオープンソース化された。Google Open Source Blog上で4月6日に発表された。Googleブログによると、開発者からできるだけ早くフィードバックを得たいことから、オープンソース化したとしている。ライセンス形式はApacheであるという(Google Open Source Blog、GitHub、GIGAZINE)。
Lyraは音声通話やビデオ通話向けに開発されたもので、高性能コーデックとして知られているOpusの下限値である6kbpsよりも低い3kbpsという超低ビットレートでも再生可能とされる。通信時の帯域幅を減らす効果が期待できるとしている(ASCII、GIGAZINEその2)。
Lyraは音声通話やビデオ通話向けに開発されたもので、高性能コーデックとして知られているOpusの下限値である6kbpsよりも低い3kbpsという超低ビットレートでも再生可能とされる。通信時の帯域幅を減らす効果が期待できるとしている(ASCII、GIGAZINEその2)。
読みはリラ?ライラ? (スコア:0)
今のうちに教えて欲しい
Re: (スコア:0)
# いいたいだけです
Re: (スコア:0)
ライリー ライリー ライリー リラー
# それは初代
3kbps (スコア:0)
世界で初めて音声を量子化して通信したSIGSALYが1500bpsだったそうだから、3kbpsは驚くほどビットレートが低いわけじゃないな。
SIGSALY
https://ja.wikipedia.org/wiki/SIGSALY [wikipedia.org]
Re: (スコア:0)
フロッピー1枚に「ローマの休日」が入るのだから、今の動画はもっと圧縮できるだろ、ぐらい不思議な発言
音質(クリアに聞き取れるか)の観点がスッポリ抜けている
Re: (スコア:0)
初期のコーデックでは人が聴こえないデータを削ってギリギリまで容量減らしたのに、それから人間の耳が進化したわけでもないのにこれ以上容量や音質増やす必要あるのか?
オーディオ系のオカルト並みに意味ないことやってる
Re: (スコア:0)
全く全然わかってないなぁ
ハイパスフィルタだけとかいう時代じゃないんだが
Re: (スコア:0)
> これ以上容量や音質増やす必要あるのか?
音声に 3kbps 以上の帯域を使う必要があるのか、そのために新しいコーデック開発なんて必要なのか、という指摘ですか?
私は必要あると思いますし、当時のノイズ交じりの音声で通話する気にもなりません
音質と言っても別にハイレゾみたいな話じゃなくて、それこそ誰でもわかるレベルのノイズが入るかとか言葉が聞き取れるのかとか、そんな最低限の話ですよ
# 映画とかの演出としてノイズが入るのは結構好きですが
Re: (スコア:0)
個人的には電話でも32kHzモノラル程度の品質は欲しいですね。
8kHzとかは勘弁して欲しい。
聞き間違いも多くなるし。
Re:3kbps (スコア:2, 参考になる)
GIGAZINE [gigazine.net] のページに音声サンプルあるので聞いてみてください
私はノイズも少なくてちゃんと音声として聞き取れる、十分な品質と感じました
原理についてはASCII [ascii.jp] が詳しいですが、音声に特化して低ビットレートを達成しており、従来のオーディオコーデックのビットレートはあまり参考にならないかなと
Re: (スコア:0)
減らせるのは「聞こえないデータ」だけじゃないし。
ブロックサイズを大きくして圧縮効率を高めたり、今ではAIで推測補完できる範囲も見込んでデータ減らせる。
あと、特に通話向けの非可逆圧縮では「聞こえるけど影響が少ないって判断したデータ」も削除してるので、
普通に聞いても音質が劣化してる。
Re: (スコア:0)
> AIで推測補完できる範囲も見込んで
あまりイメージがわかないんだけど、再生にAIが必要ってこと?
Re: (スコア:0)
データを受信してからゼロから学習する訳ではないので。
何をAIと見なすかは人によりけりだが、
再生に「何か特別」なものが必要という話ではない。
あと1対多の放送・配信用途だと、エンコードの負荷を大きくして
デコードの負荷を小さくするという戦略が有効だけど
少数グループでの双方向通話ではあまり意味をなさない。
なので、再生だけでなく録音側もベースラインは同様なはず。
Re: (スコア:0)
再生機の補正技術とかを計算の範囲に入れて「補正された後に出る音」を目的に別の音をAIで作る技術もあるしね。
あと圧縮とはちょっと違うが「ニセレゾ」とか呼ばれてる音源は、過去の録音技術で失われる成分を学習して補完してる。
アマチュア無線で使われないかな (スコア:0)
アマ無線でもディジタルモードってあるんですが、
市販のはプロプラなcodec使ってるんでなんだかなー、と思っていたんです。
でも他にもフリーなcodecはありましたから
実験とかしていた例はあったのかもしれません
Re: (スコア:0)
>>市販のはプロプラなcodec使ってるんでなんだかなー、と思っていたんです。
無線機メーカーが市販のCODEC ICを使っている/使うしかない/独自CODECの開発能力が無いからではないですか?
ちなみにLyraをしのぐくらいの(軍用の)超低ビットレートCODECの研究は昔からあるのですが、音声の個人性が失われるほど強烈な処理をしているのでやはり用途が限られます
将来的にopusを置き換えるの? (スコア:0)
ブラウザやDAPが大変だね
※音楽用途ではmp3安定か
Re: (スコア:0)
mp3は高ビットレートでも高域の音質が改善しない
AACは高ビットレートなら高域の音がmp3よりまともになる
でもやはり、音楽用途では、無圧縮LPCMかロスレス圧縮に限る
Re: (スコア:0)
mp3の高域の品質はビットレート高くしてもカットオフ周波数があまり上がらないエンコーダ使っててハイカットされただけなケースが結構ありそう。
Re: (スコア:0)
音楽用途ならAACでしょ
Re: (スコア:0)
Lyraは高圧縮を達成するために機械学習で人間の声に最適化して補完するようになっているので、どんな用途でもOpusより音質が良くなるわけではないと思う
Re:将来的にopusを置き換えるの? (スコア:2)
ヒトの声であるなら、文字を表現するコードを送信して、デコード側で良い感じに味付けするというのはどうだろう。
Re:将来的にopusを置き換えるの? (スコア:1)
ATR(国際電気通信基礎技術研究所)が昔からそういうの研究してたと思う。
(テキストデータ+感情?抑揚?データを伝送して音声合成)
さらには機械翻訳と組み合わせて異言語間のコミュニケーションを実現とか。
30年前は無謀な夢物語感たっぷりだったけど、今時なら結構いけそう。
映像の方も、身振り・表情データを伝送して、アバターをレンダリング、というのをやってたけど、
こっちはVTuberなんかでは技術的には一通りクリアしちゃってる感じ。
Re: (スコア:0)
ヒトの声であるなら、文字を表現するコードを送信して、デコード側で良い感じに味付けするというのはどうだろう。
Lyraは音声通話やビデオ通話向けに開発されたもので
みんな同じ声とか
個々に違うけどみんな萌え声とか
だいぶ不興を買う事になりそうなんだが。。。
Re: (スコア:0)
それってEメールと読み上げソフトを使うのと同じでは…
Re:将来的にopusを置き換えるの? (スコア:2)
リアルタイム処理と言いたいところだけど、かなり難しいかもしらない。
(´・ω・`)
Re: (スコア:0)
それ何てゆかりねっと
Re: (スコア:0)
なんかMIDIみたいになってきましたね。
もう音声はアバターですってことで、割り切るのもいいんじゃないのかな。これなら3kどころか30bpsでも行けると思うぞ。
Re: (スコア:0)
MIDI→MP3→Opusと来て時代は再びMIDIに回帰するのか
確かに楽譜は超圧縮コーデックと取れないこともない
Re: (スコア:0)
音声を好きな声優さんの声にチェンジできると楽しいよね。
もし、女性の上司に叱られるなら田中敦子さんがいいな。
「世の中に不満があるなら自分を変えろ!」
Re: (スコア:0)
VOCALOID「それがリアルタイムでできたら苦労しねえよ」
Re: (スコア:0)
金朋とか?