パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Google、音声コーデックLyraをオープンソース化。低いビットレートでも高音質」記事へのコメント

  • by Anonymous Coward

    世界で初めて音声を量子化して通信したSIGSALYが1500bpsだったそうだから、3kbpsは驚くほどビットレートが低いわけじゃないな。

    SIGSALY
    https://ja.wikipedia.org/wiki/SIGSALY [wikipedia.org]

    • by Anonymous Coward on 2021年04月09日 14時01分 (#4009957)

      フロッピー1枚に「ローマの休日」が入るのだから、今の動画はもっと圧縮できるだろ、ぐらい不思議な発言
      音質(クリアに聞き取れるか)の観点がスッポリ抜けている

      親コメント
      • by Anonymous Coward

        初期のコーデックでは人が聴こえないデータを削ってギリギリまで容量減らしたのに、それから人間の耳が進化したわけでもないのにこれ以上容量や音質増やす必要あるのか?
        オーディオ系のオカルト並みに意味ないことやってる

        • by Anonymous Coward

          全く全然わかってないなぁ
          ハイパスフィルタだけとかいう時代じゃないんだが

        • by Anonymous Coward

          > これ以上容量や音質増やす必要あるのか?
          音声に 3kbps 以上の帯域を使う必要があるのか、そのために新しいコーデック開発なんて必要なのか、という指摘ですか?
          私は必要あると思いますし、当時のノイズ交じりの音声で通話する気にもなりません
          音質と言っても別にハイレゾみたいな話じゃなくて、それこそ誰でもわかるレベルのノイズが入るかとか言葉が聞き取れるのかとか、そんな最低限の話ですよ

          # 映画とかの演出としてノイズが入るのは結構好きですが

          • by Anonymous Coward

            個人的には電話でも32kHzモノラル程度の品質は欲しいですね。
            8kHzとかは勘弁して欲しい。
            聞き間違いも多くなるし。

            • Re:3kbps (スコア:2, 参考になる)

              by Anonymous Coward on 2021年04月09日 14時57分 (#4010005)

              GIGAZINE [gigazine.net] のページに音声サンプルあるので聞いてみてください
              私はノイズも少なくてちゃんと音声として聞き取れる、十分な品質と感じました
              原理についてはASCII [ascii.jp] が詳しいですが、音声に特化して低ビットレートを達成しており、従来のオーディオコーデックのビットレートはあまり参考にならないかなと

              親コメント
        • by Anonymous Coward

          減らせるのは「聞こえないデータ」だけじゃないし。
          ブロックサイズを大きくして圧縮効率を高めたり、今ではAIで推測補完できる範囲も見込んでデータ減らせる。

          あと、特に通話向けの非可逆圧縮では「聞こえるけど影響が少ないって判断したデータ」も削除してるので、
          普通に聞いても音質が劣化してる。

          • by Anonymous Coward

            > AIで推測補完できる範囲も見込んで
            あまりイメージがわかないんだけど、再生にAIが必要ってこと?

            • by Anonymous Coward

              データを受信してからゼロから学習する訳ではないので。
              何をAIと見なすかは人によりけりだが、
              再生に「何か特別」なものが必要という話ではない。

              あと1対多の放送・配信用途だと、エンコードの負荷を大きくして
              デコードの負荷を小さくするという戦略が有効だけど
              少数グループでの双方向通話ではあまり意味をなさない。
              なので、再生だけでなく録音側もベースラインは同様なはず。

              • by Anonymous Coward

                再生機の補正技術とかを計算の範囲に入れて「補正された後に出る音」を目的に別の音をAIで作る技術もあるしね。

                あと圧縮とはちょっと違うが「ニセレゾ」とか呼ばれてる音源は、過去の録音技術で失われる成分を学習して補完してる。

日本発のオープンソースソフトウェアは42件 -- ある官僚

処理中...