パスワードを忘れた? アカウント作成
12779898 story
Google

Google、高精度の英語パーサー「Parsey McParseface」をオープンソース化 36

ストーリー by headless
RRS 部門より
Sraddy McSradface 曰く、

Googleは12日、オープンソースの構文解析用フレームワーク「SyntaxNet」をリリースした。ソースコードはGitHubで入手可能だ(Google Research Blogの記事The Next Webの記事The Registerの記事The Vergeの記事)。

SyntaxNetは自然言語理解(NLU)システムの基盤を提供するTensorFlow上に実装されたもの。今回のリリースには新しいSyntaxNetモデルを作成して独自データで学習させるために必要なコードのほか、学習済みの英語パーサー「Parsey McParseface」も含まれる。

Parsey McParsefaceは同種のモデルの中で最も精度の高いものだといい、英文ニュース記事のセンテンスを構文解析させたところ、94%以上の正確さで単語間の依存関係を抽出できたという。Webページに記載された文章の構文解析はより難しいと考えられるが、こちらも90%以上の正確さに達しているとのことだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by minet (45149) on 2016年05月16日 7時31分 (#3013078) 日記

    「Parsey McParseface」という愛称が、
    最近スラドで記事になった「Boaty McBoatface [science.srad.jp]」と同様の発想のようですが、
    英米ではこういう愛称の付け方が一般的なんでしょうか。

    • by Anonymous Coward

      いや、まさにそのBoaty McBoatfaceの一件以来、(人気一位のBoaty McBoatfaceが実際には船の名前に選ばれなかったこともあってか)色んなものを「〜 Mc〜face」と名付けるのが英語圏のネットで流行りのジョークになっているという、いわゆるミームです。
      つまりGoogleは、極めて一過性のネタをパーサーの名前に使ったことになります。

      • by nim (10479) on 2016年05月16日 11時41分 (#3013163)

        >Googleは、極めて一過性のネタをパーサーの名前に使ったことになります。

        そうはいっても、このパーサはある意味、ただの例みたいなものでしょう。
        エンジンであるSyntaxNetは本体なわけで。

        親コメント
        • by Anonymous Coward

          そうですね。
          今回の命名がどういうものなのか説明したかっただけで、
          別に時の流行りネタで名前を付けたのが悪いとか変だとか言ってるわけではないんですよ。

      • by Anonymous Coward

        Anony McAnonface とかすればいいのかな?

  • by Anonymous Coward on 2016年05月15日 16時46分 (#3012837)

    Google英日翻訳の驚異的なテキトーさは単語置き換えているレベルにしか思えなかった。

    • by Anonymous Coward on 2016年05月15日 22時57分 (#3012997)

      一方で、日本語の構文解析って、もう十何年も停滞してて、新たな進展なんてないからなあ。構文的に省略が多すぎて文脈解析までしないと一意に内容が解析できないなんてこともあるし、限界があったんだよね。だから、省略が少ない短文レベルでそこそこ動く翻訳ソフトができた時点で投資をやめてしまって、停滞したまま。

      親コメント
      • by Anonymous Coward

        利用者が一億人しかいないってのも不利だな。
        中国語とヒンドゥー語が需要上有利か。

        • by Anonymous Coward

          なんて言ってる間にインド人はもちろん中国人も英語を普通にしゃべるようになったり

          • by Anonymous Coward

            実際日本に来てる中国出身のエンジニア達は英語、日本語共にペラペラです。

            真面目に英語教育を考え直した方が良いと思う。
            パソコンやらタブレット教育なんてどうでもいいから。

            • by Anonymous Coward

              「一部の外人エンジニアが英語、日本語ともにペラペラ」ってとこから
              なんで英語教育の再考につながるのかよくわからん

              その理屈だと英語に加えて中国語教育も徹底しなきゃ駄目だろう

              「~なんてどうでもいいから」なんていう思い付きの極論にロクなプランなんて無かろうけど

          • by Anonymous Coward

            インド人はInglishペラペラですよ。訛りなんてきにしない。

        • by Anonymous Coward

          ドイツ語やフランス語よりも多いのだが...

          • 話者人口でいうと、フランス語と日本語は微妙なんじゃないかな。

            親コメント
          • by Anonymous Coward

            英語のついでにサポートできるような言語(と言ったら言い過ぎだろうけど)と、
            韓国語くらいしかメジャーな言語の中で似た言語がない言語とでは、
            だいぶ事情が違うと思う。

          • by Anonymous Coward

            話者人口で言えばドイツ語とフランス語は独仏以外でも日常的に利用されるから人口数の差はそこまで大きくない。

      • by Anonymous Coward

        > 構文的に省略が多すぎて文脈解析までしないと一意に内容が解析できないなんてこともある

        逆に、文が何通りに解釈できるか、どんな解釈があり得るか、なんてことが分かれば、それは有用な情報だと思います。
        技術文書や説明文を書こうとしているとき、その文章に別の解釈がありうることに著者が気付かないでいると、
        あいまいな説明になってしまうことがありますので。誤解のない(少ない)文書を作成する上で、このような観点から
        チェックしてくれるソフトがあると、便利だと思います。(法律家にとっても便利かな)。

        「ここではきものをぬいでください」とか「刑事は血まみれになって逃げる強盗を追いかけた」とか「黒い目のかわいい女の子」とかみたいな。

    • by Anonymous Coward on 2016年05月15日 18時03分 (#3012863)

      英語わかる人が日本語喋れるとは限らないしー。

      親コメント
    • by Anonymous Coward on 2016年05月15日 22時45分 (#3012991)

      「翻訳」を例に出すのはちょっと違うかなと。
      翻訳は元の文の構文を解析したあと、目的の言語(別の言語!)の文法規則で再構成するわけだから、
      けったいな結果が出るとしたら、
      構文解析よりも再構成の方が上手くいかないって
      事だと思う。構文解析は当然してると思ってたよ。

      親コメント
    • by Anonymous Coward

      Google の英日翻訳って否定文が肯定文になったり基本的なレベルでメチャクチャだったけど、この「高精度の英語パーサー」は使ってなかったのかな。

      • >Google の英日翻訳って否定文が肯定文になったり基本的なレベルでメチャクチャだったけど、この「高精度の英語パーサー」は使ってなかったのかな。

        入力されてた日本語の文章が基本的なレベルでメチャクチャだったりして。
        あるいは強烈なTypo込とか(スラド的)

        会話文もネットに書かれている文もけっこうアバウトだし。

        親コメント
      • by Anonymous Coward

        正確さが94%ってことだから、そのダメな文章には17以上の
        単語が使われていたにちがいない。

        • by Anonymous Coward

          ページの↓に書いてある
          > Trademarks property of their respective owners. Comments owned by the poster.
          をGoogle翻訳で日本語に翻訳してみると
          > それぞれの所有者の財産を商標。ポスターが所有するコメント。
          だそうな。果たして高精度のパーサーは役に立っているだろうか?

          • by Anonymous Coward

            Trademarks are property of their respective owners. Comments are owned by the poster.
            だったらどうよ?

            # 動詞ようもない

            • by Anonymous Coward

              商標はそれぞれの所有者に帰属します。コメントはポスターによって所有されています。
              おしいあまりにも惜しい。

        • by Anonymous Coward

          > 正確さが94%ってことだから、そのダメな文章には17以上の単語

          どういう計算ですか?

      • by Anonymous Coward

        対になる Composey McComposeface の実装がまだなのでしょう。

    • by Anonymous Coward

      それでも他の翻訳サイトよりだいぶマシだと思うけどなぁ?

  • by Anonymous Coward on 2016年05月16日 1時44分 (#3013043)

    これってどんなライセンスなんでしょうか?

    • by Anonymous Coward

      ソースを見もしない人が知る必要はないんじゃない?

      • by Anonymous Coward

        見たらGPLで目が汚染された!とか言う人がいるので、ソースを見る前に知りたいという需要もあるかも。

        いくつかソースファイルを見たけどApache License 2.0でした。ただし別のライセンスのファイルが混じってる可能性は否定できません。
        READMEにライセンスのことが書いてないのは不親切だね。

        • by Anonymous Coward

          GPLと闘う者は、その過程で自らがGPLと化さぬよう心せよ。
          おまえが長くGPLを覗くならば、GPLもまた等しくおまえを見返すのだ。

typodupeerror

アレゲは一日にしてならず -- アレゲ研究家

読み込み中...