
Google、高精度の英語パーサー「Parsey McParseface」をオープンソース化 36
ストーリー by headless
RRS 部門より
RRS 部門より
Sraddy McSradface 曰く、
Googleは12日、オープンソースの構文解析用フレームワーク「SyntaxNet」をリリースした。ソースコードはGitHubで入手可能だ(Google Research Blogの記事、 The Next Webの記事、 The Registerの記事、 The Vergeの記事)。
SyntaxNetは自然言語理解(NLU)システムの基盤を提供するTensorFlow上に実装されたもの。今回のリリースには新しいSyntaxNetモデルを作成して独自データで学習させるために必要なコードのほか、学習済みの英語パーサー「Parsey McParseface」も含まれる。
Parsey McParsefaceは同種のモデルの中で最も精度の高いものだといい、英文ニュース記事のセンテンスを構文解析させたところ、94%以上の正確さで単語間の依存関係を抽出できたという。Webページに記載された文章の構文解析はより難しいと考えられるが、こちらも90%以上の正確さに達しているとのことだ。
愛称 (スコア:1)
「Parsey McParseface」という愛称が、
最近スラドで記事になった「Boaty McBoatface [science.srad.jp]」と同様の発想のようですが、
英米ではこういう愛称の付け方が一般的なんでしょうか。
Re: (スコア:0)
いや、まさにそのBoaty McBoatfaceの一件以来、(人気一位のBoaty McBoatfaceが実際には船の名前に選ばれなかったこともあってか)色んなものを「〜 Mc〜face」と名付けるのが英語圏のネットで流行りのジョークになっているという、いわゆるミームです。
つまりGoogleは、極めて一過性のネタをパーサーの名前に使ったことになります。
Re:愛称 (スコア:1)
>Googleは、極めて一過性のネタをパーサーの名前に使ったことになります。
そうはいっても、このパーサはある意味、ただの例みたいなものでしょう。
エンジンであるSyntaxNetは本体なわけで。
Re: (スコア:0)
そうですね。
今回の命名がどういうものなのか説明したかっただけで、
別に時の流行りネタで名前を付けたのが悪いとか変だとか言ってるわけではないんですよ。
Re: (スコア:0)
Anony McAnonface とかすればいいのかな?
構文解析していたことに驚愕 (スコア:0)
Google英日翻訳の驚異的なテキトーさは単語置き換えているレベルにしか思えなかった。
Re:構文解析していたことに驚愕 (スコア:3, 興味深い)
一方で、日本語の構文解析って、もう十何年も停滞してて、新たな進展なんてないからなあ。構文的に省略が多すぎて文脈解析までしないと一意に内容が解析できないなんてこともあるし、限界があったんだよね。だから、省略が少ない短文レベルでそこそこ動く翻訳ソフトができた時点で投資をやめてしまって、停滞したまま。
Re: (スコア:0)
利用者が一億人しかいないってのも不利だな。
中国語とヒンドゥー語が需要上有利か。
Re: (スコア:0)
なんて言ってる間にインド人はもちろん中国人も英語を普通にしゃべるようになったり
Re: (スコア:0)
実際日本に来てる中国出身のエンジニア達は英語、日本語共にペラペラです。
真面目に英語教育を考え直した方が良いと思う。
パソコンやらタブレット教育なんてどうでもいいから。
Re: (スコア:0)
「一部の外人エンジニアが英語、日本語ともにペラペラ」ってとこから
なんで英語教育の再考につながるのかよくわからん
その理屈だと英語に加えて中国語教育も徹底しなきゃ駄目だろう
「~なんてどうでもいいから」なんていう思い付きの極論にロクなプランなんて無かろうけど
Re: (スコア:0)
インド人はInglishペラペラですよ。訛りなんてきにしない。
Re: (スコア:0)
ドイツ語やフランス語よりも多いのだが...
Re:構文解析していたことに驚愕 (スコア:1)
話者人口でいうと、フランス語と日本語は微妙なんじゃないかな。
Re:構文解析していたことに驚愕 (スコア:2)
フランス語、イタリア、スペイン、ポルトガルは、方言レベルだから、一つできれば、容易じゃないかと、ドイツは、英語とお友達。
まあ、どっちが方言はともかく、日本語やるより、楽そう。
ハングルが日本語に近いというが、よく分らない。
インドは、、、ヒンディーが多いと思ったが、いったい幾つ方言があるか? いや、方言で済むか?
Re:構文解析していたことに驚愕 (スコア:1)
言語学は完全に門外漢だけど、語族が違うものがあるので全然方言レベルにならない気がする。
# 中国語も北京語と広東語は全然別物らしいし。日本語だと沖縄方言も他の方言とはかなり違うから、話されたら意思疎通できるかわからない。
# 英語とのクレオール言語である小笠原方言とかも面白いかも?でももう話者は殆どいないらしい…
Re:構文解析していたことに驚愕 (スコア:1)
Re: (スコア:0)
英語のついでにサポートできるような言語(と言ったら言い過ぎだろうけど)と、
韓国語くらいしかメジャーな言語の中で似た言語がない言語とでは、
だいぶ事情が違うと思う。
Re: (スコア:0)
話者人口で言えばドイツ語とフランス語は独仏以外でも日常的に利用されるから人口数の差はそこまで大きくない。
Re: (スコア:0)
> 構文的に省略が多すぎて文脈解析までしないと一意に内容が解析できないなんてこともある
逆に、文が何通りに解釈できるか、どんな解釈があり得るか、なんてことが分かれば、それは有用な情報だと思います。
技術文書や説明文を書こうとしているとき、その文章に別の解釈がありうることに著者が気付かないでいると、
あいまいな説明になってしまうことがありますので。誤解のない(少ない)文書を作成する上で、このような観点から
チェックしてくれるソフトがあると、便利だと思います。(法律家にとっても便利かな)。
「ここではきものをぬいでください」とか「刑事は血まみれになって逃げる強盗を追いかけた」とか「黒い目のかわいい女の子」とかみたいな。
Re:構文解析していたことに驚愕 (スコア:1)
英語わかる人が日本語喋れるとは限らないしー。
Re:構文解析していたことに驚愕 (スコア:1)
「翻訳」を例に出すのはちょっと違うかなと。
翻訳は元の文の構文を解析したあと、目的の言語(別の言語!)の文法規則で再構成するわけだから、
けったいな結果が出るとしたら、
構文解析よりも再構成の方が上手くいかないって
事だと思う。構文解析は当然してると思ってたよ。
Re: (スコア:0)
Google の英日翻訳って否定文が肯定文になったり基本的なレベルでメチャクチャだったけど、この「高精度の英語パーサー」は使ってなかったのかな。
Re:構文解析していたことに驚愕 (スコア:1)
>Google の英日翻訳って否定文が肯定文になったり基本的なレベルでメチャクチャだったけど、この「高精度の英語パーサー」は使ってなかったのかな。
入力されてた日本語の文章が基本的なレベルでメチャクチャだったりして。
あるいは強烈なTypo込とか(スラド的)
会話文もネットに書かれている文もけっこうアバウトだし。
Re: (スコア:0)
正確さが94%ってことだから、そのダメな文章には17以上の
単語が使われていたにちがいない。
Re: (スコア:0)
ページの↓に書いてある
> Trademarks property of their respective owners. Comments owned by the poster.
をGoogle翻訳で日本語に翻訳してみると
> それぞれの所有者の財産を商標。ポスターが所有するコメント。
だそうな。果たして高精度のパーサーは役に立っているだろうか?
Re: (スコア:0)
Trademarks are property of their respective owners. Comments are owned by the poster.
だったらどうよ?
# 動詞ようもない
Re: (スコア:0)
商標はそれぞれの所有者に帰属します。コメントはポスターによって所有されています。
おしいあまりにも惜しい。
Re: (スコア:0)
> 正確さが94%ってことだから、そのダメな文章には17以上の単語
どういう計算ですか?
Re:構文解析していたことに驚愕 (スコア:1)
16単語だと1単語をミスするだけで正確さが93.75%になっちゃうから94%を満たさない。
ゆえにそれ以下はありえず、17単語(1ミスで約94.12%)以上だろう
と推測したんでしょう、たぶん。
Re: (スコア:0)
対になる Composey McComposeface の実装がまだなのでしょう。
Re: (スコア:0)
それでも他の翻訳サイトよりだいぶマシだと思うけどなぁ?
ライセンス (スコア:0)
これってどんなライセンスなんでしょうか?
Re: (スコア:0)
ソースを見もしない人が知る必要はないんじゃない?
Re: (スコア:0)
見たらGPLで目が汚染された!とか言う人がいるので、ソースを見る前に知りたいという需要もあるかも。
いくつかソースファイルを見たけどApache License 2.0でした。ただし別のライセンスのファイルが混じってる可能性は否定できません。
READMEにライセンスのことが書いてないのは不親切だね。
ニーチェ曰く (スコア:0)
GPLと闘う者は、その過程で自らがGPLと化さぬよう心せよ。
おまえが長くGPLを覗くならば、GPLもまた等しくおまえを見返すのだ。