アカウント名:
パスワード:
ちょうど、昨日 ガンダムSEED FREEDOM のメカ [gundam-seed.net]についての情報が公開されたんだけど、Firefoxで見ると画像に重ねて表示しているモビルスーツ名が
フォースインパルスガンダムSpecII
とか
ブラックナイトスコードシヴァ
ってなってる。なんじゃこりゃと思ったんだけど、機体名は画像埋め込みではなくテキストとして表示しており、Chromeで見たら問題なかった。
ってとこで気になったんですが、BudouXライブラリは、HTMLページに対する処理では、単語の切れ目に<wbr>を入れるようです。でも、日本
そもそも「ほぼカタカナのみで表記される特定作品内の固有名詞」の単語の切れ目を認識するというのは、人間にとっても難度が高いような…
元記事にも書いてあるけど、京大とNTT Blogが81人のブログ記事を手動で解析したデータが元になっていて、解析元のブログ記事は249個、budouXが使っているモデルに至っては14KBしかない。
KNBコーパスhttps://hayashibe.jp/tr/corpus/knbc [hayashibe.jp]
ja_knbc.jsonhttps://github.com/google/budoux/blob/main/budoux/models/ja_knbc.json [github.com]
https://raw.githubusercontent.com/google/budoux/main/budoux/models/ja_... [githubusercontent.com]を見ると、「京都」が3つあるのに「東京」や「大阪」はゼロだから、KNBCの
4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4,186文の解析済みブログコーパス。形態素、構文、格・省略・照応、評判情報がアノテーションされている。
の影響はモデルには的確に出ている。ガンダムのブログがあれば話は違ってくるんじゃない?
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
吾輩はリファレンスである。名前はまだ無い -- perlの中の人
htmlでのwbrの取り扱い (スコア:1)
ちょうど、昨日 ガンダムSEED FREEDOM のメカ [gundam-seed.net]についての情報が公開されたんだけど、
Firefoxで見ると画像に重ねて表示しているモビルスーツ名が
とか
ってなってる。
なんじゃこりゃと思ったんだけど、機体名は画像埋め込みではなくテキストとして表示しており、Chromeで見たら問題なかった。
ってとこで気になったんですが、
BudouXライブラリは、HTMLページに対する処理では、単語の切れ目に<wbr>を入れるようです。
でも、日本
Re: (スコア:0)
そもそも「ほぼカタカナのみで表記される特定作品内の固有名詞」の単語の切れ目を認識するというのは、人間にとっても難度が高いような…
Re:htmlでのwbrの取り扱い (スコア:0)
元記事にも書いてあるけど、京大とNTT Blogが81人のブログ記事を手動で解析したデータが元になっていて、解析元のブログ記事は249個、budouXが使っているモデルに至っては14KBしかない。
KNBコーパス
https://hayashibe.jp/tr/corpus/knbc [hayashibe.jp]
ja_knbc.json
https://github.com/google/budoux/blob/main/budoux/models/ja_knbc.json [github.com]
https://raw.githubusercontent.com/google/budoux/main/budoux/models/ja_... [githubusercontent.com]
を見ると、「京都」が3つあるのに「東京」や「大阪」はゼロだから、KNBCの
4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4,186文の解析済みブログコーパス。形態素、構文、格・省略・照応、評判情報がアノテーションされている。
の影響はモデルには的確に出ている。ガンダムのブログがあれば話は違ってくるんじゃない?