アカウント名:
パスワード:
ちょうど、昨日ガンダムSEED FREEDOM のメカ [gundam-seed.net]についての情報が公開されたんだけど、Firefoxで見ると画像に重ねて表示しているモビルスーツ名が
フォースインパルスガンダムSpecII
とか
ブラックナイトスコードシヴァ
ってなってる。なんじゃこりゃと思ったんだけど、機体名は画像埋め込みではなくテキストとして表示しており、Chromeで見たら問題なかった。
ってとこで気になったんですが、BudouXライブラリは、HTMLページに対する処理では、単語の切れ目に<wbr>を入れるようです。でも、日本語の場合は、そもそも全ての文字間でbreak可能(wbr相当が全ての字間に入ってる)という認識なので、これでいいのかがちょっと気になる。
たぶんブラウザの挙動としては、暗黙のwbrよりも明示的なwbrの方が強い、って処理になってるんだろうけど、これだけだと上記みたいな予期せぬ改行は防げないようなぁ、と。「日本語を単語途中改行させない」って制御も入れて欲しい。
そもそも「ほぼカタカナのみで表記される特定作品内の固有名詞」の単語の切れ目を認識するというのは、人間にとっても難度が高いような…
「ブラックナイトス・コード・シヴァ」でも違和感が無いっちゃないよな・・・。
元記事にも書いてあるけど、京大とNTT Blogが81人のブログ記事を手動で解析したデータが元になっていて、解析元のブログ記事は249個、budouXが使っているモデルに至っては14KBしかない。
KNBコーパス https://hayashibe.jp/tr/corpus/knbc [hayashibe.jp]
ja_knbc.json https://github.com/google/budoux/blob/main/budoux/models/ja_knbc.json [github.com]
https://raw.githubusercontent.com/google/budoux/main/budoux/models/ja_... [githubusercontent.com] を見ると、「京都」が3つあるのに「東京」や「大阪」はゼロだから、KNBCの
4テーマ(京都観光、携帯電話、ス
ガノタは信用できない
将来的にはテキストの前処理ではなく、Chrome 119が実装しているCSS4プロパティのword-break: auto-phrase [csswg.org]で解決されることになるでしょう
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー
htmlでのwbrの取り扱い (スコア:1)
ちょうど、昨日ガンダムSEED FREEDOM のメカ [gundam-seed.net]についての情報が公開されたんだけど、
Firefoxで見ると画像に重ねて表示しているモビルスーツ名が
とか
ってなってる。
なんじゃこりゃと思ったんだけど、機体名は画像埋め込みではなくテキストとして表示しており、Chromeで見たら問題なかった。
ってとこで気になったんですが、
BudouXライブラリは、HTMLページに対する処理では、単語の切れ目に<wbr>を入れるようです。
でも、日本語の場合は、そもそも全ての文字間でbreak可能(wbr相当が全ての字間に入ってる)という認識なので、
これでいいのかがちょっと気になる。
たぶんブラウザの挙動としては、暗黙のwbrよりも明示的なwbrの方が強い、って処理になってるんだろうけど、これだけだと
上記みたいな予期せぬ改行は防げないようなぁ、と。
「日本語を単語途中改行させない」って制御も入れて欲しい。
Re: (スコア:0)
そもそも「ほぼカタカナのみで表記される特定作品内の固有名詞」の単語の切れ目を認識するというのは、人間にとっても難度が高いような…
Re: (スコア:0)
「ブラックナイトス・コード・シヴァ」でも違和感が無いっちゃないよな・・・。
Re: (スコア:0)
元記事にも書いてあるけど、京大とNTT Blogが81人のブログ記事を手動で解析したデータが元になっていて、解析元のブログ記事は249個、budouXが使っているモデルに至っては14KBしかない。
KNBコーパス
https://hayashibe.jp/tr/corpus/knbc [hayashibe.jp]
ja_knbc.json
https://github.com/google/budoux/blob/main/budoux/models/ja_knbc.json [github.com]
https://raw.githubusercontent.com/google/budoux/main/budoux/models/ja_... [githubusercontent.com]
を見ると、「京都」が3つあるのに「東京」や「大阪」はゼロだから、KNBCの
4テーマ(京都観光、携帯電話、ス
Re: (スコア:0)
ガノタは信用できない
Re: (スコア:0)
将来的にはテキストの前処理ではなく、Chrome 119が実装しているCSS4プロパティのword-break: auto-phrase [csswg.org]で解決されることになるでしょう