パスワードを忘れた? アカウント作成
17403607 story
プログラミング

日本語対応の分かち書きライブラリ『BudouX』、AndroidやChromeに標準搭載へ 43

ストーリー by nagazou
搭載 部門より
Googleが9月24日、公式ブログ上で日本語などアジア圏の言語でのテキスト折り返しを改善するための「BudouX」という「分かち書き」ライブラリを紹介している。アジア圏の言語は単語と単語の間にスペースを入れないため、テキストが意図しない位置で改行されてしまい読みにくくなることがある(Googleブログ窓の杜)。

「BudouX」はこの問題を解決するために開発された。「BudouX」は、オープンソースのライブラリで、サイズはモデルを含めて20KB程度とコンパクト、かつさまざまな言語モデルを学習できる特徴がある。現時点では日本語と中国語(簡体字と繁体字)で利用可能で、JavaScript、Python、Javaなどのプログラミング言語でサポートされている。このライブラリは既に「adobe.com」などで活用されているという。また、「Google Chrome 119」以降では、特定条件で自動的に「BudouX」の分節区切りが適用される。また、「Android 14」以降でも「BudouX」が使われているとのこと。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2023年10月06日 14時09分 (#4541361)

    TextViewにandroid:lineBreakWordStyle="phrase"を指定するといい感じに改行入れてくれる。
    https://android-developers-jp.googleblog.com/2022/07/android-13-japanese.html [googleblog.com]

  • ちょうど、昨日ガンダムSEED FREEDOM のメカ [gundam-seed.net]についての情報が公開されたんだけど、
    Firefoxで見ると画像に重ねて表示しているモビルスーツ名が

    フォースインパ
    ルス
    ガンダムSpecII

    とか

    ブラックナイトス
    コード
    シヴァ

    ってなってる。
    なんじゃこりゃと思ったんだけど、機体名は画像埋め込みではなくテキストとして表示しており、Chromeで見たら問題なかった。

    ってとこで気になったんですが、
    BudouXライブラリは、HTMLページに対する処理では、単語の切れ目に<wbr>を入れるようです。
    でも、日本語の場合は、そもそも全ての文字間でbreak可能(wbr相当が全ての字間に入ってる)という認識なので、
    これでいいのかがちょっと気になる。

    たぶんブラウザの挙動としては、暗黙のwbrよりも明示的なwbrの方が強い、って処理になってるんだろうけど、これだけだと
    上記みたいな予期せぬ改行は防げないようなぁ、と。
    「日本語を単語途中改行させない」って制御も入れて欲しい。

    • by Anonymous Coward

      そもそも「ほぼカタカナのみで表記される特定作品内の固有名詞」の単語の切れ目を認識するというのは、人間にとっても難度が高いような…

    • by Anonymous Coward

      ガノタは信用できない

    • by Anonymous Coward

      将来的にはテキストの前処理ではなく、Chrome 119が実装しているCSS4プロパティのword-break: auto-phrase [csswg.org]で解決されることになるでしょう

  • by minet (45149) on 2023年10月06日 18時18分 (#4541587) 日記

     あなたとJAVA,
    今すぐダウンロー
       ド

  • お隣さん [kvillage.jp]は入れるようですよ。
    日本語でも単語と単語の間にスペースを入れる表記をMicrosoftは採用していますね。

    • by Anonymous Coward

      単語と単語の間

      よくわからない表記をしてしまいましたが「英単語と英単語の間」のコトです。

    • by Anonymous Coward

      対偶をとれば、「単語と単語の間にスペースを入れるなら、アジア圏の言語ではない」だな。
      確かに。

    • by Anonymous Coward

      朝鮮語版ウィキペディアみたいに半角空白使うガイドラインのところもあれば、報道記事では使ってないところも見かけるので表記はバラバラ。

      慣れないから 読みにくいでしょ こんな 書き方 は さ。

      • by Anonymous Coward

        ハングルって日本語で言う平仮名片仮名みたいなもんなんだとすると

        にほんごでもこれはちょっとよみづらいでしょ

        にほんご でも これは ちょっと よみづらい でしょ

        • by Anonymous Coward

          > ハングルって日本語で言う平仮名片仮名みたいなもんなんだとすると

          というかほぼローマ字そのもの(「ん」だけ別ルール)。
          母音と子音記号覚えたらすぐ読める。

        • by Anonymous Coward

          ケブンリッジでは そほれど よらづみく なですいよ

        • by Anonymous Coward

          にほんこ゛等幅で

      • by Anonymous Coward

        読点の使い方がわからないのか使うのが面倒くさいのか、そういう書き方をしてる文章を、SNSとかでは偶に見かけますね!

    • by Anonymous Coward

      アラビア語もペルシャ語もアジア圏だよなあ。

      • by Anonymous Coward

        極東と言うべきだったね

  • by Anonymous Coward on 2023年10月06日 14時57分 (#4541420)

    もともとBudouがあってその後継としてBudouX… またマスクかよ!

    # マスク憎けりゃXという文字まで憎い

    • by Anonymous Coward

      マスクではなく、オーバーボディという奴ではないですかね  グロロ~

    • by Anonymous Coward

      それはともかく縦書きへの対応を頑張って欲しいかな。

      しかし、
      iが頭につくのが流行ったりeが頭につくのも流行ったけどXには及ばない気がする。
      シャープやマイクロソフトもXが好きみたいだし、Xにどんな魅力があるのだろうか。

    • by Anonymous Coward

      文字に罪はない。
      それに、文字パージとは始めたら大変なことになるよ。子供問題どころじゃない。

      • by Anonymous Coward

        卍:そのとおりなんですがね... (´・ω・`)

    • by Anonymous Coward

      > もともとBudouが

      こっち [github.com]みたら、武道じゃなくて葡萄なのねん

    • by Anonymous Coward

      ネプチューンマスクか

    • by Anonymous Coward

      商標権侵害でXを提訴って無理があると思ったが風評被害をおそれたのか

  • by Anonymous Coward on 2023年10月06日 17時42分 (#4541565)

    VisualStudioやVSCodeにも取り入れてほしいな。

    VisualStudio2015までは日本語の単語単位での選択とか出来たのに、2017からは出来なくなってるし。
    VSCodeは最初から出来なくて、拡張(Japanese Word Handler)入れても完全にとは行かないし。

  • by Anonymous Coward on 2023年10月06日 18時20分 (#4541590)

    Unicode Line Breaking Algorithmがあるのに何でそんなめんどくさいことしなきゃならんの?

    • by Anonymous Coward

      それって昔からある禁則処理じゃないんですか?

      • by Anonymous Coward

        そうだよ。
        改行なんかそれでいいじゃん。

        • by Anonymous Coward

          まあパソコンなんか覚えるの面倒だから使わないって人もいるし、そのへんはその人の自由ですね。

  • by Anonymous Coward on 2023年10月07日 13時51分 (#4541954)

    ワカチコ

typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...