カテゴリー
Blog

日本語形態素文字種境界法

情報処理学会誌に論文を掲載していただきました。

日本語形態素文字種境界法によるデータベース検索量の削減

  • 閲覧するには情報学広場へのログインが必要です。
  • コンテンツは有料です。

こちらは、日本語に特化した研究となっています。

対話型インターフェースにおいて、入力文に含まれる語がデータベースにあるか確認する際、語の候補を作るにあたり総当たりをせず、形態素の境界と文字種の境界を組み合わせてヒット率の高い候補を作り出す方法を説明しています。この方法では、総当たりをしたときと比較して、最大96%検索量を削減でき、間違った語の検索も抑制できます。

対話型インターフェースのテキスト処理ではとても幅広い語を語彙として扱う必要があるため、外部の、あるいは遠隔の、データベースやLinked Open Data(LOD)を参照する必要があります。そのとき、こういったテクニックが役立ちます。