学術活動

Pandrboxでは、音声言語操作インターフェースの技術向上のため、公立はこだて未来大学と連携し、学術活動を行うことで社会に貢献します。


2024年(Pandrbox LLC時代)

■米持 幸寿. “音声誤認識された日本国内住所の事後訂正“, 第23回情報科学技術フォーラム FIT2024 (2024)

FIT奨励賞を受賞しました!

音声認識で住所を入力できるようにするニーズがあります。実際にはかなり多くの住所が正しく入力できません。本研究では、日本郵政が公開している郵便番号データを使ってツリー構造のデータを構築して維持、音声入力結果を使ってあいまい検索を行うことで「実際にはこれを入力したかったのでは?」を生成する手法について説明しました。本発表は「FIT2024奨励賞」を受賞しました。

2022年(はこだて未来大学 大学院時代)

■Yukihisa Yonemochi, “Continual Lengthening of Titles: Implications for Deep Learning Named Entity Recognition“, IJIS 2022, Volume: 14, No: 1(2022)

世界の、特に日本の、小説・漫画・アニメのタイトルが年々長くなっており、NERタスクで正しく抽出(印付け)できないこと、深層学習のテンソルにデータベースの参照結果を渡すことでより高い精度で抽出ができるようになることを検証し報告しました。

2021年(はこだて未来大学 大学院時代)

■Yukihisa Yonemochi and Michiko Oba. “Verifications of Influence by Unknown Longer Titles of Work on Robustness of Deep Learning NER“, IWIN2021 AI-I-3.(2021)

↑Excellent Paper Awardを受賞しました!

文章の中から特定の概念に合致する部分に印をつける技術を「NER(Named Entiry Recognition) = 固有表現抽出)といいます。深層学習によるNERにおいて、過去のデータにはなかったような長く文章のような映画、アニメ、漫画のタイトルが、発表された直後、すなわち未知語であっても外部から情報を与えることで正しく印付けができることを報告しました。本発表は、Excellent Paper Awardを受賞しました。

■米持幸寿 and 大場みち子. “日本語WordNetとWikidata語彙の相互補完検証“, 第20回情報科学技術フォーラム FIT2021 (2021)

音声対話システムを構築する際、辞書のようにヒトの言葉を概念的に集約した「大語彙」を使うことは必須と考えられています。その中でも研究者間では有名なWordNetとWikidata(WikiPediaのデータ)を統合(マージ)して使う方法論と意義を説明しました。

2020年(はこだて未来大学 大学院時代)

■米持幸寿 and 大場みち子. ” 日本語形態素文字種境界法によるデータベース検索量の削減 情報処理学会論文誌 Vol62 No.2: 594-606. (2020)

文章の中から特定の概念に合致する部分に印をつける技術を「NER(Named Entiry Recognition) = 固有表現抽出)といいます。そのような処理時に商品名などの大規模データベースを大量に検索しなくてはいけないシーンがあります。その状況において、すべての文字組み合わせを検索せず、日本語の場合は文字種(ひらがな、カタカナ、漢字、英数字など)の境界を活用して「文字列の切れ目らしさ」を発見して優先的にデータベースを検索することで、検索量を削減できる手法「日本語形態素文字種境界法:JMCTB(Japanese Morpheme Character Type Boundary)」を提案し、その性能について検証結果を報告しました。

2019年(はこだて未来大学 大学院時代)

■米持幸寿 and 大場みち子. “多段自然言語処理における NLP, シソーラス, オントロジー辞書データ統合の提案.” 人工知能学会研究会資料 47.1 : 1-7. (2019)

構造化され知識化されたデータを元に、ヒトとの会話のような幅広いニーズに対応するには、人類が一般的に保持している(またはそれ以上の)知識データが必要です。現存する公開されいてるさまざまな知識データを統合して使うことで、より多くの常識を得たシステムができるはずだ、という考え方を、実際のデータをもって示しています。

2018年(ホンダ・リサーチ・インスティチュート時代)

■米持幸寿. “音声対話システム向け意味属性抽出と意図タイプ推定実装小型化.” 研究報告自然言語処理 (NL) 2018.5 : 1-5. (2018)

音声対話システム(ヒトがコンピューターを音声で操作、入力、対話する)を作るとき課題となる、大きな実装や大きなリソースがあります。それらを使わずに極小なシステムでも稼働する、軽量なソフトウェアの実装方法について説明した論文です。

2017年(ホンダ・リサーチ・インスティチュート時代)

■Round Tableにて講演
ROMAN 2017

ハーグ(欧米では「デン・ハーグ」)で行われた、ロボット(RO-bot)と人間(hu-MAN)の対話に特化した学術会議ROMAN2017にて全体会議(Preliminary Session)で行われたパネルディスカッションにスピーカーとして登壇しました。実働型のロボットをビジネスとして展開する際に、ユーザーの期待の管理(expectation management)が非常に重要である、というお話しをさせていただきました。

2015年(ホンダ・リサーチ・インスティチュート時代)

■情報処理学会 セミナー委員

2014年(日本アイ・ビー・エム 東京基礎研究所時代)

■Yukihisa Yonemochi, Takashi Sakairi, Hiroshi Horii,
Tatsuya Ishikawa, Scott Trent, Heather D Achilles
IBM Research: Five IT thoughts from a waste management proof of concept project, EcoBalance 2014

「Waste Management」プロジェクトの状況報告を行いました。直訳すると「ゴミ管理」ですが、都市の廃棄物の数字を管理するソリューションのチーフアーキテクトだったため、本報告を行いました。とくにニューヨーク州を例に挙げ、住民にセミナーなどを行うことで排出量などにどのように変化が現れるかや、排出用の季節予測などを機能として提供していました。

現代ですとほとんどがリサイクルされますので、現代なら「リサイクルマネジメント」とか「シティリソースマネジメント」などと言ってもよいかと思います。

2013年(日本アイ・ビー・エム スマーターシティ事業部時代)

古関聰, 金山博, 坪井祐太, 平出涼, 千葉立寛, 米持幸寿, & 野村尚. (2013). 金融分野におけるビッグデータ分析. デジタルプラクティス, 4(1), 12-19.

証券会社での実証実験の内容と結果を文章化し、共著論文として発表したものです。およそ3ヶ月間のツイッターデータを収集し、書かれている内容と各種業種との関連性を目検査で対象付け、ツイッターに書かれている内容から、そのあとに株価が連動して動くかどうかを検証した際の記録です。いくつかの企業において、連動性が確認でき、一般市民の行動がある種の企業の業績、株価と連動性があることを裏付けることができました。弊社代表の米持は、このプロジェクトにおいてツイッターデータの収集(およそ16億件)、クレンジング、傾向分析の計算などをIBM BigInsght(MapReduce技術を製品化したもの)上で実装し、大量データの自然言語処理に貢献しました。