Pandrbox SDKは、各種アプリケーションに音声言語操作機能を提供するためのソフトウェアライブラリです。
どう役立つの?
音声言語操作では、人が口でデバイスに話しかけ、ICTシステムがその音声に従ってなんらかのタスクを実行します。たとえば、代表的なものに以下のものがあります。
- いま実行したいタスクの自動選択(アプリの呼び出し)
アプリ機能をいちいちメニューから選択する必要がありません。利用したい機能に従った文章を話しかけるだけです。 - 言葉や文章の入力
機能の中でも最も有用で利用頻度の多いのが言葉の入力です。自由入力だけでなく、候補からの選択にも使われます。 - アプリ機能の操作
キーボード、マウス、画面タッチなどの代わりに声で操作することができます。たとえばページ送りや、拡大・縮小など様々なことを音声で操作できます。 - テキストの読み上げ
出力は画面に表示するだけでなく音声合成で読み上げることが可能です。これにより、画面を凝視する時間を激減させることができます。
上記のような機能を実現するには、音声認識、語の抽出や意図推定といった言語解釈、音声合成、といった様々な処理を統合する必要があります。それを手助けするのがPandrbox SDKです。
Pandrbox SDKを使うと、非常に少ないプログラムコードで、これらを統合し、アプリのフロントエンドとして動作するような振る舞いをするようになります。
どのようなもの?
Pandrbox SDKは、以下のようなコンポーネント群を提供しています。
- シンプルでフットプリントの小さな言語解釈エンジン
- 各種音声認識・音声合成APIを駆動するためのドライバー群
- 音声認識・言語処理・音声合成を組み合わせて操作インターフェースとする音声操作端末化機能
- 画面操作、顔や視線、その他各種センサーを利用した会話開始トリガー
Pandrbox SDKは、Pandrboxがお手伝いするプロジェクトで使われ、アプリを業務運用する際には有償で使用許諾(ライセンス)します。
現在、Windows、iOS、Android向けに提供されています。(提供している機能の組み合わせがプラットフォームごとに異なります)
どんな機能があるの?
Pandrbox core | Pandrbox SDKの基底クラス、共通機能 軽量言語解釈フレームワーク 中規模(数十万語彙程度)の処理に対応 ローカル(オフライン)処理が可能です。 |
Pandrbox VIT | 音声認識・言語処理・対話処理・音声合成を 適切なタイミング、順番で順序処理します。 ユーザーインターフェースとして動作させます。 |
ドライバー群 | 各社の音声認識、音声合成APIを同等に機能させ簡単に交換可能にします。 |
トリガー | 画面操作、端末の傾き検知、顔・視線検出などにより 対話操作を開始することができます。 |