少し前に、音声認識ソフトの AmiVoice SP を AmiVoice SP2 にアップグレードしました。私の使い方では、SP のままでもかなりの変換精度でしたので、アップグレードの必要性を感じなかったのですが、使う場面が増えていくうちに、SP の辞書では物足りなく感じるようになったため、思い切って SP2 にアップグレードすることにしました。
AmiVoice での音声入力のやり方については、以前、シゴタノ!で詳しく書いていますので、そちらを参考にしてください。
基本的なやり方は、AmiVoice SP の時から変わっていません。変わったのは、SP2 になって辞書が充実して変換性能が向上したことくらいです。
AmiVoice SP2 では、音声で操作ができるようにする「音声コマンド」を作成できるようになったり、過去に作成したテキストファイルから、音声認識辞書に登録されていない語句を検出して登録できるようになったり、使い勝手がかなり向上していました。中でも私が気に入っているのは、音声ファイルを読み込んで、テキストに一括変換する「書起しエディター」です。
デザインはダサいが変換精度はなかなか
AmiVoice SP2 に付属する「書起しエディター」は、起動時のスプラッシュ画像からして、デザインがダサくてびっくりします。もう少しなんとかならなかったのか、と見るたびに思います。それでも使っているのは、変換精度がなかなかに実用レベルだと感じているからです。
読み込める音声ファイルは、WMA、WAV、MP3 の3種類です。口をなるべくマイクに近づけて、はっきり話した内容ほど、変換精度が高まります。逆に、会議室で複数の人が話している様子を、少し離れたところで録音したような音声は、変換できません。この場合は、自分で読み上げ直すと良いようです。
音声ファイルを読み込むと、音声の波形が表示されます。いったん、ファイル全体をテキストに変換してから、誤変換されている箇所を修正していくというやり方になります。
変換時には、音響学習をさせながら変換し、音響学習後の情報を元に、再度変換し直す「2パス認識」機能も利用できます。これにより、テキストへの変換精度が上がる場合があります。
これは、サンプルとして、あらかじめ書いておいた文章を読み上げて録音した後、書起しエディターで音声ファイルを読み込んでテキストに変換した直後の画像です。
「エディター」が「英二だ」「エリタ」などに変換されている箇所もありますが、後半はきちんと「エディター」と変換されています。英単語に変換されている語句も、自動的に変換されたもので、手直しはしていません。
考えながら、つっかえつっかえ話した場合は、もっと変換精度が落ちますが、読み上げ音声の変換精度がこのくらいあれば、使ってみようと思う人はいるのではないでしょうか。
私はICレコーダーを使っていませんので、Recorder App というアプリを使って iPhone で録音しています。Recorder App は、WAV 形式で音声を保存することができる上、Dropbox、Google Drive、Box.net などのクラウドサービスにも対応しているので便利です。
まだ、実験的にしか使っていませんが、今後挑戦していきたいのは、まとまった文章をスムーズに話して録音し、テキストに変換することです。考えてから言葉を発するまでがまだまだスムーズにいきませんが、それができるようになれば、キーボードをほとんど使わずに原稿が書けるようになるのではないかと。訓練次第でできるようになるのではないかと考えています。
Follow @kumiab
まだ老眼には早いと思うのですが、最近、目の調子があまりよくないような気がしています。なるべく画面を見ずに原稿が書けるようにしておけば、もっと年を取ってから助かるのではないかと考えるようになりました。
▼海老名久美:
フィーリング重視のガジェッターでライターで翻訳者。「SPEAQ」の中の人。