話した言葉が文字になる。
iPhone 4Sで初めてSiriが使えるようになって、音声認識というものが一般に広く知れ渡るようになりました。ちなみにこの文章も全てMountain Lionに搭載された新しい機能である音声認識を使って口述筆記しています。
音声認識ソフト昔から結構ありましたが、価格は非常に高価なものです。有名なソフトとしてはAmi Voiceとドラゴンスピーチがあります。
Ami Voiceのほうは何年かに1度アップグレードしているようで、価格はUSBのヘッドセットが付属した標準モデルで2万6,040円と高価ですが、ここ数年の間ではこれ以外に選択肢がない状態でした。<公式ホームページのリンク >
VIDEO
一方のドラゴンスピーチのほうはなんと7年ぶりの最新モデルが登場するとのことです。こちらもマイクの付いたモデルが2万4,255円とほぼ同じ位の価格でやはり高いようです。<http://www.dragonspeech.jp >
VIDEO
残念なことに、 Macには対応せずWindows版だけのようです。これはすこし残念ですね。
ちなみにWindows上でも購入しようと思うのなら、最新モデルがあるドラゴンスピーチのほうにしようとは思っています。音声認識率として99%を謳うのですから、一昔のようなちょっとサポートになるかな程度のものではないのでしょう。ここは素直に期待したいところだと思っています。
標準価格が非常に高価ですが、アマゾンなどの通販サイトで利用することである程度の割引きがあることでしょう。
iPhone 4S で一気に有名になったSiriですが、残念ながらiPhone 4には搭載されていません。僕はiPhone 4ユーザーなのです。しかしながら、音声認識でメールや文書作成をしたいという願望は持っています。そこで今無料で使える2つの音声認識アプリケーションを使っています。奇しくもそれは先に挙げた2つのソフト会社のアプリケーションだったりするのですよ。
1つはAmi Voiceのエンジンを利用した「音声認識Mail」です。こちらのソフトは音声を認識しつつ文書を作成する上で、編集することを前提にしたつくりになっています。非常に使いやすいです。
一方ドラゴンディクテーションのほうは、編集する際にはワンステップ必要なイメージを持ちます。
双方とも変換効率が非常に高いと感じますが、
音声認識である程度の長さの文章をばっちりと決めるのはやや難しい感じです。つまりそこには編集という作業が必ず携わることになります。その時のワンステップの手間がそのまま手軽さに直結しているような気もします。
また入力時のことですが、「音声認識Mail」は話しているそのそばからサーバーに送られて変換されていく様が視覚的にわかるにようになっています。ドラゴンディクテーションのほうは、音声入力が終了してボタンをタップするまでどのように変化されたかどうかを見られません。これはわかりやすさでの大きな違いであると大きな違いです。
これらを普段iPhone 4で使っているときに、OS XのMountain Lionが発売されましたそしてインストールすると、様々な新機能の中に音声認識がありました。これがいろんな意味で凄いものでした。
OSレベルで直接つけられたこの音声認識機能は、 iPhoneなどに搭載されているSiriとは違い、純粋な音声認識機能としてのみ働きます。機能の呼び出しや操作をはできません。iPhone版のドラゴンディクテーションのように、音声入力を完了させるまで反映結果がわかりません。
不満な部分としては、英語版ではどうやら簡単にできるようですが今のところ空白を音声で入力するのかどうやってやるかがわかりません。改行や: 、 「 」などはあるのですが、他のいろんな記号の呼称を知らなければ使いこなす事はやや難しいです。
ストップウォッチで計測しましたが、音声認識が対応する待ち受け時間は大体30秒程度です。つまり、この30秒間にある程度のまとまった文章を声に出して話さなければならないということになります。
ただし途中で止まった場合でも、また早口で複数の文章をしゃべったとしても、それはほぼ正確に認識してくれるようです。
それから昔の音声認識ソフトを使った人なら感じる部分ですが、音声認識の精度は非常に高いと感じます。単語で区切ったり、ゆっくりとロボットのようにしゃべるような事は逆にマイナスの要因です。気持ち明瞭に、イメージとしてはアナウンサーのようにはっきりと人と喋るような感じで普通に流れるように話すことで、驚くほど正確にテキスト化してくれます。
ですから、マックに関して言えば僕はこの音声認識を積極的に使っていこうと思いますし、これで今のところ文句はないのかなと。細やかな、例えばスペースの入力方法などが簡単に分かれば、あるいは新たに搭載されるようなことがあればそれは歓迎することです。
ちょっと長くなりましたがもう少し。
では最初に挙げたような高額な有料のソフトは果たして意味があるのだろうかという話です。
大いにあります。それも非常に有効なものだと僕は考えます。
手間という点でも金額という点でも、 OSに直結されたMountain Lionにある音声認識の力にはかないません。インストールできるかどうかは別としても、 Mountain Lion自体の価格はわずか1,700円です。だとしたら、それらのソフトの利点は一体何なのでしょうか。
1つはオフラインで使用できるということです。 iPhoneに搭載されているSiriもMac OS X 10に搭載された音声認識機能も、サーバーに送ってその結果をかえしているにすぎません。ある意味日本語でいえば、日本全国のユーザーの結果を常にサーバーが計算しているので常に成長しているともいえましょう。ただしそれもネットワークから外れた使用環境においては、全くの無力となるわけです。
インストールされたソフトの場合はこれが当てはまりません。単体で使用が可能なわけです。以前と違ってエンロールと呼ばれる自分の声を学習させる事前準備のようなものも無くなったようですし、有料ソフトとしての音声認識の精度も負けないくらい高くなっていると考えていいでしょう。 ドラゴンスピーチの99%がコマーシャルとしての数値だとしても、それだけ自信を持っていると考えられるでしょう。
入力環境としてのキーボードの存在価値はまだまだ揺るぎません。僕なんてrealforce 101というキーボードに2万円弱もお金をかけています。このキーボードはそれだけ価値がありますし、入力をしやすいものですだからこそ高いと思っています。
ただそのインプットデバイスとして音声入力が加わるということです。それだけ使えるものになったと思うのです。
手軽に何かをするときにはMacBookを使っています。13インチのmid10モデルなので強力なマシンではありません。画面の解像度も高くないのです。あくまでも手軽にそこそこのことができるというマシンです。しかし、音声認識の機能が搭載されたことでこれで文章書くことも格段に増えました。マシン自体の価値が僕の中で上がりました
Windowsでもこのように文章を作成できたらとは、やはり希望的観測を持ってしまいます。せっかく一太郎も持っていることですし、もっともっと活用したいと。ちょっと高価なのですがもちろんドラゴンスピーチを買いたいと思っています。ちょっと話しただけでこれだけの文章が簡単に作成できるのですから、こちらとしては気楽ですしね。
さて、またまた脈絡もなくこんなことをつぶやいてしまいましたが、やはり冷静になると昔に比べたら今は夢のようです。
こうして話してきた言葉がテキスト化されて、多少の誤変換などはもちろん直していますが、あっという間に文章が作成されていきます。これって単純に楽だし凄いことなんですよ。だからこそ長くなってしまいますが・・・。
口述筆記というのは未来だと思ってたのになぁ・・・。夢のような環境が身近になってワクワクしているところですよ。 最後に詠太で読ませたら、あまりにも不自然な部分がいくつかありました。他のソフトですがそういう連携ができるのも魅力の一つかも知れませんね。
Recent Comments