Windows 10は音声認識Cortanaが搭載。
スマホの音声認識ではAppleのSiriが優秀らしく、Windows Phoneも10版はCortanaが搭載されているので力比べ。Cortanaがパソコンでも必要なのか、使えるか確認出来る気がしたので適当に色々と聞いてみた。
音声認識を御存知無い人用に解説を少々。
左がSiri(しり)で右がCortana(こるたな)。
SiriはiOS仕様のiPhoneやiPad、iPod Touchなどの初期状態で入っており、歴史はやや長く数年前から進化し続けている機能。起動は端末のホームボタン長押し。
CirtanaはWindows 10や~10 Mobileでやはり最初から入っており、Windows 10リリース以降なので生まれたて、まだ1年も経過していないくらい新しい。起動はスマホからなら端末右下の検索アイコンをタッチ。
パソコンは別途マイクが必要になるけれど、ノートやタブレットなら標準で付いている機種も有るので今後使う事になるかも知れませんな。
音声認識対決、アップル「Siri」 vs マイクロソフト「Cortana」
何が認識出来るか事前に調べると面白く無い為、ここからは全て私の思い付きで。滑舌は悪くは無い方なので人間側の仕様や性能には問題ございません。
ここからの「」内は実際に聞いた音声そのまんま。
1.「設定」
単に設定とだけ言ってみた結果。
Siriはマジで設定画面を開いてくれたもののCortanaは設定をBingで検索してくれた模様。設定画面を開けとは言っていない為、Cortanaが阿呆だとは言えないけれど、エスパーしたSiriは凄いとも思った。
2.「動画撮影したい」
カメラのアプリを開き動画へ切り替える手順が面倒なので、もしかして音声で行けるのでは?と期待したところ、残念ながらいずれも動画でウェブ検索。
音声で開けない機能では無いと思うので別の言い方なら実行出来そうな気がする。秘密の合言葉的な何か。
3.「画面を明るく」
並べて見ているとiPod~が暗かったので「画面を明るく」とだけ。
Siriは見事認識かつ自動で少し明るくしてくれており、マイクロソフト様は相変わらずBingで検索の一辺倒。
Cortanaの日本語対応は数ヶ月前なので未完成なのか、Cortana起動が検索マークなので検索のみなのか。これ以上Cortanaを試しても検索しかしてくれなさそうなのでSiriのみで継続。
見せてもらおうか林檎軍のモバイルSiriの性能とやらを
1.「ブラジルは今何時?」
まあこのくらいは出来るだろうと思えば普通に出来た。
海外へ行かない私には必要無いと思われそうだけれども、マイクロソフトが1日にリリースと発表するとそれは北米時間。サマータイムとか有るはずなので稀に海外の時間を調べる事がございます。
2.「にじゅうさん時よんじゅうご分にアラームをセット」
少し感動した。
日本語で23:45を認識しており時刻を入力しタイマーをオン。これを手動でやると、時計アプリを開き、アラームを選び、新規、時と分を設定、完了、のような手順になるので結構手間。
寝る直前に翌日が雪と知り、1時間早く起きたい、しかし1秒でも早く寝たい時などに有効な便利機能。
3.「5分毎にアラーム」->「5分おきにアラーム」
これは残念ながらいずれも失敗。別の言い方が有りそう。
5分「ごと」では判ってくれなかったので5分「おき」にしたけれどやはり判らず。「おき」にした場合は何故か0:15分なので5分後にアラームがセットされてしまったという誤認識。何か「おきに」という名前が付いている辺りが気になる。
4.「5分後にアラーム」
5分「ご」と伝えるとカウントダウンタイマーが自動的にスタート。
キッチンタイマー代わりとして手軽に使えそうですな。カップ麺を作るとかスパゲティ茹でる時にはiPod~を同行させようと思った。
5.「BTOパソコン.jp(ありにゃんインサイド)を開いて」
失敗。「開いて」がまずかったのかアプリを開こうとしている模様。
BTOの方は「O」が「を」になっており、BTOという言葉を認識していない。しかし、アルファベットなのだからおそらく私の言い方、滑舌に問題が有りそう。
6.「ヤフオクでZ97 Extreme6の中古を検索」
ストレートに検索を希望。但しヤフオクに限る。
私の妄想ではヤフオク内の検索結果でASRockのZ97が並ぶだろうと思っていたところ甘かった。そこまでは知らない御様子。
7.「フィジカルアドレスって何?」
聞き方としては単純だけれども、Physical Addressという英語をフィジカルアドレスと超日本語読みして認識してくれるだろうかと試した結果。
「~って何?」と聞くと検索してくれるのでしょう。確認の意味で「ありにゃんインサイドって何?」と聞くと、Google検索にて窓辺さんのサイトがトップに表示される事を確認。
但し「BTOパソコン.jpって何?」と聞けども「BTを~」になってしまい検索出来ず。私の音声出力が悪いのか、Oを「を」と認識してしまう誤りかは不明。
8.「東京駅から新大阪駅の距離」「新宿駅から渋谷駅の電車」
ラストは距離と電車の検索。
新大阪~東京間の距離402kmは短過ぎるので直線では無かろうか。予想&希望としては、Google Mapのような地図を表示しつつ、どの経路で何kmか表示して欲しかった。
右は渋谷方面行き新宿発の電車の時刻、ホーム、料金、所要時間が出るだろうと思いきや駅の場所が表示されてしまった。
以前はGoogle検索され時刻などが表示されたと記憶しているのだけれども退化してしまったのだろうか。ちなみに終電は1時頃なので検索した0:16はまだ電車有る時間。
結論:何が出来るか知らなければ音声認識は非効率
思い付きでこれは出来るだろうかと試したところ、ここまでを見ての通り出来る事は出来るけれど判らない事は判らない。
スマホを外で使いつつ音声により何かをしたいなら前もって何が出来るのか知っておくべきかと。何度もスマホに話しかける変な人になってしまう。
また、アラーム設定のように手作業より音声の方が明らかに早く便利な時も有れば、誤認識で何度もやり直す事も有り、用途や状況で使い分けると良いと思った。
パソコンの場合はタイピングやクリックした方が早い(まとめ)
さて本題。
個人的に自宅でアラームをセットする際は今後音声認識でやろうと思ったものの、検索などは文字入力でも問題無く、だいたい外で独り言は不自然。トイレで一人カラオケするくらいおかしい。
音声認識を真面目に使ってみた後、パソコンならばどうなるか、何に使えそうか考えると通話とかテレビ会議くらいしか思いつかず、Cortanaの精度が今後上がったとしても音声で検索とかしないと思う。
パソコンの場合はキーボードが常に開いた状態、かつ画面に手を伸ばさずとも手元にマウスという便利な物が有るのだから音声で置き換えるまでも無し。何度も使う機能ならショートカットを置くとかホットキーにしておけばよろしい。
また、Windows 10のCortanaはマイクロソフト提供なので検索にBingが使われてしまい、Google当たり前の私らにとってあの検索精度は単なる苦痛。
マイクロソフト的にはBingを使わせ広告へ誘導したいのだろうと思われ、Googleなどへの変更は今後も出来ないと思う。Chromeブラウザのプラグインなどは既に出ております。
スマホ用としては場合により使い物になりそうだけれども、パソコンで音声による検索やアプリケーションの起動、設定画面を開くなどは出来たとしても不要。
- ユーザ「ファーックション!」<くしゃみした
- Cortana「フォーマットしますか?」<認識した
- ユーザ「ハッ?」<驚いた
- Cortana「フォーマットしています」<ハイと認識
は冗談としても有り得ない事も無いかと。パソコンは管理者権限なら無双状態。あまりにも重要な事を音声で操作出来てしまっても困る。
唯一、パソコンで音声認識が必要と感じる事は、PC初心者が「スマホの画像フォルダはどこ?」などと聞き、OneDriveのカメラアップロードフォルダが開き、ショートカットやタイルを作るか聞いてくれるなら親切と思う程度。
パソコン慣れしている人には音声認識は要らないと実感。
>見せてもらおうか林檎軍のモバイルSiriの性能とやらを
マウスジェスチャーみたく細かく設定し使えれば便利かと思ったけど
マウスジェスチャー使わない私には不要と思ったw
スマホ内に限らず、他の機器にリンクすれば使用用途拡大すると思ったw
例:テレビつけてとか電気つけてとか鍵開けてとか
>だいたい外で独り言は不自然
ここだよなw
家限定だよなw
スマホで音声検索する際は、Google検索をたまに使いますね。
「ラーメン屋」とか「レストラン」とかで近所の店舗を検索
「明日の天気」で現在地の明日の天気を検索
「○○から○○」で所要時間を検索
頻度が高いのはこれくらい。手元にPCがあってもスマホを使うのは、食事する際の店舗検索ですね。レビューも読めるので地雷回避もできます。
>Siri vs Cortana
音声アシスタントで評価が高いモノだと、docomoの「しゃべってコンシェル」ですね。こちらはSiriと同様、メールを書いたりカメラを起動したりまで可能。キャラクタがヒツジの執事なため、ヒツジ先輩にはマッチするやも。
モバイルアスキー:「しゃべってコンシェル」の基本的な使い方をチェック!
http://mobileascii.jp/elem/000/000/045/45982/
ITmedia Mobile:万能秘書はどのサービス?――「Siri」「しゃべってコンシェル」「音声アシスト」を徹底比較
http://www.itmedia.co.jp/mobile/articles/1208/10/news024.html
>単に設定とだけ言ってみた結果
Siriは「設定」だけで設定画面を開いてしまうのですか。とすると、入れているアプリや設定項目とかぶる文言を検索したい場合、Siri経由では不可能になりますね。便利なのか不便なのか分からず。
>ブラジルは今何時?
Googleの音声検索でも一発OKでした。3つあるタイムゾーン(ブラジル時間、アマゾン時間、アクレ時間)を全て表示してくれます。サマータイムまで考慮していたのは驚き。
>Oを「を」と認識してしまう
CEO(最高経営責任者)とかGTO(グレートティーチャー鬼塚)とか、発音が「ぃーおー」になる単語をいろいろ試してみては。全てで「を」になるなら、恐らく発音が問題なはず。特にCEO。CEOがCEOと認識されるなら、発音ではなくSiriが「BTO」という単語を知らないだけ。
>パソコンで音声認識が必要と感じる事
「自分が困ることは世界中で1億人が既に困っている」と考えれば、WindowsのヘルプよりもWeb検索の方が確実なのですよね。Windowsという1会社が70億人のヘルプに対応するより、10億人が60億人のヘルプに対応するくらいの方が効率が良い訳で。
個人的には音声認識でOSに聞くより、日本語の勉強、読書の習慣化で「自分は何が分からないのか」を的確に文章化するスキルを上げた方が、自分自身にもMSにも得な気がするのですがね。
>外で独り言は不自然
職場でもひとりごとは不自然だと思いますw
>右は渋谷方面行き新宿発の電車の時刻、ホーム、料金、所要時間が出るだろうと思いきや駅の場所が表示されてしまった。
Siriに「終電を教えて!」と頼んだ結果… - Togetterまとめ
http://togetter.com/li/916504
AppleのマップもSiriも現時点では乗換案内は対応していないんですがw
マップの乗換案内やNewsアプリなど――日本で使えない「iOS 9」の新機能 - ITmedia Mobile
http://www.itmedia.co.jp/mobile/articles/1509/17/news123.html
アメリカなどではマップでの乗換案内が使えるようになっていますがw
>ちなみに終電は1時頃なので検索した0:16はまだ電車有る時間。
地下鉄(メトロ)の終電は0時台ですがw
>Windows 10のCortanaはマイクロソフト提供なので検索にBingが使われてしまい
SiriもBingを使われていますがw ちなみに同じキーワードをGoogleとBingで検索すると検索結果が違うことがよく分かります(当たり前)w