これで速記や文字起こしの作業がなくなるかも?マイクロソフトが人間並みに人の話を認識できる技術を手に入れたと発表

| FUTURUS
これで速記や文字起こしの作業がなくなるかも?マイクロソフトが人間並みに人の話を認識できる技術を手に入れたと発表

Photo credit: mendhak via Visualhunt.com / CC BY-SA

すでに私たちは検索サービスなどを利用する際に、音声で質問を入力することができるようになっている。

しかし、まだまだ話しかける側が、機械に話しているのだということを意識して、できるだけ簡潔にゆっくりと明瞭に話しかけるようにしている。

つまり、かなり機械に気を遣っている状態だ。

ところがこのたび米Microsoftが発表した成果では、人の会話を人間並みに認識できるシステムを構築することに成功したという。

人間並みと文字にしてしまうとなにやらあっさりしてしまうが、人間と同じ精度で音声を認識できるとは、私はかなり驚いている。


■ プロの口述筆記者を上回る制度で音声を認識するシステム

発表したのはMicrosoftの「Microsoft AI and Research Group」という部門。

同部門が開発した音声認識システムの誤認識率はわずか5.9%だという。もうすこし細かく言うと、単語誤り率(word error rate)が5.9%ということだ。

この数字は、プロの口述筆記者と同等か、わずかに上回る精度であることを示している。

つまり、雑音が少ない環境であれば、機械を意識しなくても普通に話されたことを、ほぼ正確に文字起こしできるということだ。

私たちは通常、相手が話していることを100%聞き取れているわけでは無い。かなりいい加減なのだ。おそらく誤認識率は5.9%どころではない。

私に至っては、Microsoftのシステムより制度が劣るだろう。なにしろ聞き間違いが多い。ただ、長く人間をやっているので、聞き取れなかった部分は経験で補っているわけだ。

それを考えると、Microsoftが開発した音声認識技術の精度の高さが驚くべき段階に到達したことを理解できる。

ただ、この高い認識能力は、まだまだ限られた環境下で実現できていることであり、たとえば騒々しい環境や、訛りが強い場合などは、その能力は十分に発揮できない。

ピックアップ PR 
ランキング
総合
カルチャー