これで速記や文字起こしの作業がなくなるかも?マイクロソフトが人間並みに人の話を認識できる技術を手に入れたと発表 (2/2ページ)
■ ニューラルネットワークとディープラーニングの成果
音声認識技術の開発は、多くの企業や研究機関が取り組んできており、全体的にも進歩している状況だったが、その中でMicrosoftがいち早く大きな成果を発表できた状況だ。
この成果のベースには、ニューラルネットワークと機械学習の技術が大いに貢献している。
機械学習には、同社が開発した「Computational Network Toolkit(CNTK)」というオープンソースのディープラーニングシステムなどが利用された。
また、専用チップを使って処理速度を向上させている。
■ やがて機械と人間が口頭で会話する世界へ
Microsoftの音声認識技術が、商業ベースの製品として活用される時期はまだわからない。
まだ幾つもの課題が残されているためだ。
たとえば賑やかな場所や複数の人が話しているような環境への対応、訛りへの対応などがある。
しかし開発チームは、誰が話しているのかも認識できることや、音声認識だけでなく、さらに踏み込んで会話の内容まで理解するシステムの実現を目指したいとしている。
それが実現すれば、単にライターの文字起こし作業が自動化されるといった狭い用途では無く、いよいよ人工知能と人が、口頭で情報交換を行えるという世界が見えてくるだろう。
【参考】
※ Historic Achievement: Microsoft researchers reach human parity in conversational speech recognition – Next at Microsoft