NICT、ニューラル機械翻訳で音声翻訳アプリ高精度化-話し言葉の精度アップ

NICT、ニューラル機械翻訳で音声翻訳アプリ高精度化-話し言葉の精度アップ

画像提供:マイナビニュース

NICTの先進的音声翻訳研究開発推進センターは、ニューラルネットワーク(深層学習)を用いた機械翻訳の実用技術「ニューラル機械翻訳(NMT)技術」を開発したと発表した。

ニューラル機械翻訳(NMT)とは、脳の神経回路を模したニューラルネットワークを用いた自動翻訳技術。膨大な対訳データから学習したニューラルネットワークを用いて翻訳することで、従来技術よりも高い翻訳精度が実現可能になることが確認されつつある。同技術を使用することにより、従来の統計翻訳(SMT)技術に比べ、精度が大幅に向上したという。

NICTは、対訳コーパスから自動翻訳の構築にニューラルネットワークを利用した機械翻訳を2013年から研究を開始し、2016年12月から実用化を加速してきた。実用化には、様々な分野において話し言葉の対話で使われる固有名詞や専門用語辞書の追加が不可欠であり、この手段として「単語とその訳語及びそのクラス(意味分類)」を利用する手法を実装した。また、既にニューラルネットワーク化されている音声認識部分に加えて、今回、翻訳のニューラルネットワーク化を実現し、一般公開されている多言語音声翻訳アプリVoiceTra(ボイストラ)のニューラルネットワーク化を前進させたという。

その結果、意味が通じる率を翻訳者が評価する翻訳精度を大幅に改善し、防災、買物、タクシーなど多分野で9割前後の高精度を達成した。しかし、NMTには特徴的な誤訳のパターンがあり、その様な点の解決が今後の課題となっているという。例えば、「ハム」と「ハムサンド」のような関連語の混同(例9) 、ある表現の繰り返し(例10) 、「テレビ」のような訳語の抜け落ち(例12)等がある。

■改善の具体例

■改悪の具体例

今回は、日英翻訳の双方向のみだが、グローバルコミュニケーション計画の目標とされる全10言語(日本語、英語、中国語、韓国語、タイ語、インドネシア語、ベトナム語、ミャンマー語、スペイン語、フランス語)をカバーできるよう順次拡大が進められる。さらに、積極的な技術移転により、民間での製品化を推進していくという。また、現在、特許等の書き言葉のために翻訳エンジンのニューラルネットワーク化も推進しているということだ。

なお同技術は、NICTが開発し、公開している音声翻訳アプリVoiceTraに組み込まれており、精度改善を直接体験することができる。
(シマダマヨ)

関連記事(外部サイト)