テクノロジー
高度なAI技術で、言葉の課題を解決します。
追加学習 (アダプテーション、EBMT(用例翻訳))
お客様の対訳データを活用した訳質改善
追加学習は、翻訳エンジンの高精度化のための有望なソリューションです。お客様が所有する対訳データを活用することにより、高精度な翻訳エンジンの構築が可能です。
用語解説と確認事項
-
必要な対訳文の数は、近年、逓減しています。数年前は、100万文が目安でしたが、この頃では、クリーンなデータであれば、数万~数十万文でも効果があることをマインドワードでは確認しています。
-
フォーマット確認(修正)作業:アダプテーションを実施するため対訳のフォーマット(TMX形式あるいはTSV形式)の確認を行います。
-
コーパスクレンジング:対訳データには、追加学習の妨げとなる情報が含まれていることがあります。高精度な翻訳エンジンを構築するためには、これを取り除く、コーパスクレンジング作業が必要です。
-
追加学習:汎用翻訳モデルにお客様が所有する対訳データを追加し、再学習(アダプテーション、EBMT (Example-Based Machine Translation) )を実施することで、貴社のスタイルに沿った高品質な翻訳が可能となります。
コーパスクレンジング
クレンジング作業の必要性
汎用を超えた高精度自動翻訳エンジンを効率的に構築するには、コストに見合ったクレンジング作業を段階的に実施することが重要です。
対訳データのチェックは大変!
簡単に確認できるのは、氷山の一角!
対訳データにある問題の一例
例)This is my important book which I read every night.
① これが私の大切な本です。 毎晩、その本を読んでいます。
*一文の英文が二文に翻訳。
② これが私の大切な本です。
*which以下が、訳文にない。
③ # book とは「吾輩は猫で」である。
*翻訳者のコメントやメモが書かれている。
④ これが毎晩読む私の大切な本(ref7)です。
*メタデータが埋め込まれている。
⑤ これは毎週読む私の大切な本です。
*意味が違う。
評 価
機械翻訳エンジンの性能比較データを公開する予定です。
お客様に必要な客観評価、主観評価に関するご相談も承っております。
研究開発・コンサルティング
マインドワードでは、自動音声翻訳技術のさらなる発展を目指し研究開発に取り組んでいます。これまでの研究開発成果を活かし、お客様の環境に合わせた最新技術の導入をサポートします。
主な研究開発実績
【受託研究】
1. 総務省 情報通信技術の研究開発 【2020年度~】
課題名:多言語翻訳技術の高度化に関する研究開発(詳細はこちら)
【研究発表】
-
Fumiaki Sugaya and Keiji Yasuda. Measuring the Capability of a Speech Translation System. Book chapter of Speech-to-Speech Translation, pp. 77-85, Springer, ISBN:978-981-15-0594-2, 2020.
(書籍)