
精度のよいAI翻訳を知るには~評価指標とAI翻訳エンジンのカスタマイズ~
目次[非表示]
AI翻訳を評価する4つの指標
人手翻訳のプロジェクトでは、通常、「翻訳」→「チェック」→「最終確認」のステップで案件が進行します。それぞれの目的に即したツールやエディターが使われますが、基本的にはすべてのステップが人手(目視)で行われます。
一方、AI翻訳のプロジェクトは、おおまかに「AI翻訳(機械翻訳)(MT:Machine Translation)」→「ポストエディット(PE:Post Editing)」→「最終確認」のステップで進行します。細かいステップ/工程はプロジェクトごとに異なりますが、人手翻訳よりもコスト(Cost)および工数(Delivery)を削減できることが大きなメリットの1つになります。
とはいえ、品質(Quality)を維持することも当然、必要です。通常、ポストエディットと最終確認はやはり人手で行われるため、AI翻訳でできるだけ高精度の訳文を出力することが品質の維持/向上(さらにはコスト/工数の削減)の鍵になります。では、精度のよいAI翻訳を知る(選ぶ)にはどうすればいいでしょうか?
本記事では、AI翻訳を評価する際に使用できる4つの指標を簡単に紹介したいと思います。これらの指標は、いずれも「AI翻訳の出力した訳文が人手翻訳による訳文にどの程度近いか(遠いか)を示した数値」になります。この「人手翻訳による訳文」を「参照訳」とか「正解訳」と言ったりします。
指標(1)BLEU(ブルー)
AI翻訳を評価する指標はいくつも存在しますが、BLEU(BiLingual Evaluation Understudy)スコアは現時点で最も広く使われている指標です。
BLEUスコアは0~1の数値で示され(*1)、参照訳に近いほど数値が高くなります。つまり、数値が高いほど人手翻訳に近いAI翻訳である、と言えます。一般的な目安としては、BLUEスコアが0.4以上の場合に高品質であると評価され、0.6を超えると人手翻訳よりも品質が高いという評価になります。
コーパス単位での評価を前提としており、長い(単語数/文字数の多い)訳文が高く評価される傾向があります。また、訳文同士の文字情報のみを評価するため、広域的な語順を正しく評価できない(広域的に語順が間違っていてもマイナス評価できない)などの特徴もあります。
(*1)BLEUスコアを0~1の数値ではなく、100を掛けた割合(%)で示す場合もあります。
指標(2)NIST(ニスト)
NISTスコアも、BLEUスコアと同様に、AI翻訳の出力した訳文と参照訳との近さを示す指標です。
値は正の実数(0~)で示され、参照訳に近いほど数値が高くなります。0~1や0~100などの範囲(この場合、参照訳と完全に一致した場合が1または100)に正規化して表現されることが多いようです。
BLEUスコアとの違いとして、訳文での出現頻度による加重が考慮されます。そのため、高頻出単語(機能語など)よりも低頻出単語(内容語など)が高く評価される傾向があります。
ちなみにNISTとはNational Institute of Standards and Technology(アメリカ国立標準技術研究所)の略称です。NISTで開発された評価手法なので、この名称になっています。
指標(3)RIBES(ライビーズ)
RIBES(Rank-based Intuitive Bilingual Evaluation Score)は、BLEUスコアやNISTスコアとは異なるアプローチの評価指標です。NTTコミュニケーション科学基礎研究所で開発されました。
比較する訳文で共通して出てきた単語の順位の相関に基づく数値であるため、広域的な語順を正しく評価することが可能です。英語と日本語、あるいは中国語と日本語のように、語順が大きく異なる言語間の翻訳を評価する場合、人手での翻訳チェックによる評価との相関性が高いと言われています。
RIBESは0~1の数値で示され、参照訳に近いほど数値が高くなり、参照訳と完全に一致した場合に1となります。
指標(4)WER(ダブリュイーアール)
WER(Word Error Rate:単語誤り率)も、また別のアプローチでの評価です。
AI翻訳の出力した訳文と参照訳を比較して、語順や単語の編集距離(Edit Distance)を算出し、相互の一致を評価します。上記3つの指標とは異なり、値が小さいほど精度の高いAI翻訳であることを示します。
これらの指標はいずれも統計値であるため、評価に使う対訳コーパスの件数が多いほど評価値としては意味のあるものになります。つまり、100件の対訳コーパスで評価するよりも1,000件の対訳コーパスで評価したほうが、機械翻訳の精度の実態に近い数値が得られます。
評価指標を利用する際の注意点
本記事で紹介した4つの指標をはじめ、これらの評価指標は、異なる複数のAI翻訳(AI翻訳エンジン)を評価して値を比較するためのツールです。つまり、指標ごとの絶対値ではなく、AI翻訳ごとの値を相対比較して利用するものであることに注意が必要です。
AI翻訳エンジンをカスタマイズすると…
最近は、分野や領域に特化してより良い訳文を出力できるようAI翻訳エンジンをカスタマイズするサービスや製品がトレンドになっています。分野を限定することで、BLEUスコアを0.8まで向上できたという例もあります。今後は、分野は限定的だけれども精度が高い訳文を出力するカスタム機械翻訳が主流になっていくと予想されています。
最後に、具体的にどのような数値が出るのかも紹介しておきます。以下は、とあるAI翻訳エンジンをカスタマイズした前後の評価値です。カスタマイズによって精度が向上していること、また、指標によって値が異なることがよく分かるデータだと思います。
カスタマイズ前 |
カスタマイズ後 |
|
BLEU |
0.29 |
0.41 |
NIST |
6.34 |
7.13 |
RIBES |
0.74 |
0.80 |
WER |
0.53 |
0.44 |
川村インターナショナルのAI翻訳サービス
川村インターナショナルでは、「自社に最適なAI翻訳エンジンがわからない!」というお悩みにお応えします。カスタマイズ可能な機械翻訳ソリューションはもちろんセキュリティ要件、目的、分野、想定ユーザー層の要件に応じた幅広いご提案が可能です。
AI翻訳の活用をご検討されている方は、ぜひお気軽にご相談ください。
関連記事
翻訳会社についての豆知識~よくある質問⑨ポストエディットと機械翻訳カスタマイズ~(弊社ソリューション提供サイト 「LDX lab.io」へリンクします。)