翻訳・機械翻訳・ポストエディットなど翻訳に関連する情報を発信
catch-img

精度のよいAI翻訳を知るには~評価指標とAI翻訳エンジンのカスタマイズ~


目次[非表示]

  1. 1.AI翻訳を評価する4つの指標
    1. 1.1.指標(1)BLEU(ブルー)​​​​​​​
    2. 1.2.指標(2)NIST(ニスト)
    3. 1.3.指標(3)RIBES(ライビーズ)
    4. 1.4.指標(4)WER(ダブリュイーアール)
  2. 2.評価指標を利用する際の注意点
  3. 3.AI翻訳エンジンをカスタマイズすると…
  4. 4.川村インターナショナルのAI翻訳サービス

AI翻訳を評価する4つの指標

人手翻訳のプロジェクトでは、通常、「翻訳」→「チェック」→「最終確認」のステップで案件が進行します。それぞれの目的に即したツールやエディターが使われますが、基本的にはすべてのステップが人手(目視)で行われます。

一方、AI翻訳のプロジェクトは、おおまかに「AI翻訳(機械翻訳)(MT:Machine Translation)」→「ポストエディット(PE:Post Editing)」→「最終確認」のステップで進行します。細かいステップ/工程はプロジェクトごとに異なりますが、人手翻訳よりもコスト(Cost)および工数(Delivery)を削減できることが大きなメリットの1つになります。

とはいえ、品質(Quality)を維持することも当然、必要です。通常、ポストエディットと最終確認はやはり人手で行われるため、AI翻訳でできるだけ高精度の訳文を出力することが品質の維持/向上(さらにはコスト/工数の削減)の鍵になります。では、精度のよいAI翻訳を知る(選ぶ)にはどうすればいいでしょうか?

本記事では、AI翻訳を評価する際に使用できる4つの指標を簡単に紹介したいと思います。これらの指標は、いずれも「AI翻訳の出力した訳文が人手翻訳による訳文にどの程度近いか(遠いか)を示した数値」になります。この「人手翻訳による訳文」を「参照訳」とか「正解訳」と言ったりします。

指標(1)BLEU(ブルー)​​​​​​​

AI翻訳を評価する指標はいくつも存在しますが、BLEU(BiLingual Evaluation Understudy)スコアは現時点で最も広く使われている指標です。

BLEUスコアは0~1の数値で示され(*1)、参照訳に近いほど数値が高くなります。つまり、数値が高いほど人手翻訳に近いAI翻訳である、と言えます。一般的な目安としては、BLUEスコアが0.4以上の場合に高品質であると評価され、0.6を超えると人手翻訳よりも品質が高いという評価になります。

コーパス単位での評価を前提としており、長い(単語数/文字数の多い)訳文が高く評価される傾向があります。また、訳文同士の文字情報のみを評価するため、広域的な語順を正しく評価できない(広域的に語順が間違っていてもマイナス評価できない)などの特徴もあります。

*1)BLEUスコアを0~1の数値ではなく、100を掛けた割合(%)で示す場合もあります。

指標(2)NIST(ニスト)

NISTスコアも、BLEUスコアと同様に、AI翻訳の出力した訳文と参照訳との近さを示す指標です。

値は正の実数(0~)で示され、参照訳に近いほど数値が高くなります。0~1や0~100などの範囲(この場合、参照訳と完全に一致した場合が1または100)に正規化して表現されることが多いようです。

BLEUスコアとの違いとして、訳文での出現頻度による加重が考慮されます。そのため、高頻出単語(機能語など)よりも低頻出単語(内容語など)が高く評価される傾向があります。

ちなみにNISTとはNational Institute of Standards and Technology(アメリカ国立標準技術研究所)の略称です。NISTで開発された評価手法なので、この名称になっています。

指標(3)RIBES(ライビーズ)

RIBES(Rank-based Intuitive Bilingual Evaluation Score)は、BLEUスコアやNISTスコアとは異なるアプローチの評価指標です。NTTコミュニケーション科学基礎研究所で開発されました。

比較する訳文で共通して出てきた単語の順位の相関に基づく数値であるため、広域的な語順を正しく評価することが可能です。英語と日本語、あるいは中国語と日本語のように、語順が大きく異なる言語間の翻訳を評価する場合、人手での翻訳チェックによる評価との相関性が高いと言われています。

RIBESは0~1の数値で示され、参照訳に近いほど数値が高くなり、参照訳と完全に一致した場合に1となります。

指標(4)WER(ダブリュイーアール)

WER(Word Error Rate:単語誤り率)も、また別のアプローチでの評価です。

AI翻訳の出力した訳文と参照訳を比較して、語順や単語の編集距離(Edit Distance)を算出し、相互の一致を評価します。上記3つの指標とは異なり、値が小さいほど精度の高いAI翻訳であることを示します。


これらの指標はいずれも統計値であるため、評価に使う対訳コーパスの件数が多いほど評価値としては意味のあるものになります。つまり、100件の対訳コーパスで評価するよりも1,000件の対訳コーパスで評価したほうが、機械翻訳の精度の実態に近い数値が得られます。

評価指標を利用する際の注意点

本記事で紹介した4つの指標をはじめ、これらの評価指標は、異なる複数のAI翻訳(AI翻訳エンジン)を評価して値を比較するためのツールです。つまり、指標ごとの絶対値ではなく、AI翻訳ごとの値を相対比較して利用するものであることに注意が必要です。

AI翻訳エンジンをカスタマイズすると…

最近は、分野や領域に特化してより良い訳文を出力できるようAI翻訳エンジンをカスタマイズするサービスや製品がトレンドになっています。分野を限定することで、BLEUスコアを0.8まで向上できたという例もあります。今後は、分野は限定的だけれども精度が高い訳文を出力するカスタム機械翻訳が主流になっていくと予想されています。

最後に、具体的にどのような数値が出るのかも紹介しておきます。以下は、とあるAI翻訳エンジンをカスタマイズした前後の評価値です。カスタマイズによって精度が向上していること、また、指標によって値が異なることがよく分かるデータだと思います。


カスタマイズ前
カスタマイズ後
BLEU
0.29
0.41
NIST
6.34
7.13
RIBES
0.74
0.80
WER

0.53

0.44


川村インターナショナルのAI翻訳サービス

川村インターナショナルでは、「自社に最適なAI翻訳エンジンがわからない!」というお悩みにお応えします。カスタマイズ可能な機械翻訳ソリューションはもちろんセキュリティ要件、目的、分野、想定ユーザー層の要件に応じた幅広いご提案が可能です。

  機械翻訳サービス | 翻訳会社川村インターナショナル 機械翻訳(MT)の導入支援、販売、翻訳支援(CAT)ツールとの連携を実現します。情報セキュリティ、オンプレ・クラウド、対応言語・専門分野、コーパスによるアダプテーション、導入費用など、MT導入や活用に関する疑問や質問、比較ご検討中の不明点もご相談ください。Google NMT やMicrosoft Translator、SAP Translation Hubなどの導入支援も可能です。<トライアル無料> 翻訳会社川村インターナショナル

​​​​​​​AI翻訳の活用をご検討されている方は、ぜひお気軽にご相談ください。


関連記事

KIマーケティングチーム

KIマーケティングチーム

川村インターナショナルWebマーケティングチームです。開催予定セミナーやイベントの告知、ブログ運営などを担当しています。

この記事がお役に立ったらシェアをお願いします!

ホワイトペーパーはこちら

JSAマーク
ISO17100
JSAT 007

認証範囲:
金融・経済・法務、IT、医療・医薬、電気 ・機械、航空宇宙分野の技術翻訳サービス 及びソフトウェアローカリゼーション (英日、日英)
SGS_ISO-IEC_27001_with_ISMS-AC
※当社では、ISO17100に準拠した翻訳サービスを提供可能です。
準拠サービスをご希望の場合は、ご依頼時にお申し付けください。