機械翻訳を評価する4つの指標

人手翻訳のプロジェクトでは、通常、「翻訳」→「チェック」→「最終確認」のステップで案件が進行します。それぞれの目的に即したツールやエディターが使われますが、基本的にはすべてのステップが人手（目視）で行われます。

一方、機械翻訳のプロジェクトは、おおまかに「機械翻訳（MT：Machine Translation）」→「ポストエディット（PE：Post Editing）」→「最終確認」のステップで進行します。細かいステップ/工程はプロジェクトごとに異なりますが、人手翻訳よりもコスト（Cost）および工数（Delivery）を削減できることが大きなメリットの1つになります。

とはいえ、品質（Quality）を維持することも当然、必要です。通常、ポストエディットと最終確認はやはり人手で行われるため、機械翻訳でできるだけ精度の高い訳文を出力することが品質の維持/向上（さらにはコスト/工数の削減）の鍵になります。では、精度のよい機械翻訳を知る（選ぶ）にはどうすればいいでしょうか？

本記事では、機械翻訳を評価する際に使用できる4つの指標を簡単に紹介したいと思います。これらの指標は、いずれも「機械翻訳の出力した訳文が人手翻訳による訳文にどの程度近いか（遠いか）を示した数値」になります。この「人手翻訳による訳文」を「参照訳」とか「正解訳」と言ったりします。

指標（1）BLEU（ブルー）

機械翻訳を評価する指標はいくつも存在しますが、BLEU（BiLingual Evaluation Understudy）スコアは現時点で最も広く使われている指標です。

BLEUスコアは0～1の数値で示され（*1）、参照訳に近いほど数値が高くなります。つまり、数値が高いほど人手翻訳に近い機械翻訳である、と言えます。一般的な目安としては、BLUEスコアが0.4以上の場合に高品質であると評価され、0.6を超えると人手翻訳よりも品質が高いという評価になります。

コーパス単位での評価を前提としており、長い（単語数/文字数の多い）訳文が高く評価される傾向があります。また、訳文同士の文字情報のみを評価するため、広域的な語順を正しく評価できない（広域的に語順が間違っていてもマイナス評価できない）などの特徴もあります。

（*1）BLEUスコアを0～1の数値ではなく、100を掛けた割合（%）で示す場合もあります。

指標（2）NIST（ニスト）

NISTスコアも、BLEUスコアと同様に、機械翻訳の出力した訳文と参照訳との近さを示す指標です。

値は正の実数（0～）で示され、参照訳に近いほど数値が高くなります。0～1や0～100などの範囲（この場合、参照訳と完全に一致した場合が1または100）に正規化して表現されることが多いようです。

BLEUスコアとの違いとして、訳文での出現頻度による加重が考慮されます。そのため、高頻出単語（機能語など）よりも低頻出単語（内容語など）が高く評価される傾向があります。

ちなみにNISTとはNational Institute of Standards and Technology（アメリカ国立標準技術研究所）の略称です。NISTで開発された評価手法なので、この名称になっています。

指標（3）RIBES（ライビーズ）

RIBES（Rank-based Intuitive Bilingual Evaluation Score）は、BLEUスコアやNISTスコアとは異なるアプローチの評価指標です。NTTコミュニケーション科学基礎研究所で開発されました。

比較する訳文で共通して出てきた単語の順位の相関に基づく数値であるため、広域的な語順を正しく評価することが可能です。英語と日本語、あるいは中国語と日本語のように、語順が大きく異なる言語間の翻訳を評価する場合、人手での翻訳チェックによる評価との相関性が高いと言われています。

RIBESは0～1の数値で示され、参照訳に近いほど数値が高くなり、参照訳と完全に一致した場合に1となります。

指標（4）WER（ダブリュイーアール）

WER（Word Error Rate：単語誤り率）も、また別のアプローチでの評価です。

機械翻訳の出力した訳文と参照訳を比較して、語順や単語の編集距離（Edit Distance）を算出し、相互の一致を評価します。上記3つの指標とは異なり、値が小さいほど精度の高い機械翻訳であることを示します。

これらの指標はいずれも統計値であるため、評価に使う対訳コーパスの件数が多いほど評価値としては意味のあるものになります。つまり、100件の対訳コーパスで評価するよりも1,000件の対訳コーパスで評価したほうが、機械翻訳の精度の実態に近い数値が得られます。

評価指標を利用する際の注意点

本記事で紹介した4つの指標をはじめ、これらの評価指標は、異なる複数の機械翻訳（機械翻訳エンジン）を評価して値を比較するためのツールです。つまり、指標ごとの絶対値ではなく、機械翻訳ごとの値を相対比較して利用するものであることに注意が必要です。

機械翻訳エンジンをカスタマイズすると…

最近は、分野や領域に特化してより良い訳文を出力できるよう機械翻訳エンジンをカスタマイズするサービスや製品がトレンドになっています。分野を限定することで、BLEUスコアを0.8まで向上できたという例もあります。今後は、分野は限定的だけれども精度が高い訳文を出力するカスタム機械翻訳が主流になっていくと予想されています。

最後に、具体的にどのような数値が出るのかも紹介しておきます。以下は、とある機械翻訳エンジンをカスタマイズした前後の評価値です。カスタマイズによって精度が向上していること、また、指標によって値が異なることがよく分かるデータだと思います。

	カスタマイズ前	カスタマイズ後
BLEU	0.29	0.41
NIST	6.34	7.13
RIBES	0.74	0.80
WER	0.53	0.44

TOPに戻る

フィードバックフォーム

当サイトで検証してほしいこと、記事にしてほしい題材などありましたら、
下のフィードバックフォームよりお気軽にお知らせ下さい！
例えば･･･
CATツールを自社に導入したいが、どれを選べばいいか分からないのでオススメを教えてほしい。
機械翻訳と人手翻訳、どちらを選ぶべきかわからない。
翻訳会社に提案された「用語集作成」ってどんなメリットがあるの？
ご意見ご要望をお待ちしております！

新着記事一覧

ISO17100
JSAT 007

認証範囲：
金融・経済・法務、IT、医療・医薬、電気・機械、航空宇宙分野の技術翻訳サービス及びソフトウェアローカリゼーション

※当社では、ISO17100に準拠した翻訳サービスを提供可能です。
準拠サービスをご希望の場合は、ご依頼時にお申し付けください。