生成AIと機械翻訳、翻訳性能の違いは?ChatGPTと機械翻訳の意外な関係 その3
ChatGPTと機械翻訳の意外な関係 その1で述べたように、今日の高性能な生成AI(Generative Artificial Intelligence)を可能にした主要な技術は、機械翻訳の発展の中で生まれました。技術的に言えば、ニューラル機械翻訳(Neural Machine Translation: NMT)が大きくエンコーダーとデコーダーに分けられるうち、デコーダー部分を取り出したものがGPT(Generative Pre-trained Transformer)です。
生成AIは、言ってみれば機械翻訳の一部分なのですが、それでも翻訳が可能です。その理由は、今日の生成AIが膨大な量の文章を事前学習(pre-train)しており(そのため、大規模言語モデル(Large Language Model: LLM)と呼ばれます)、その学習データの中に多様な言語の文章が含まれているからです。

NMTが翻訳できるのは、翻訳の訓練をした結果であり、驚くことではありません。一方、翻訳用の学習をしていないLLMが翻訳できているのは「たまたま」と言えるでしょう。しかし、偶発的に獲得した能力だからといって、直ちにその能力が劣っていると決めつけることはできません。では、LLMの翻訳能力は、NMTと比べて、どのように評価できるでしょうか。

ChatGPTが注目を集めた2023年に、LLMとNMTの翻訳性能を比較する研究がいくつか実施されました。それらを見ると、LLMが流暢性において優れている一方、NMTが正確性において優位であることがわかります。つまり、生成AIによる訳文は、訳文だけを読むともっともらしいのですが、機械翻訳の訳文と比べて誤りが多いのです。
NMTは原文と訳文のペアを学習していますが、そのような対訳データには、少なからずノイズが含まれます。誤訳や誤字脱字が紛れ込むこともありますし、文の区切り方が原文と訳文で異なっていたり、内容に意図的な過不足があったりすることもあります。これらのノイズは、NMTで不自然な訳文が生成される原因となります。
それに対し、LLMは単言語の文を学習しているため、学習データには、誤字脱字はあるとしても、翻訳に起因するノイズはありません。そのため、NMTに比べて不自然な訳文が生成される可能性が低く、訳文の流暢性が全体として高くなると考えられます。
一方で、LLMは翻訳タスクを学習していません。言い換えると、原文の内容を忠実に訳文に反映する訓練を受けていません。そのため、原文と訳文の内容が変わってしまう「誤訳」や、原文の内容が訳文から欠落する「訳抜け」、原文にない内容が訳文に付加される「湧き出し」が、NMTより頻繁に起こります。その結果、正確性が低下するのです。
もっとも、現在のLLMは2023年のものと比べて性能が向上しています。それでも、翻訳の忠実度の向上は必ずしも期待できないどころか、逆に低下している可能性もあります。翻訳ではなく要約に関する研究でもLLMは正確性に欠けると指摘されているのですが、その問題は新しいモデルほど悪化する傾向があると報告されているのです。

ただし、忠実度が低いというLLMの特性は、場合によっては長所にもなります。原文に比喩表現や口語表現が使われている場合、誤字脱字や文法誤りがある場合、原文が途中で途切れていたり内容が省略されていたりする場合などでは、NMTでは文字通りに翻訳しようとしてうまく翻訳できませんが、LLMは書き手の意図を汲み取って翻訳する能力が高いことがわかっています。
そのため、ゲーム・マンガ・アニメといったエンターテインメント分野や、ユーザーが生成したコンテンツ、音声から文字起こししたテキストなどの翻訳には、LLMが適していると考えられます。一方、流暢性より正確性が求められる場面では、生成AIより従来型の機械翻訳の方が信頼できると言えるでしょう。
また、翻訳速度が重視される場合も、NMTが優位です。NMTと同等の翻訳能力を持つLLMは、翻訳速度においてNMTに大きく水をあけられるのが通例です。さらに、LLMによる翻訳には、学習データに言語間の偏りがあることに起因する問題もあります。それについては稿を改めて論じたいと思います。
さて、NMTは正確性に優れ、LLMは流暢性に優れているとするならば、両者を組み合わせれば高性能な翻訳システムができるのではないでしょうか。まさにそのようなシステムとして、弊社は「ハイブリッドPE」を開発しました。ハイブリッドPEについて詳しくはこちらをご参照ください。
・Findings of the 2023 Conference on Machine Translation (WMT23): LLMs Are Here But Not Quite There Yet
・How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation
・AI Chatbots Unable to Accurately Summarise News, BBC Finds
・Generalization Bias in Large Language Model Summarization of Scientific Research
・RoCS-MT: Robustness Challenge Set for Machine Translation
川村インターナショナルでは、IT・ローカリゼーション、医療機器・医薬、観光・インバウンド、製造業、金融・ビジネス・法務、SAP 関連文書など、幅広い分野の翻訳を扱っております。お客様の業種・専門分野に応じて最適な翻訳者が対応いたします。弊社の審査基準をクリアした、経験豊富なプロの翻訳者ですので、品質の面でもご安心ください。
翻訳会社への翻訳依頼をご検討されている方は、お気軽にご相談ください。