生成AIによる翻訳が直面する品質の限界ChatGPTと機械翻訳の意外な関係 その4

前回の記事で、今日の生成AIに使用されている大規模言語モデル(Large Language Model: LLM)と、従来型の機械翻訳であるニューラル機械翻訳(Neural Machine Translation: NMT)との、翻訳能力の違いについて概説しました。簡単にまとめると、流暢性(訳文の自然さ)においてLLMが優位であり、正確性(翻訳の忠実度)と翻訳速度においてNMTが優位です。LLMとNMTの相違点は、それだけではありません。

この記事では、LLMとNMTの学習データの違いと、それに起因する翻訳品質の問題について見ていきたいと思います。

アイキャッチ(AI)

学習データの違いと、ピボット翻訳という仕組み

NMTの学習データは、原文と訳文のペアです。原文が1つの言語(たとえば日本語)で書かれており、訳文がもう1つの言語(たとえば英語)で書かれています。そのため、個々の翻訳モデルは単一言語方向(たとえば日本語から英語)の翻訳しかできません。

多くの商用機械翻訳サービスでは、英語から各言語、各言語から英語の翻訳モデルが用意されていて、たとえば日本語から中国語に翻訳する場合、日本語から英語に翻訳し、さらに英語から中国語に翻訳しています。これを「ピボット翻訳(pivot translation)」と言います。

(なお、当社の機械翻訳ソリューション「みんなの自動翻訳@KI」は、日本語から各言語、各言語から日本語の翻訳モデルも使用しており、ピボット翻訳ではなく直接翻訳しています。)

一方、LLMの学習データは、さまざまな言語で書かれた文章です。そのため、1つの言語モデルでさまざまな言語方向の翻訳ができ、ピボット翻訳の必要がありません。その点のみを見れば、英語以外の言語同士の翻訳にはLLMの方が適していそうです。

 

言語間の偏りが生む、LLM翻訳品質の差

ところが、前回も紹介した2023年の研究によると、LLMによる翻訳は、英語への翻訳ではNMTに匹敵する一方、英語からの翻訳や、英語以外の言語同士での翻訳については、品質が劣ることが実証されています。現実のLLMは、言語方向によって翻訳能力に差があるのです。

その理由は、LLMの学習データに言語間の偏りがあることです。一般的に利用されているLLMのほとんどで、学習データの多くが英語の文で占められています。そのようなLLMは、英語文の生成に長けているので、訳文が英語になるような翻訳は得意ですが、そうでない翻訳は不得手になってしまいます。

しかし、LLMは日々学習量を増やしています。非英語文の学習も進めていけば、訳文が英語でない翻訳も品質が向上するでしょうか。

 

学習データの質低下と、LLMが直面する限界

LLMは学習データのほとんどをウェブなどの公開データに頼っています。ところが、ウェブ上には、ユーザーが生成したコンテンツやAIが生成または翻訳した文章がどんどん増えています。そのような低品質なデータをいくら学習しても、LLMの性能向上は期待できません。

それどころか、AIが生成した文章をAIに学習させると、言語モデルが崩壊に向かうことが知られています。実験によると、生成AIが最終的に意味不明な文章ばかり生成するようになるのです。この現象は、近親婚を繰り返した結果衰退したハプスブルク家になぞらえて「ハプスブルクAI(Habsburg AI)」と呼ばれることがあります。

 

学習データ枯渇問題と、NMTによる現実的な解決策

LLMを訓練するには高品質なデータが必要なのですが、公開された高品質データは早ければ2026年には枯渇すると見積もる研究があります(2026年問題)。話者が少ない言語では、公開データにおける機械翻訳文の割合が高いので、学習データの品質低下による翻訳性能の悪化という問題がより深刻になってゆくと考えられます。

もっとも、高品質学習データの不足という問題は、NMTも等しく抱えています。それに対する解決策の1つとして、自組織内の非公開データを学習させた自組織専用翻訳モデルを作成することが挙げられます。なお、追加学習の容易さという点でも、NMTがLLMより優位です。

弊社のAI翻訳ツールXMATでは、自組織専用翻訳モデルの作成と使用をセルフサービスで行えます。また、弊社ではより高品質な対訳データを作成したい、対訳データを組織外に出さないようにしたい、といったご要望にもお応えできます。

参考

川村インターナショナルの翻訳サービス

川村インターナショナルでは、IT・ローカリゼーション、医療機器・医薬、観光・インバウンド、製造業、金融・ビジネス・法務、SAP 関連文書など、幅広い分野の翻訳を扱っております。お客様の業種・専門分野に応じて最適な翻訳者が対応いたします。弊社の審査基準をクリアした、経験豊富なプロの翻訳者ですので、品質の面でもご安心ください。

翻訳会社への翻訳依頼をご検討されている方は、お気軽にご相談ください。


フィードバックフォーム
当サイトで検証してほしいこと、記事にしてほしい題材などありましたら、
下のフィードバックフォームよりお気軽にお知らせ下さい!
例えば・・・
CATツールを自社に導入したいが、どれを選べばいいか分からないのでオススメを教えてほしい。
機械翻訳と人手翻訳、どちらを選ぶべきかわからない。
翻訳会社に提案された「用語集作成」ってどんなメリットがあるの?
ご意見ご要望をお待ちしております!
新着記事一覧
JSAマーク
ISO17100
JSAT 007

認証範囲:
金融・経済・法務、IT、医療・医薬、電気 ・機械、航空宇宙分野の技術翻訳サービス 及びソフトウェアローカリゼーション
SGS_ISO-IEC_27001_with_ISMS-AC
※当社では、ISO17100に準拠した翻訳サービスを提供可能です。
準拠サービスをご希望の場合は、ご依頼時にお申し付けください。