自社専用の翻訳エンジンは作れる!
機械翻訳のカスタマイズ
現在提供されているさまざまな自動翻訳サービスの多くは、どんな文章が与えられてもそれなりに訳せるように作られています。それに対し、人間の翻訳者はそれぞれ専門分野を持っており、翻訳会社は、文章の内容に応じた翻訳者を選んで翻訳を依頼しています。
機械翻訳でも、ある分野に特化した専門エンジンがあれば、それぞれの分野で高品質な翻訳が可能になります。弊社の「みんなの自動翻訳@KI」では、特許専用エンジンや適時開示文書専用の金融エンジンなどを提供しています。
もっと専門性の高い翻訳エンジンや、自社専用の翻訳エンジンがあれば、さらに高い翻訳品質が得られるでしょう。でも、そんなエンジンは存在しないかもしれません。存在しないなら、作ってしまいましょう。そう、機械翻訳はカスタマイズできます。
機械翻訳のカスタマイズには、用語適用と追加学習の2つの方法があります。この記事では、それぞれのカスタマイズ方法について、具体例や注意点を紹介します。
用語適用では、原語と訳語を対にした対訳用語集をあらかじめ用意し、翻訳時にその用語集を適用します。たとえば、
It was my first home run.
という英文を機械翻訳で和訳したとき、
初めてのホームランでした。
となったとすると、原語「home run」に対して訳語「本塁打」を用語として適用すれば、
初めての本塁打でした。
という訳文を得ることができます。
このように、用語を適用すると、用語集にある用語が必ず指定通りに翻訳されるようになります。翻訳エンジン自体には手を加えないので、比較的安価に実現できるという利点があります。
ただし、用語適用には以下のような制限があります。
まず、英語の名詞が複数形になったり、日本語の用言が活用したりして、語形が変化すると、適用されません。
また、原語と訳語が1対1で対応している必要があります。文脈に応じて適用の是非を判断したり、複数の訳語に訳し分けたりということはできません。
最後に、次の例を見てください。
原文 | Ohtani hit his first home run. |
用語適用なし | 大谷は初のホームランを打った。 |
用語適用あり |
大谷は初の本塁打に当たった。 |
上記と同じ用語を適用したところ、「本塁打」は確かにその通りに訳されましたが、ほかの部分の訳が悪化してしまいました。どうしてでしょう。
最新の機械翻訳では、文中の単語と単語のつながりを認識しながら翻訳しています。ところが、用語を適用すると、翻訳前に「home run」が別の何かに置き換えられてしまうので、「hit」と「home run」とのつながりが見えなくなってしまうのです。
以上から、機械翻訳に適用できる用語は、語形が変化せず、訳語が文脈に依存しない用語であり、さらに、それ自身が文脈に影響を与えない用語だと言えます。そのため、人手翻訳用に作った対訳用語集をそのまま機械翻訳に適用しても、ほとんどの場合には、悪影響のほうが大きいでしょう。
機械翻訳用の用語集に適した用語には、製品名など一般的でない固有名詞、化学物質名などの専門用語、業界用語や社内用語などがあります。そのような用語に限定して、できるだけ控えめに適用することが肝要です。
追加学習(再学習、アダプテーションとも呼ばれます)では、原文と訳文を対にした対訳集(パラレルコーパス)を機械翻訳エンジンに学習させます。すると、機械翻訳で得られる訳文が全体として、対訳集にある訳文に近づきます。
たとえば、旧約聖書および新約聖書全文の英日対訳約3万ペアをみんなの自動翻訳@KIの汎用エンジンに学習させたところ、次のような訳文の変化が見られました。なお、ここで使用した対訳集は、OPUSで提供されている対訳集を機械的に処理したものです。
原文 |
God created every creatures in two day. |
追加学習前 | アッラーは,凡ての被造物を2日で創られた。 |
追加学習後 | 神はすべての生き物を二日のうちに創造された。 |
原文 | I met Andrew at Tokyo station. |
追加学習前 |
私は東京駅でアンドリューに会いました。 |
追加学習後 | わたしは東京駅でアンデレに会った。 |
最初の例は、実は原文に文法の誤りがあるのですが、追加学習させたことで自然な訳文になりました。2つ目の例では、スタイルや固有名詞の訳が変化しています。
機械翻訳は、その仕組み上、誤訳・訳抜け・湧き出しをなくすことができませんし、用語やスタイルを統一することもできません。しかし、追加学習によって、その問題点を低減できます。
ただし、追加学習にもいくつか注意点があります。
まず、追加学習前の問題点が100パーセント解決されることはありません。言い換えると、ポストエディット(訳文の修正)の必要性を0にすることはできません。
また、追加学習では機械翻訳エンジンを新規に作ってそれを運用するので、コストが高くなります。さらに、ベースとした機械翻訳エンジンが随時アップデートされるため、年1回程度の頻度で追加学習をし直すことが推奨されます。
最後に、追加学習には1万から10万ペア以上の大規模な対訳集が必要です。過去の翻訳にCATツールを使っていれば、翻訳メモリをほぼそのまま対訳集にすることができますが、そうでない場合、数多くの対訳を用意するのは難しいでしょう。
この短所には回避策が2つあります。1つはNMT(ニューラル機械翻訳)とEBMT(用例ベース機械翻訳)のハイブリッド翻訳、もう1つは対訳集の自動生成です。なお、NMTとEBMTのハイブリッド翻訳は、みんなの自動翻訳@KIを含む一部のサービスでしか利用できません。
現在ほとんどの機械翻訳サービスで使用されているNMTの追加学習には、前述の通り大規模な対訳集が必要です。一方、EBMTは小規模な対訳集でも追加学習できます。ただし、EBMTは、対訳集にある原文と似た文でなければ、うまく翻訳できません。
そこで、NMTエンジンをEBMTで追加学習することで、対訳集に似た文がある場合はEBMTを使用し、そうでない場合はNMTを使用するハイブリッドエンジンを作ることができます。
具体例を挙げましょう。先ほどと同じ聖書のコーパスから、冒頭近くの50ペアを抜粋してEBMTで追加学習し、創世記の1節を和訳してみました。
原文 |
God called the expanse "sky." There was evening and there was morning, a second day. |
追加学習前 |
神は大空を「空」と呼びました。夜もあり、朝もあり、二日目でした。 |
追加学習後 |
神は大空を「空」と呼ばれた。夕となり、また朝となった。第二日である。 |
正解訳 |
神はそのおおぞらを天と名づけられた。夕となり、また朝となった。第二日である。 |
わずか50ペアの追加学習ですが、効果が見てとれます。もっとも、これだけ少ない対訳で学習させるにはコツがあるのですが、よく似た文が繰り返し現れるような文章ではEBMTの利点が発揮されます。
また、原文と訳文がある場合、または訳文だけがある場合に、対訳集を自動生成できます。前者の場合、原文と訳文を文ごとに対応づけるアラインメントによって対訳集を生成します。後者の場合、訳文を機械翻訳にかけて原文を生成すれば、対訳集ができます。
ただし、これらの方法では、対訳集の中に対応ずれや誤訳が混入してしまいます。これらは追加学習においてノイズとなり、結果として得られる訳文の品質を下げる要因となります。
そのため、ノイズの多い対訳を捨ててしまったり、手動でノイズを修正したりする必要があります。また、NMTの追加学習では学習データを3つに分けますが、その分配を工夫することで、ノイズの影響を低減できます。
具体例として、当社がXMATに追加する新機能「Language Asset Creator (LAC) 」のオプションサービスを使用し、公開されているWebサイトからCSR(企業の社会的責任)に関するページをクロールして、約15万ペアの対訳集を作成し追加学習しました。
ここでは翻訳エンジンの品質を評価する指標としてBLEU(bilingual evaluation understudy)スコアを用います。BLEUスコアは、人手で翻訳した正解訳(参照訳)と機械翻訳の訳文との類似度をパーセントで表したもので、一般に40%以上なら高品質の翻訳エンジンとされています。
この例では参照訳もアラインツールで生成したので、あくまで参考値となりますが、BLEUスコアが英日で約4.8ポイント、日英で約3.7ポイント上昇しました。
BLEUスコア |
英日 | 日英 |
追加学習前 | 39.32% | 36.06% |
追加学習後 | 44.15% | 39.75% |
もっと対訳の領域を絞り、対訳数を増やし、ノイズ除去を丁寧にすると、追加学習の効果をさらに高めることができます。弊社があるお客様の専用エンジン作成をお手伝いした例では、上記とは別のアラインツールで生成した約25万ペアの対訳集で追加学習を行い、次のように大幅な品質向上を実現しました。
BLEUスコア |
英日 | 日英 |
追加学習前 | 28.42% | 30.24% |
追加学習後 | 49.61% | 41.80% |
この記事を読んで、機械翻訳をカスタマイズしてみたいけれどハードルが高いとお感じになった方がいるかもしれません。弊社では、そのハードルを下げるべく、お客様専用機械翻訳エンジンの作成を支援するLACを近日中にリリースします。
機械翻訳のカスタマイズに興味を持たれたら、LACをぜひお試しください。