翻訳・機械翻訳・ポストエディットなど翻訳に関連する情報を発信
catch-img

【対談】機械翻訳活用時に必要な視点⑦プリエディットについて

人手の翻訳でできることと機械にできることの違いをよく理解し、分野や用途に応じて柔軟に機械を活用することが望ましいが、その判断のポイントについて、エヌ・アイ・ティー株式会社の代表取締役社長、新田順也さんと意見交換をさせていただいた。


目次 前半1~6はこちら

  7. プリエディットについて(具体例①)
  8. プリエディットについて(具体例②)
  9. 機械翻訳活用に欠かせない視点(最後に)


プリエディットについて(具体例①)

森口:
そもそも人手の翻訳とポストエディットは違うという話があります。当社も新田さんも共通の認識だと思いますが、「プリエディット」という概念に辿り着いています。なぜそこに辿り着いたんでしょうか。

新田:
機械翻訳を使ったときに、出力がおかしいくて使い物にならない場合があります。英日翻訳も日英翻訳もそうです。その共通の原因として考えられるのは、機械翻訳エンジンにとって原文がわかりづらいということなんです。細かく言うと、文章が長いとか、構文が複雑になっているとか、日本語でいうと主語と述語がねじれているとか、主語がないとか、目的語がないとか。

そういう場合に原文のわかりづらさを修正したら出力結果がきれいになるという経験がいくつかあって、そこから「プリエディット」を意識し始めました。なので、ツール開発をするいちばん最初から、機械翻訳を使うのであればプリエディットしかないと思っていました。駄文というか、そもそも機械翻訳に向いていないものをエンジンに入力しても、出てくるものがいいわけがないという、そういう発想からです。

森口:
人間が理解していないものは機械が理解していないという話ではなく、そもそも入力文がわかりづらければ機械にとって翻訳もしづらいはずだということですね。


新田:
そうですね。最初は人間にわかりやすい文体でしっかり書いてあるとか、そういうところに注目していました。英語でいえばwhich節やthat節とか括弧で囲まれた箇所がちょっと長くなったらそれを取り除いてあげて短くしてあげれば訳文がきれいになるねとか、その節をまた別で翻訳するとかっていうのは、そこを半自動化する仕組み……。


森口:
いわゆる複文構造ですね。


新田:
そうです、複文構造を単文のようにしてあげると訳文がきれいになるということがわかったので、この対象箇所があることをアラートとしてGreenTで表示するようにしました。そして、この箇所の移動作業を自動化しました。例えば、以下のような文章があると、GreenTには括弧で囲まれた箇所を文章の末尾に移動する機能があります。この状態で独立した文として訳すと文章構造が壊れにくくなります。

まずは、以下の英文をそのまま機械翻訳にかけてみます。

(原文)

Microsoft Translator (which includes apps for Android, iOS, Windows, Presentation Translator, Translator Hub, Translator Live, Translator for Bing, and Translator for Microsoft Edge, collectively “Translator”) processes the text, image, and speech data you submit, as well as device and usage data.


(訳文)

Microsoft Translator(Android、iOS、Windows、Presentation Translator、Translator Hub、Translator Live、Translator for Bing、およびTranslator for Microsoft Edge、総称して「Translator」を含むアプリ)は、送信したテキスト、画像、音声データを処理します。デバイスと使用状況データも同様である。

新田:
このような感じで、as well as 以降の部分が別の文として最後にくっついていますね。これは、原文の主語にかかれている括弧の部分が長すぎて文章構造を正確に把握できなかったからだと思うのです。そこで、GreenTで以下のように括弧を末尾に移動するんです。

(修正後の原文)

Microsoft Translator  processes the text, image, and speech data you submit, as well as device and usage data.

(which includes apps for Android, iOS, Windows, Presentation Translator, Translator Hub, Translator Live, Translator for Bing, and Translator for Microsoft Edge, collectively “Translator”)


(訳文)

Microsoft Translatorは、送信したテキスト、画像、音声データ、およびデバイスと使用状況データを処理します。

(これには、Android、iOS、Windows、Presentation Translator、Translator Hub、Translator Live、Translator for Bing、およびTranslator for Microsoft Edgeのアプリが含まれます)

新田:
こんな感じで、訳文が出力されます。こちらでは「collectively “Translator”」の訳抜けがありますよ。でもどちらが誤訳箇所を見つけやすいか、修正しやすいか、という話なんです。

和文でも、ちょっと書き換えることをしています。日本語の「××においては」という箇所は「××は」に換えて主語として扱えることがあるじゃないですか。なので主語を明確にした無生物主語構文に半自動で書き換えるということをやっています。

(原文)

図5(a)に示されるように、初期画面200においては、例えば、画面戻し釦200a、画面送り釦200b、スライドショー再生釦200c、画面切替釦200dが表示されている


(訳文)

As shown in FIG. 5A, on the initial screen 200, for example, a screen return button 200a, a screen forward button 200b, a slide show playback button 200c, and a screen switching button 200d are displayed.

新田:
この原文そのものからの訳文でも意味は通じるし訳抜けもなくて英文として成立しているのですが、主語が非常に長い読みづらい英文になっています。なので、今回のプリエディットは誤訳の修正というよりは、翻訳者目線での訳文を機械翻訳の出力結果として得ることを意図しています。

以下のようにGreenTが修正候補を表示するので、それをクリックして「初期画面200においては、」を「初期画面200は、」に変えて、「が表示されている」を「を表示している」にするんです。

(修正後の原文)

図5(a)に示されるように、初期画面200は、例えば、画面戻し釦200a、画面送り釦200b、スライドショー再生釦200c、画面切替釦200dを表示している

(訳文)

As shown in FIG. 5A, the initial screen 200 displays, for example, a screen return button 200a, a screen forward button 200b, a slide show playback button 200c, and a screen switching button 200d.

新田:
ほら、出力結果が変わって無生物主語の英語らしい表現になりました。


プリエディットについて(具体例②)

森口:
要は、文をどこかで切って短くすると精度が良くなるということですね。新田さんのツールはそれが注意喚起される形になっているものかなと思います。当社もいろいろなところで研究発表をしていて、プリエディットをした場合の事例を出しているんですが、結局プリエディットすること自体、翻訳に関する相当な知識がないと難しいのではないかという意見もいただいたことがあります。

主語と述語のかかりがおかしいとか、遠すぎるとか、そういうものをちゃんと把握して、それをちゃんと入れ換えてあげるというのはそれだけでノウハウじゃないのですかということですね。

確かにそうかもしれないのですが、ポイントに気が付いて、修正をして、もう一度機械翻訳にかけるというその流れをある程度自動化できると思っていて、新田さんのツールだと、全部はできないとしても部分的にはすでに実現できているのかなと思っています。

当社では、機械が人間を支援してくれるポイントとして、プリエディット自体も半自動化、もしくはツール側で注意喚起をするという方法がが正しいのではないかなと思っています。

例えば、「文が長すぎます」とか、「複文構造です」とか、「主語と述語がわかりにくいので分割したらどうですか」とか、そういうことを機械側から示唆されると、わかりやすくなります。文を分割して、細かくした後に、それを並び替えるとある程度の翻訳ができちゃうケースというのが実際にありますからね。

新田:
GreenTの最新版でも、結局区切るところの判断は人間の役割だと思っていて、そこの自動化は全然目指していません。現状の仕様では、その文の1部分を選択すると、それが1つのフレーズとして認識される結果、もうちょっといい精度で訳文が出てきます。先ほどの例文でGreenT上でここを選択した状態で翻訳をすると…。

(赤字箇所が選択されています)
Microsoft Translator (which includes apps for Android, iOS, Windows, Presentation Translator, Translator Hub, Translator Live, Translator for Bing, and Translator for Microsoft Edge, collectively “Translator”) processes the text, image, and speech data you submit, as well as device and usage data.


(訳文)

Microsoft Translator (これには、android、iOS、Windows、Presentation Translator、Translator Hub、Translator Live、Translator for Bing、およびTranslator for Microsoft Edgeのアプリが含まれます)は、送信したテキスト、画像、音声データ、およびデバイスと使用状況データを処理します。

関連記事へのリンク

新田:
こちらを利用したほうがわかりやすいでしょうか。


森口:
文字を選択したら。おー、すごい。


新田:
前の例のように選択箇所を分離して単文にしたうえで翻訳をしています。その翻訳したパーツをもう一度元通りに組みなおしているのです。この作業を自動化しています。

ほかにも、文自体はすごく単純なんだけれども、例えば1つの化合物名が50文字以上もあるような長い場合に訳文の構造が壊れてしまうことがあります。でも、その化合物名を「化合物Aは」というふうに置き換えて訳すとすごくきれいになって、そして最後に「化合物A」の個所に正しい訳語を入れてあげるだけで正確な訳ができるということがわかっています。これは、私が所属する日本知的財産翻訳協会(Nippon Intellectual Property Translation Association:略称NIPTA)の研究報告で説明されています。

こういう場合もGreenTで処理できます。前の例と同じようにこの長い化合物名を選択して翻訳するんです。選択するところまで人間がやります。

まずは普通に機械翻訳にかけるとこうなります。

(原文)

遷移金属触媒として、クロロ[[1,3-ビス(2,6-ジイソプロピルフェニル)イミダゾール-2-イリデン](アセトアニリド)パラジウム(II)]を用いる請求項1~8のいずれか1項に記載の多環式化合物の製造方法。


(訳文)

9. The multi-layer according to claim 1, wherein Chloro [[1,3-bis (2,6-diisopropylphenyl) imidazol-2-ylidene] (acetanilide) palladium (II)] is used as the transition metal catalyst. A method for producing a cyclic compound.

新田:
このように、2文に区切られたり、先頭に9という数字が挿入されたりしておかしなことになります。実は化合物名には不要なスペースが挿入されており間違っています。でも、GreenTで「クロロ…」の化合物名を選択して翻訳して、さらに用語集も適用すると、以下のような文章構造が保持され用語集が適用された訳文になります。

(GreenTの訳文)

The method for producing a polycyclic compound according to any one of claims 1 to 8, wherein Chloro[[1,3-bis(2,6-diisopropylphenyl)imidazol-2-ylidene](acetanilide)palladium(II)] is used as the transition metal catalyst.

新田:
なので、こういう少し面倒な置き換え作業が必要になるのでGreenTのような自動化ツールが必須なのですが、私は機械翻訳はこうやれば使えると思っています。

森口:
やっぱりこっちが正しい方向性ですよね。機械翻訳を活用する際に人がやることと、そうじゃないことをもう少し分けて……。

⑧に続く

【インタビュアー】森口功造

【インタビュアー】森口功造

株式会社川村インターナショナル代表取締役。ISO TC 37 国内委員として、主にISO17100およびISO18587の策定に関わる。機械翻訳エンジンの活用や翻訳関連の標準化推進に注力。

この記事がお役に立ったらシェアをお願いします!

ホワイトペーパーはこちら


人気のダウンロード資料

タグ

JSAマーク
ISO17100
JSAT 007

認証範囲:
金融・経済・法務、IT、医療・医薬、電気 ・機械、航空宇宙分野の技術翻訳サービス 及びソフトウェアローカリゼーション (英日、日英)
SGS_ISO-IEC_27001_with_ISMS-AC
※当社では、ISO17100に準拠した翻訳サービスを提供可能です。
準拠サービスをご希望の場合は、ご依頼時にお申し付けください。