翻訳・機械翻訳・ポストエディットなど翻訳に関連する情報を発信
catch-img

破壊的テクノロジー!!字幕翻訳の革命

産業翻訳における字幕翻訳とは?

「字幕翻訳」といえば、映画やドラマの字幕を思い浮かべる方が多いかと思います。
しかし動画の字幕は、映画やドラマだけにとどまりません。
産業翻訳を取り扱う翻訳会社でも、マーケティングコンテンツや大学の講義、インバウンドコンテンツなど動画の字幕翻訳に対応しています。

動画の音声を文字起こししてから翻訳を行い、字幕として動画上に表示するところまで対応する字幕翻訳案件。
従来のプロセスでは、以下のようにいくつものプロセスを経て翻訳データを作成していました。

1.専門家による文字起こし
2.テキストデータのレビュー
3.翻訳
4.翻訳チェック
5.文章と表示時間の調整


音声自動認識技術の発展

しかし、近年の音声自動認識技術の発展により、機械的に文字起こし処理ができるWEBサイトやツールが開発されました。
最近ではこのようなWEBサイトを使用して音声を文字起こしすることによって、専門家の力を借りることなく、音声自動認識により起こされた文章を社内でレビューすることで、プロセスを効率化しコストと作業時間を削減できるようになりました。
ただし、いくら音声認識の精度が向上したとはいえ、そのまま翻訳用の文章として使用できるわけではないということ、コストと時間をかけた従来のプロセスのものの方が精度は良いというのが現状です。

簡単に使用できる音声自動認識WEBサイトのご紹介、また、主要な翻訳前処理を紹介いたします。(※今回紹介しますのは、英語音声を日本語の字幕にするケースのものです。)


革新的な音声自動認識WEBサイト、その長所と短所

1) YouTube

Googleが提供する世界で一番有名な動画サイトです。皆さん動画を視聴されることが多いかと思いますが、実は自身でアップした動画に対して自動で文字起こしを行う機能が存在し、アカウントを作成すればこの機能を使用することができるのです。

○YouTubeの長所

こちらのWEBサイトでは自動で文字起こしをしてくれる際に、字幕ファイルの作成も同時に行うことができます。(実際に話をしているタイミングとテキストの内容を記載した、SRTやSBVファイルを作成してくれます)これにより、音声と対応するテキストの表示時間を編集する作業を一から行う必要がなく、作業の大幅な効率化が図れます。

また、比較的文字起こしの精度が高く、文字起こしにかかる時間も短いという点もあります。
​​​​​​​(話者に左右されますが、ほとんど直しが必要ないセンテンスを起こしてくれる場合があります。)

○Youtubeの短所

認識してくれる音声の範囲が狭いところがあります。例えば、クセの強いしゃべり方や発音がある場合には英語と認識してくれず、全く文字起こしを行ってくれない場合があります。一般的に英語の発音があまり得意でない日本人の英語は、英語として認識されず、自動で文字起こしがされない場合がありました。

また、文の切れ目が認識されない仕様で、文頭の文字の大文字化がされないのも悩ましいところです。


2) Watson


IBMがWEBサイト上で提供しているAIを使用したサービスで、音声自動認識を利用して文字起こしを行うことができます。


○Watsonの長所

認識してくれる音声の範囲が広く、クセやなまりが強い場合でも文字に起こしてくれます。上記YouTube上で文字起こしがされなかった場合でも、Watsonを利用して文字起こしできる場合があります。また、文頭を認識してくれるため、文頭の文字を大文字にして起こしてくれます。

○Watsonの短所

認識してくれる音声の範囲は広いですが、その分、文字起こしされたテキストの精度はあまり高くない傾向があります。やや強引に認識するため、発音が悪い場合は全く違う文字を起こす場合があり、センテンスをほぼ全部直す必要があることもあります。

また、字幕ファイルを作成することはできないため、文字起こしがされた後、音声と字幕が表示されるタイミングを自身で調整する必要があります。


それでも必要な前処理

このように自動音声認識技術を活用することで、工数の大幅な削減が可能になりましたがそれでも、字幕翻訳ではまだまだ人の手による処理が必要です。


誤認識された単語の修正

機械の精度の限界や元々の音声の発音の不備から、誤認識された単語の修正が必要になる場合があります。この時に、人が音声を聞き、手動で単語を修正する必要が発生します。機械の精度は良くなっておりますが、まだ音声が間違って認識される場合があり、人の手で修正していく必要があります。

よく誤認識される単語としては、

(正)Problem → (誤)Program

(正)Class → (誤)plus

が挙げられます。音声にするとたしかに似ていますね。


不要な単語の削除

人手による文字起こしでは、”you know”、”umm”、”Okey”等の翻訳に不要な間投詞を起こさずに作業を行います。しかし、自動認識ではこれらも文字に起こされるため、人手による削除が必要になります。


数字の書き起こし

基本的に数字はアラビア数字に統一しますが、名詞として使用されている“one”などは、スペルアウトするなどの表記分けが必要になります。自動認識による文字起こしではこれらの区別がされないため、人手によるチェックと修正が必要になります。


カンマの挿入

翻訳作業においてカンマの位置は重要です。カンマ一つで文の意味が大きく変化してしまう場合もあります。自動認識では文脈を考慮したカンマの挿入がなされない場合があるため、翻訳作業を正確にするために、人手によって文書の区切りにカンマを入れる必要があります。


まとめ

まだまだ人の手による前処理が必要な字幕翻訳ですが、従来のプロセスに比べれば、これらのWEBサイトの技術の活用によって効率的に対応できるようになっています。
この分野の技術の発展は目覚ましく、近い将来人の手で直す必要のない音声自動認識技術が現れることが期待されます。

関連記事

KIマーケティングチーム

KIマーケティングチーム

川村インターナショナルWebマーケティングチームです。開催予定セミナーやイベントの告知、ブログ運営などを担当しています。

ご不明な点がございましたらお気軽にお問い合わせください。

この記事がお役に立ったらシェアをお願いします!


人気記事ランキング

タグ

アーカイブ