
【2021年最新版】破壊的テクノロジー!!字幕翻訳の革命
目次[非表示]
産業翻訳における字幕翻訳とは?
「字幕翻訳」といえば、映画やドラマの字幕を思い浮かべる方が多いと思います。
しかし動画の字幕は、映画やドラマだけにとどまりません。
産業翻訳を取り扱う翻訳会社でも、マーケティングコンテンツや大学の講義、インバウンドコンテンツなど動画の字幕翻訳に対応しています。
そしてさらに、コロナ禍でイベントの開催や会場でのセミナー開催ができなくなった今日では、IT業界に限らずオンラインイベントやウェビナーの需要が高まってきています。そのため、字幕やナレーションに関する様々な問い合わせが目に見えて増えています。
動画の音声を文字起こししてから翻訳を行い、字幕として動画上に表示するところまで対応する字幕翻訳案件。
従来は、以下のようにいくつものプロセスを経て翻訳データを作成していました。
1.人手による文字起こし
2.テキストデータのレビュー
3.翻訳
4.翻訳チェック
5.文章と表示時間の調整
音声自動認識技術の発展
近年の音声自動認識技術の発展により、機械的に文字起こし処理ができるWEBサイトやツールが開発されました。
最近ではこのようなWEBサイトを使用して音声を文字起こしすることによって、専門家の力を借りることなく、音声自動認識により起こされた文章の社内レビューにより、プロセスの効率化、そしてコストと作業時間の削減が可能になりました。
ただし、いくら音声認識の精度が向上したとはいえ、録音環境や話者の訛りなどまだまだ対応しきれないものも多く、コストと時間をかけた従来のプロセスの方が精度は良いというのが現状です。
ここでは、簡単に使用できる音声自動認識WEBサイトと主要な翻訳前処理をご紹介します。(※今回ご紹介するのは、英語音声を日本語の字幕にするケースです。)
革新的な音声自動認識WEBサイト、その長所と短所
YouTube
Googleが提供する世界で一番有名な動画サイトです。皆さん動画を視聴されることが多いと思いますが、実は自身でアップした動画に対して自動で文字起こしを行う機能が存在し、アカウントを作成すればこの機能を使用することができるのです。
○YouTubeの長所
Youtubeでは自動文字起こしの際に、字幕ファイルの作成を同時に行うことができます。(実際に話をしているタイミングとテキストの内容を記載した、SRTやSBVファイルを作成してくれます)これにより、音声と対応するテキストの表示時間を編集する作業を一から行う必要がなく、作業の大幅な効率化が図れます。
また、比較的文字起こしの精度が高く、文字起こしにかかる時間が短いという利点もあります。
(話者に左右はされますが、ほとんど直しが必要ないセンテンスを起こしてくれる場合があり、その精度も年々増しているように感じます。)
○Youtubeの短所
認識される音声の範囲が狭いところがあります。例えば、クセの強いしゃべり方や発音がある場合には英語と認識されず、全く文字起こしがされない場合があります。一般的に英語の発音があまり得意でない日本人の英語は、英語として認識されず、自動で文字起こしがされない場合がありました。
また、英語ネイティブが聞いても判別しにくいフランス訛りの英語は、なぜかドイツ語として認識されるなど、まだまだ改善の余地があります。
ただし、先述したようにその精度は日進月歩で、将来に期待できるサービスです。
Watson
IBMがWEBサイト上で提供しているAIを使用したサービスで、音声自動認識を利用して文字起こしを行うことができます。
○Watsonの長所
認識される音声の範囲が広く、クセや訛りが強い場合でも文字に起こしてくれます。上記YouTube上で文字起こしがされなかった場合でも、Watsonを利用して文字起こしできる場合があります。また、文頭を認識するため、文頭の文字を大文字にして起こしてくれます。
○Watsonの短所
認識される音声の範囲は広いですが、その分、文字起こしされたテキストの精度はあまり高くない傾向があります。やや強引に認識するため、発音が悪い場合は全く違う文字を起こす場合があり、センテンスをほぼ全部直す必要があることもあります。
また、字幕ファイルを作成することはできないため、文字起こしがされた後、音声と字幕が表示されるタイミングを自身で調整する必要があります。
必要な前処理
このように自動音声認識技術を活用することで、工数の大幅な削減が可能になりました。それでも、字幕翻訳を完成させるためには人の手を入れて不足部分を補う必要があります。
誤認識された単語の修正
機械の精度の限界や元々の音声の発音の不備がある場合、誤認識された単語の修正が必要になります。この時に、人が音声を聞き、手動で単語を修正する必要が発生します。
よく誤認識される単語としては、
(正)Problem → (誤)Program
(正)Class → (誤)Plus
が挙げられます。音声にするとたしかに似ていますね。
不要な単語の削除
人手による文字起こしでは、”you know”、”umm”、”Okey”等の翻訳に不要な間投詞を起こさずに作業を行います。しかし、自動認識では不要な間投詞も文字に起こされるため、人手による削除が必要になります。
数字の書き起こし
基本的に数字はアラビア数字に統一しますが、名詞として使用されている“one”などは、スペルアウトするなどの表記分けが必要になります。自動認識による文字起こしではこれらの区別がされないため、人手によるチェックと修正が必要になります。
カンマの挿入
翻訳作業においてカンマの位置は重要です。カンマ一つで文の意味が大きく変化してしまう場合があります。自動認識では、文脈を考慮してカンマが挿入されない場合があるため、翻訳作業を正確にするために、人手によって文書の区切りにカンマを入れる必要があります。
まとめ
まだまだ人手による前処理が必要な字幕翻訳ですが、従来のプロセスに比べれば、上記WEBサイトの技術の活用によって効率的に対応できるようになっています。そして、認識の精度も年々上がってきているため、修正作業の工程も以前より短縮されるようになりました。
この分野の技術の発展は目覚ましく、近い将来人手で直す必要のない音声自動認識技術が現れることが期待されます。
関連記事