【事例紹介】

AI技術を活用した動画自動翻訳

VOICE 2018 summer
【事例紹介】AI技術を活用した動画自動翻訳

【事例紹介】AI技術を活用した動画自動翻訳

身近になった動画制作と増え続けるコンテンツ

YouTubeをはじめとした動画サイトやスマートフォンの普及により、動画の視聴が身近になって数年経ちます。近年では、動画編集アプリや動画サイト自体のユーザビリティが向上し、動画は見るだけでなく、自分で制作できる存在になってきています。Youtuberとよばれる動画クリエイターは自分で動画を撮影し、音楽や字幕を挿入して公開用の動画を自分で編集します。

多くのYoutuberが一般のユーザーであることからも分かるように、動画制作は多くの人にとってより身近なものになっています。企業も自社の製品やサービスを動画広告として公開し、自社のサービスのプロモーション活動を行っていますが、その動画に字幕をつけグローバルに展開している企業の数も増加しています。

増加の一途をたどる動画コンテンツのローカライズを、スピーディーかつ効率的に処理する手段として、川村インターナショナルではAI技術の積極的活用を進めています。今回は、動画字幕翻訳とAI技術のコラボレーションについてご紹介します。

きっかけは大学の動画作成プロジェクトから

AIを活用した動画作成プロジェクトは昨年2月、とある大学から収録された大学の講義に字幕を付けたいというご相談を受けたことがきっかけで始まりました。講義はすべて英語で話されており、動画に日本語の字幕を付ける必要がありました。

動画に字幕を付けるサービスは、当社でも長年対応してまいりましたが、今回は予算の割に、ローカライズする動画の本数が多かったことと、作業期間が極端に短かったため、従来のやり方とは根本的にやり方を変えて臨む必要がありました。

従来の工程では、大まかに４つのステップを踏んで、動画内の音声をローカライズして字幕作成します。

1. 動画を再生して音声を聞き取り、テキスト化する（文字起こし）

2. テキスト化したデータを翻訳（翻訳）

3. 翻訳データを動画データにインポート（字幕載せ替え・編集）

4. 要望されたデータ形式で納品し、アップロード（生成・公開）

従来の字幕翻訳のフロー

文字起こし

動画を再生して音声を聞き取り、テキスト化します。スクリプト形式で文書を作成しました。

翻訳

動画を参考にしながら、人手で翻訳を行います。

字幕載せ替え・編集

翻訳済みのテキストを動画編集ソフトへアップロードし、スクリプト形式に割り付けられた時間に合わせて編集します。

生成・公開

要望のファイル形式でデータを生成し、公開用データとして納品します。

.AI 活用サービスですとこのステップが以下のように変わります。

1. YouTubeの音声自動認識機能を利用して、テキスト化（文字起こし＋見直し）

2. テキスト化したデータを機械翻訳にかけてポストエディット（MT+PE）

3. 翻訳データを動画データにインポート（字幕自動割付け・編集）

4. YouTubeで公開（公開）

人が聞き取ったり、翻訳者が翻訳を行う作業に、自動処理技術を取り入れて作業時間の短縮および生産性の向上を図るという工程に置き換わっています。

AIを活用した字幕翻訳のフロー

文字起こし＋見直し

YouTubeの自動文字起こし機能を活用し、字幕をテキスト化します。漏れや間違いがあるため、人手で見直します。

MT + PE

文字起こししたデータを機械翻訳にかけ、人手によるポストエディット処理を実施します。

字幕自動割付け・編集

翻訳済みのテキストをYouTubeへアップロードし、スクリプト形式の自動割り付けを活用して、工数を削減します。

公開

YouTube上で公開用データとして納品します。

AIを活用すると工程はどのように変わる？

このAIを活用した作業プロセスは、タスクを機械処理に任せるという意味ではありません。音声認識は誤認識をすることもありますし、機械翻訳も正確性や全文のコンテキストを理解した上での流暢さの点から考えると、人手による翻訳の品質には劣ります。

あくまでもAIと連携して、従来のマニュアル作業の作業効率アップを図るのが目的です。従って、自動処理の精度やクオリティに応じて、人が行う作業効率が変わってきます。ここで、自動処理の精度を左右する要因について考えます。

音声自動認識にも機械翻訳にも共通して言えることですが、精度を高めるための重要な要素は、「原文言語の質」です。音声を機械に読み取らせる場合、原文がバックグラウンドノイズのない環境で、明瞭に発音されれば、音声は正確に認識されてテキストになります。

録音環境が良くなかったり、スピーカーの声が小さい／正しく発音されなかったりした場合は誤認識がおこります。これは、人が文字起こし作業を行う場合でも同じことなのですが、人の場合は、音量を上げて聞きなおしたり、前後のコンテキストから推測をしたりできるのに対し、機械にはそれができないのが大きな違いです。英語であれば、英語のネイティブスピーカーが明瞭に話している動画が理想です。

機械翻訳で翻訳処理を行う際、原文に不要な句読点やスペースが入っていると、出力結果も品質に影響を及ぼします。音声自動認識を使用した場合、スピーカーの話す言葉と言葉の間に間隔があると、テキストに句読点やスペースが入ってしまいます。自動処理を行う場合は、音声が正しくテキストになっているか確認をする工程で、このような不要な句読点やスペースも削除し、機械翻訳にかけるためのテキストを作成していきます

生産性はどれだけ上がる？

冒頭でご紹介した大学の講義動画への字幕作業を例に生産性の比較を行なったところ、以下のような結果がでました。

■音声の書き起こし

	スピーカー (ノンネイティブ)	スピーカー (ネイティブ)
生産性 (%)	20%向上	30%向上

スピーカー

(ノンネイティブ)

スピーカー

(ネイティブ)

生産性 (%)

20%向上

30%向上

※人が書き起こした場合との比較
※句読点・スペースの調整処理含む

ネイティブスピーカーの英語と比較すると、ノンネイティブスピーカーの英語には機械が発音を誤認識するというケースが目立ち、生産性が下回ったことが分かります。

■MT／ポストエディット

	スピーカー (ノンネイティブ)	スピーカー (ネイティブ)
生産性 (%)	5%-10%向上	5%-10向上

スピーカー

(ノンネイティブ)

スピーカー

(ネイティブ)

生産性 (%)

5%-10%向上

5%-10向上

※人が行った場合の平均的な生産性との比較

ノンネイティブとネイティブの間で大きな生産性の差はありませんが、大学の講義という内容の難易度から、生産性は若干上がったという結果でした。製品プロモーションなど企業が公開しているマーケティング動画などより馴染みの深いコンテンツの場合、この生産性はさらに向上すると見込んでよいと考えられます。

AIを活用したフローは有効か？ -まとめ-

原文や動画の品質に左右はされるが、自動処理を活用した作業プロセスは生産性向上に有効であると言えます。

上記のプロジェクトの成果物にご興味のある場合には、当社の営業担当までお知らせください。

動画マーケティングのグローバル展開をお考えの際は、是非弊社までご相談いただければ幸いです。

中安　裕志　
川村インターナショナル　制作事業部　

2006年に入社後、国内、グローバル企業のローカリゼーション案件のプロジェクトマネージャーを担当。

現在は、川村インターナショナル制作グループシニアマネージャーとして、翻訳チーム管理に従事。

Voice 2018 summer 記事へのアクセス

ISO17100
JSAT 007

認証範囲：
金融・経済・法務、IT、医療・医薬、電気・機械、航空宇宙分野の技術翻訳サービス及びソフトウェアローカリゼーション

※当社では、ISO17100に準拠した翻訳サービスを提供可能です。
準拠サービスをご希望の場合は、ご依頼時にお申し付けください。