らくがきちょう

なんとなく ~所属組織/団体とは無関係であり、個人の見解です~

Amazon Transcribe のテキスト化精度を試す

現時点における Amazon Transcribe の「日本語ファイルのテキスト化精度」を確認すべく、ネット上にあった音声サンプルをテキスト化してみました。 尚、Custom vocabulary は未使用です。 今回、テスト結果を記載したものは「コンピュータによって合成された音声」や「プロ声優のナレーション」なので、インプットファイルとしては "非常に優秀" なものばかりを使った、と言えると思います。

感想

今回、テスト結果を公開したファイル以外にも幾つか音声ファイルの変換を試してみたので、個人的な感想をメモしておきます。

  • 変換精度
    • テキスト化の精度は高い
    • 漢字の誤変換はあるが、十分、許容出来る範囲
  • 向き・不向き
    • セミナーや講演など、「ひとりだけが話をしている」音声ファイルに向いている
    • 会議など、「不特定多数が同時に話をする」(しかもシングルチャンネル録音) だと、全く使い物にならない (Transcribe だけの課題では無い。 Transcribe 以外の会議特化製品でも、精度は厳しいかも…?)
  • 操作
    • Web UI (管理コンソール) からの操作は非常に簡単
    • 音声ファイルを置いておく S3 Bucket も「入れ物を作るだけ」で良く、特別な設定は不要
    • ジョブ作成は設定箇所が少ないので、ジョブを作るのも秒殺タスク
  • マルチチャンネルのテストは未実施の為、精度等は不明

LENCE]

Transcribe を試していると、しばしば変換結果に LENCE] というキーワードが登場します。 定かなことは言えませんが、「コンピュータによる合成音声」や「プロ声優のナレーション」では無く、もっと条件の悪い入力音声ファイルを利用した場合に登場しているように感じます。

f:id:sig9:20191125120430p:plain

場合によっては LENCE]LENCE] と、繰り返し登場する場合もあります。 Stack over Flow でも質問されていますが、現状では未回答のようです。 実際にこの音声部分を聞いても何も発音していないようで、現状ではこれが「何を意味するのか?」は分かりません…

1. 電話自動応答 (HOYA)

結果は以下の通りです。 「天気状況」と「電気 概況」が明らかな誤りですが、これもかけ離れているわけではありません。 また、その他部分はほぼ「完璧」と言えると思います。

オリジナル Amazon Transcribe
お電話ありがとうございます。こちらは発着案内サービスです。 12月25日の運航状況についてお知らせいたします。 成田国際空港の天気概況は概ね良好です。平常どおりの運航を予定しています。 お、 電話 ありがとう ござい ます こちら は 発着 案内 サービス です 十二月、 二 十 五 日 の 運行 状況 について お知らせ いたし ます 成田 国際 空港 の 電気 概況 は 概ね 良好 です 平常 通り の 運航 を 予定 し て い ます

2. 放送システム (HOYA)

結果は以下の通りです。 「保谷インター」を「方 や インター」と処理していますが、こういった固有名詞まで完璧に対応させたいのであれば、Custom vocabulary 機能を使うことで対応出来るのかも知れません (未テスト)。

オリジナル Amazon Transcribe
午後6時15分現在の、道路交通情報を、お知らせします。 東北道を青森方面へ走行中の方に、交通集中による渋滞の情報です。 およそ50キロ先の、保谷インターを先頭に、2キロほど渋滞しています。 午後 六 時 十 五 分 現在 の 道路 交通 情報 を お知らせ し、 ます 東北 道 を 青森 方面 へ 走行 中 の 方 に 交通 集中 による 渋滞 の 情報 です およそ 五 十 キロ 先 の 方 や インター を 先頭 に 二 キロ ほど 渋滞 し て い ます

3. 三匹の子ぶた (日本語ナレーションのこえろく)

結果は以下の通りです (オリジナル文面は公開されていませんでした)。 「その 笑う ください」の原文はおそらく「その藁ください」だと思われますが、若干の漢字誤変換を除いて全体的に「ほぼ完璧」と言って良いと思います。

Amazon Transcribe
昔 昔 年 を 取っ た お 母 さん 豚 と 三 匹 の 子 ブタ が い まし た お 母 さん、 豚 は 子 豚 を 育て て いく こと が でき なかっ た ので 子 豚 の 幸運 を 願っ て 家 から 送り出す こと に し まし た 一 番 目 の 子 豚 は わら の 束 を 持っ た 男 に 出会っ て 言い まし た おじ さん 家 を 建てる から その 笑う ください 男 は 子 豚 に わら を 挙げ まし た 子 豚 は その わら で 家 を 作り まし た