らくがきちょう

なんとなく ~所属組織/団体とは無関係であり、個人の見解です~

Amazon Transcribe で日本語音声ファイルをテキスト化してみる

Amazon Transcribe を使うと「音声ファイル → テキスト」へ変換することが出来ます。 この Transcribe が日本語対応したので試してみました。

サンプル

今回は下記にある音声サンプルファイルを利用させて頂きました (「視聴頂けます」の記載はあるものの、二次利用に関する言及が無かったので「使って良いのか?」心配ですが…)

注意点

入力オーディオファイルは S3 Bucket 上に配置済みの想定です。 但し、「Transcribe Job と S3 Bucket のリージョンが一致していないとエラーになる」点には注意します。 S3 Bucket へ特殊な設定は不要です。

Step.1

AWS 管理コンソールから Amazon Transcribe へアクセスします。 トップページが表示されたら Create transcription job をクリックします。

f:id:sig9:20191124144048p:plain

Step.2

Real-time transcription に対応しているリージョンで操作していると、トップの次に下記画面へ遷移するようです。 この場合は左側のナビゲーションから Transcription jobs をクリックして次へ進みます (現時点の東京リージョンでは Real-time transcription に対応しておらず、この画面には遷移しないようです)。

f:id:sig9:20191124144058p:plain

Step.3

以下のような画面に遷移します。 これから必要なパラメータを入力していきます。

f:id:sig9:20191124144111p:plain

Step.4

以下のようにパラメータを入力します。 入力が終わったら画面右下の Create をクリックして次へ進みます。

項目 必須
Name 必須 このジョブに設定する任意の名称を入力します
Language 必須 入力オーディオファイルの言語を指定します。 今回は日本語の音声ファイルを扱う為、「Japanese (Japan)」を選択します
Input file location on S3 必須 S3 上にある入力オーディオファイルのパスを入力します
Format 入力オーディオファイルの形式を mp3, mp4, wav, flac から選択します。 入力を省略すると自動判別される為、通常は空欄で良いと思います
Audio sampling rate (Hz) 入力オーディオファイルのサンプリングレートを入力します。 誤った値を指定するとエラーになってしまう為、敢えて入力せず、自動検出させるのがお勧めです

f:id:sig9:20191124144122p:plain

Step.5

S3 Bucket と Transcribe Job のリージョンが不一致な場合、以下のエラーになります。 S3 Bucket か、または Transcribe Job のリージョンを修正して、両者が一致するようにします。

f:id:sig9:20191124144206p:plain

Step.6

エラーが無ければ以下の画面へ遷移します。 対象 Job の Status が In progress になっており、処理中であることが分かります。 処理にかかる時間は入力オーディオファイルの長さ次第です。

f:id:sig9:20191124144136p:plain

Step.7

しばらく待つと Sttaus が Complete になり、処理が完了します。 結果を確認する為、Job 名をクリックします。

f:id:sig9:20191124144218p:plain

Step.8

以下のような画面になり、結果 (音声ファイルに基づいて作成されたテキスト) が表示されます。

f:id:sig9:20191124144234p:plain