オルタナティブ・ブログ > C'est la vie >

デジタルとアナログの間を行ったり来たり

AIを使った文字起こしについてのメモ

»
AWSのTranscribeが先月から日本語対応したので試してみました。私がいつも使っているSpeech-to-TextとAIメーカーについてもメモしておきます。
AWSのTranscribeが日本語対応した直後、まずは録音しただけの音声で試したのですが、結果がいまいちでした。今日は私がシャドーイングで録音しなおした音声の文字起こしを、AWSのTranscribeとSpeech-to-Text(AIはGoogleとMS)で処理しました。合計3種類のAIを試したことになります。
出力結果を見ると、今回はSpeech-to-TextでGoogleを使ったものがよかったと感じました。
■AWS Transcribe
おおまかな作業の流れ:
 ○S3でバケットを作る→フォルダ作る
 →ICレコーダーで録音したmp3ファイルをアップロード
 ○Transcribeでジョブを作成する
 →S3のURLを指定して実行
 ○処理終了後にS3のファイルとTranscribeのジョブを削除
aws.PNG
安い。前に20分程度でやったけど20セントくらいだった気がします。現状ではAWSが最安値です。
とはいえ結果はSpeech-to-Textに比べるとまだいまいちでした。あと出力がJSON形式で、文節ごとにconfidenceなどの補足情報がついていて、システム的にはいいのだけど業務的には要らないかな。
■Speech-to-Text
https://www.speech-to-text.jp/
録音データの最初1分でGoogle、IBM、MSの結果を比較して、どこのAIを使うか選べます。
アップロードできるファイルの上限が50MBなので、録音時間が40分を超えるあたりで分割する必要あり。今回は録音が50分あったので2分割にして前半はGoogleとMSの両方で処理してもらいました。
sp2t.PNG
最初の1分を見た限りではMSも期待できたのだけど、出力したテキストを見ると聞き取れなかったのか、Googleが出力した分量の1/3しかありませんでした。残念。
料金は録音時間に応じて課金されるので、GoogleもMSもどちらも20分程度の音声ファイルで240円。後半はGoogleだけに依頼しました。50分で500円強。
Pay-as-you-go方式なので出力結果とともに料金が示され、決済はStripeを経由したクレジットカードにて。
■AIメーカー
https://text.aimaker.io/recognize/
まだたまに使います。Speech-to-Textのサーバーが保守中?で使えない時とか。
AIはGoogleらしく、Speech-to-TextのGoogleの出力結果とほぼ同じ。
ファイルの上限が100MBなので分割しなくてもいい場合が多い。
プリペイド式なので一定金額をチャージしておく必要があり、いつも多めに払うのが気がかり。最近チャージ時の決済がStripeに変わりました。
***
出力結果は音声認識のAIの賢さだと思うので、今後はそれぞれの修行次第。今はSpeech-to-TextのGoogleが一番良さそうですが、私の声との相性かもしれないので、他の人だと他のAIがいいかもしれません。まだどこがいいとは決めきれないなと思います。どのAIもトレーニングがんばって賢くなってね。応援しています。
Comment(0)