AIを使った文字起こしについてのメモ

» 2019/12/07

AWSのTranscribeが先月から日本語対応したので試してみました。私がいつも使っているSpeech-to-TextとAIメーカーについてもメモしておきます。

AWSのTranscribeが日本語対応した直後、まずは録音しただけの音声で試したのですが、結果がいまいちでした。今日は私がシャドーイングで録音しなおした音声の文字起こしを、AWSのTranscribeとSpeech-to-Text（AIはGoogleとMS）で処理しました。合計3種類のAIを試したことになります。

出力結果を見ると、今回はSpeech-to-TextでGoogleを使ったものがよかったと感じました。

■AWS Transcribe

おおまかな作業の流れ：

　○S3でバケットを作る→フォルダ作る

　→ICレコーダーで録音したmp3ファイルをアップロード

　○Transcribeでジョブを作成する

　→S3のURLを指定して実行

　○処理終了後にS3のファイルとTranscribeのジョブを削除

安い。前に20分程度でやったけど20セントくらいだった気がします。現状ではAWSが最安値です。

とはいえ結果はSpeech-to-Textに比べるとまだいまいちでした。あと出力がJSON形式で、文節ごとにconfidenceなどの補足情報がついていて、システム的にはいいのだけど業務的には要らないかな。

■Speech-to-Text

https://www.speech-to-text.jp/

録音データの最初1分でGoogle、IBM、MSの結果を比較して、どこのAIを使うか選べます。

アップロードできるファイルの上限が50MBなので、録音時間が40分を超えるあたりで分割する必要あり。今回は録音が50分あったので2分割にして前半はGoogleとMSの両方で処理してもらいました。

最初の1分を見た限りではMSも期待できたのだけど、出力したテキストを見ると聞き取れなかったのか、Googleが出力した分量の1/3しかありませんでした。残念。

料金は録音時間に応じて課金されるので、GoogleもMSもどちらも20分程度の音声ファイルで240円。後半はGoogleだけに依頼しました。50分で500円強。

Pay-as-you-go方式なので出力結果とともに料金が示され、決済はStripeを経由したクレジットカードにて。

■AIメーカー

https://text.aimaker.io/recognize/

まだたまに使います。Speech-to-Textのサーバーが保守中？で使えない時とか。

AIはGoogleらしく、Speech-to-TextのGoogleの出力結果とほぼ同じ。

ファイルの上限が100MBなので分割しなくてもいい場合が多い。

プリペイド式なので一定金額をチャージしておく必要があり、いつも多めに払うのが気がかり。最近チャージ時の決済がStripeに変わりました。

＊＊＊

出力結果は音声認識のAIの賢さだと思うので、今後はそれぞれの修行次第。今はSpeech-to-TextのGoogleが一番良さそうですが、私の声との相性かもしれないので、他の人だと他のAIがいいかもしれません。まだどこがいいとは決めきれないなと思います。どのAIもトレーニングがんばって賢くなってね。応援しています。

加山恵美 2019/12/07 17:06:18 Comment(0)

SpecialPR

日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

AIを使った文字起こしについてのメモ

最新の投稿

加山恵美

2025年7月