オルタナティブ・ブログ > むささびの視線 >

鳥のように高いところからの俯瞰はできませんが、ITのことをちょっと違った視線から

スピーチtoテキストのサービスを使って自分のスピーチの善し悪しを見極める

»

 インタビューなどを行い記事を書く際には、メモ代わりに会話を録音する。しかし録音はするものの、録音を後から聴いて利用することはあまりなかった。手書きメモが上手くとれなかった部分を確認するのに使う程度だったのだ。記者の中にはインタビュー中はそれほど積極的にメモをとらず、録音データからテキストをしっかり起こしてから記事を書く人も多い。このやり方でも良いのだが、私は録音からのテキスト起こしが苦手。なので手書きメモを中心に記事を書いてきた。

 今は、録音データから自動でテキスト化してくれるサービスがたくさんある。これらを使えば苦手なテキスト起こしも苦にならない。とは言えいくつかのサービスを使ってみたが、有償なものも含めなかなか自分が求める精度でテキスト化してくれない。テキスト化した結果がわけの分からない文章になり、意味不明部分の修正で全ての録音を聴き直すことがほとんどだった。そうなると有償サービスをあえて使う気に、なれなかったのだ。

 スマートフォンをGoogle Pixel 6にしたところ、録音アプリにリアルタイムに音声をテキスト化する機能が搭載された。これを使い何度かテキスト化にチャレンジしたが、そこそこの精度でテキスト化されることもあれば、全く話にならない変換となることもあった。リアルタイムでのテキスト化は、さすがにまだ難しいのかもしれない。結局、まだ仕事で使うレベルではないなと判断している。

 そんな中、LINEからCLOVA Noteというサービスが出た。日本語に強いスピーチtoテキストのサービスで、月間600分まで無償で利用できる。録音データをアップロードすることでテキスト化され、実際にいくつか変換してみたところ、記事化作業が「かなり楽ができる程度の精度」でテキスト化できた。これで無償ならば、しばらく使ってみたいと思わせるものだ。

スクリーンショット 2022-08-16 14.03.12.png

 1時間程度の音声データなら、アップロードからテキスト化まで1、2分ほど。話者の切り分けもほぼ正確にでき、複数の取材対象がいる際にも便利だ。ブラウザ上で利用でき、テキスト化したデータの表示をクリックすればその部分の音声をすぐに再生できる。1クリックで5秒前に戻ったり、再生速度を変えられたりするのも記事を書く際には重宝する。自分は使い慣れたEmacsエディターで記事を書くのでブラウザ上では編集はしないが、ブックマークを付けるなど他にも便利そうな機能がある。

 いくつかテキスト化してみて、変換精度が良好なものとそうでないものの差はかなり大きいと感じている。これ、話者のしゃべり方によって大きく差が出るようだ。会話調で早口でしゃべる場合は、人間でも聞き取りにくいのだから精度も落ちる。またオンライン取材の場合は、音声品質も精度に大きく影響を与える。マイク品質が悪いなど、音質が劣化するとテキスト化の精度も落ちる。記者発表会主催者の方々は、画像品質よりも是非音声品質のチェックをしっかりして「良好な音声」での実施をお願いしたいところだ。スピーカーが自宅環境から参加する場合には、マイクなどの装備のグレードアップも是非お願いしたい。

 これからは、自動テキスト化の結果から話者のスピーチ品質を採点するなんてことも可能になるだろう。スピーチ中に「えー」「まあ」などがしょっちゅう入ってしまうとか、略語が多いとか、主語述語の関係性があやふやなんてことは、テキスト化した結果を機械学習などで分析すれば簡単に診断できそうだ。今後講演などスピーチをする機会がある人は、スピーチtoテキストのサービスを用いて自分のスピーチがどれくらいの精度でテキスト化されるかを確かめてみても良いかもしれない。

 

Comment(0)