Presented by Nishishi via Movable Type. Last Updated: 2021/07/04. 15:56:16.

音声認識・音声解析研究のための発声素材収録に協力してきました

うちの大学が学外の組織と連携して研究する施設で今、音声解析研究のための音声データベースを作成しています。男女合わせて500人分の声を録音して収集するらしく、私もマイクの前でひたすら発声して協力してきました。

ここは理工学部ですから、音声解析という研究自体に興味ある人々も多いでしょう。1学年400人の学生が在籍しているわけですし、協力者には困らないだろうな……と思ったのですが、どうやらそうではなく協力者はまだまだ不足しているのだとか。
私は171人目の発声協力者だったようで、目標の500人にはまだまだ足りません。スタッフの人の話では、まだ200人くらいしか協力者が見つかっていないのだとか。(^^;;;

その音声収録の謝礼が「リストの中から好きなパソコンソフトをどれでも1つくれる」というものだったので、パソコンを持ってる人々は喜んで参加していたようです。私もそうです。^^;
謝礼のソフトウェアリストに載っているのが全部Microsoft製だったので、もしかするとMicrosoftからの依頼か?……と思っていたら、本当にそうでした。(^_^;)
どうやら、Microsoftが研究開発している音声認識技術に使うための音声素材を集めているようです。

音声収録のための部屋に入ると、CD-Rドライブを内蔵したCompaq製のタワー型PCが1台置いてありました。そのPCでは、Windows95が稼働していて、音声収録用のソフトウェアが起動していました。
音声収録ソフトのウインドウ下部に、発声者が読み上げる文章が表示されていて、ウインドウ上部には自分の喋った声の波形が表示されるようになっていました。表示される音声波形は、なんかWindows95に付属の「サウンドレコーダ」で表示されるような感じです。
たぶんマイクロソフトが研究での音声収録用に作ったものなのでしょう。ソフトそのものは英語版でした。(読み上げる文章はもちろん日本語です。^^;)

発声者が読み上げる文章は300文くらいあって、途中に5分程度の休憩を挟んで計90分間くらいかかりました。後で聞いた話によると、だいたい他の協力者もそれくらいの時間かかったそうです。
部屋の中には音声収録のサポートをするスタッフの方が1人居ましたが、基本的に説明を行うだけで直接の音声収録作業は自分1人で行います。
マイク付きのヘッドホン(ヘッドセット)をして、自分で画面上の録音ボタンをマウスでクリックし、表示された日本語文を1文ずつ読み上げていくという作業でした。読み上げたデータはHDDに保存され、協力者が全文を読み終えたあと、スタッフの人がCD-Rに焼くそうです。

自分の出した声が、すぐ波形になって表示されるというのは初めての経験で、なかなか面白かったです。(^_^;)
スタッフの方は基本的には無言で、私の読み上げる内容が間違っていないかだけをチェックしていました。たまーに読み間違えたりしたときに、「今のところちょっと間違っていたのでもう一度お願いします」みたいな感じで指示を受けました。(^_^;;;

休憩時間にその方に聞いた話によると、読み上げる文章は、協力者1人1人全く異なるのだそうで、500人分の異なる文章セットが用意されているのだそうです。なんで同じじゃないんでしょうね?
読み上げる文章は小説などから取ったものが多いようですが、私は延々と広島長崎の原爆に関係する文章を発声しました。過去、この音声収録に参加した協力者の中には、医学用語がたくさん出てくる文章を読まされて、かなり読むのに手こずっていた人もいたとか。(^^;;;

読み上げる文章は「漢字仮名交じり文」で表示されていたのですが、全ての漢字にはフリガナが付いていました。ただ、明らかにフリガナが間違っている部分があるんですよね。(^^;) でも、表示されている通りに読まないといけないようで、フリガナが間違っていてもそのまま間違って読まないといけないそうです。(^^;)
私の読んだ文章では「日本」という文字がよく出てきましたが、フリガナは「にほん」だったり「にっぽん」だったり統一はされていませんでした。もしかしたら、両方の読み方を収録するために意図的にバラされていたのかも知れませんが。

音声収録の謝礼としてもらえるソフトウェアには「Microsoft Visual C++ 5.0 Pro版」を選択。謝礼リストの中にあったソフトウェアは、だいたい2~3万円くらいするソフトが多かったように思います。500人全員が3万円のソフトを選択したとすると、総額1,500万円もかかるわけですよね……。お金かけてるなあ~。(^^;;;
もっとも、Microsoftにとってみればこれらのソフトウェアはすべて自社製品ですから、実際にかかってるお金はもっと安いでしょうけどね。(^_^:)

90分間ほとんど喋りっぱなしだったので喉はカラカラになりましたが(お茶は出ましたが^^;)、マイクに向かって文章を読むというのが、なーんとなく声優になった気分で面白かったです。(^^;;;

※後日の自己ツッコミ※
これは今思い出しても面白い経験でした。もう10年前の話なんですよねえ。これらの音声サンプルを使った音声認識技術は今のソフトウェアに活かされているんでしょうか。最近は、音声認識ソフトもいろいろ発売されていますね。喋った内容を逐次テキストに変換してくれるソフトもありますし。Microsoft製でどんなのが発売されているのかは知りませんが……。(^_^;)
Compaq製のPCはもう市場から消えてしまいましたねえ。いつだったか忘れましたが、Compaqはhp(ヒューレット・パッカード)に吸収合併されてしまいましたので。^^;
この音声素材が使われる研究はMicrosoftのものでしたが、当時の理工学部内にはWindowsマシンはほとんどありませんでした。学生がプログラミングの実習で使うのはワークステーションばっかりでしたからね……。最近は、逆にほとんどWindowsマシンで実習を行うようですが。(教員自体がUNIX系OSを使ったワークステーションよりもWindowsマシンでの実習を望むらしいです。^^;) (Comment Posted: 2008/10)

Posted by Nishishi.

--- 当サイト内を検索 ---