音声合成とは?
音声合成とは、コンピューター端末やサーバ上の文字情報を音声で読上げる技術 で、一般的にTTS(Text-To-Speech)という名称で呼ばれています。様々な文字情報を変換し音声で提供できるため、視覚と聴覚が連動した情 報インターフェイスとして注目されている技術です。
日・英・中・韓・スペイン語・イギリス英語の6ヶ国語に対応
VoiceTextの製品には日本語の音声合成に加え、英語・中国語・韓国語・スペイン語・イギリス英語の音声合成をラインナップしました。これにより情報伝達の手段としてさらに幅広いシーンにご利用いただけます。
コーパスベース音声合成
VoiceTextは人間の声に近い自然なイントネーションを実現するためにコーパスベース音声合成を採用しています。
従来の音声合成のように文章を平坦に読上げるだけではなく、任意の文章を読上げる際にも自然なイントネーションと明瞭な発音を実現するため、大容量の音声データベースから最適な音素データを検索して合成を行います。
様々なシーンに対応する文書読上げ能力
VoiceTextは語句の読み方やアクセントを指定できる機能を備え、固有名詞や単語の読み替えなどあらゆるシーンに対応できます。
結果をユーザー辞書に登録することも可能です。
マルチスレッド対応
VoiceTextの音声合成エンジンは複数のリクエストを同時に処理するマルチスレッド対応です。
迅速な処理によりリアルタイムな情報発信を可能とします。
様々な環境で動作可能
Linux OS、Windows Serverやスマートフォンやゲーム機器端末など各種エンジンへのポーティングにも対応できます。
簡単に実装できます
各種言語に対応。また、アプリケーションへ組み込むためのSDKも単純で判りやすいです。
広瀬教授
東京大学 大学院理工学系研究科電子情報学専攻 広瀬 啓吉 教授(工学博士)
自然音声を音素、音節あるいはそれ以上の単位で切り出し、必要なものを選択して接続するコーパスベース音声合成であるため、波形操作を行うTD- PSOLAあるいは分析合成による音声合成等と比較して、音質が自然なのは当然であるが、音声コーパスの収集等に工夫がされているため、同様な手法のシス テムと比較しても音質が優れている。
切り出しにも注意が払われており、コーパスベース音声で問題となる接続部でのかぶり感あるいは雑音感が少ない。
言語処理
文書構成を把握し、記号、数字、電話番号、日時、単位などを適切に処理します。
独自のアルゴリズムにより韻音変動処理を行います。
韻律処理
言語処理された内容をあらかじめ設定された韻律辞書にしたがい、パラメータの決定をします。
音声データベース
大容量の音声データベースから音素データを取り出して合成します。
高品質データの使用により、明瞭で聞き取りやすい音声を再現します。











