フリーソフトでつくる音声認識システム

f:id:peroon:20030531165000j:image

フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで
フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで荒木 雅弘

森北出版 2007-10-17
売り上げランキング : 6170

おすすめ平均 star
starまずはこれ.パターン認識・機械学習の初学書

Amazonで詳しく見る
by G-Tools


理論(数式)と実践(プログラミング)の両方に触れることができる本。理論は易しくて「よくわかるパターン認識」よりも易しい。今回はツールを中心にメモしていく。

  • 音声分析ツール「wavesurfer
  • スペクトルの山「フォルマント」
  • 音声認識の特徴量「MFCC」
  • 特徴の正規化
  • 学習に必要なパターン数(特徴次元数の数倍)
  • 学習データが限られている→特徴の次元数を減らすべき
  • 区分的線形識別関数
  • サポートベクトルマシン
  • 2次計画問題→Scilabで解ける
  • 機械学習ツールWEKAのSVM
  • SVMは高次元空間に非線形変換して切る
  • 元の特徴空間上の2点の距離にもとづいて定義されるカーネル関数K
  • K = φ・φ
  • (「元の空間の2点間の距離=写像後の空間の内積」が成り立つと「仮定」)
  • 最終的に、最大化する式からφが消える
  • 非線形変換の式を知らなくてもよい「カーネルトリック
  • 多項式カーネル
  • ガウシアンカーネル
  • WEKAでクロスバリデーション(交差確認法)
  • ベイズ誤り確率
  • HTK(HMMのツールキット)
  • 文法を使った音声認識
  • 正規文法と文脈自由文法
  • 会話のできるコンピュータを目指して
  • 音声認識、音声合成、対話制御、エージェント操作「Galateaツールキット」
  • 日本語が出力できる「Galatea talk」
  • 顔画像合成ツールFSM(face synthesis module)
  • VoiceXML

幅広く、学習&認識を大まかにつかむことができる本。ただ、音声認識の実現はソフトウェアに頼る部分が多いので、C言語で「思い通りの音声認識対話システム」を作ろうとするならば、別の本が必要になる。音声認識の入り口としてはとても良くできているし、実際に動かしてみて音声認識の難しさも体験できるところもいい。