フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで | |
荒木 雅弘 森北出版 2007-10-17 売り上げランキング : 6170 おすすめ平均 まずはこれ.パターン認識・機械学習の初学書 Amazonで詳しく見る by G-Tools |
理論(数式)と実践(プログラミング)の両方に触れることができる本。理論は易しくて「よくわかるパターン認識」よりも易しい。今回はツールを中心にメモしていく。
- 音声分析ツール「wavesurfer」
- スペクトルの山「フォルマント」
- 音声認識の特徴量「MFCC」
- 特徴の正規化
- 学習に必要なパターン数(特徴次元数の数倍)
- 学習データが限られている→特徴の次元数を減らすべき
- 区分的線形識別関数
- サポートベクトルマシン
- 2次計画問題→Scilabで解ける
- 機械学習ツールWEKAのSVM
- SVMは高次元空間に非線形変換して切る
- 元の特徴空間上の2点の距離にもとづいて定義されるカーネル関数K
- K = φ・φ
- (「元の空間の2点間の距離=写像後の空間の内積」が成り立つと「仮定」)
- 最終的に、最大化する式からφが消える
- →非線形変換の式を知らなくてもよい「カーネルトリック」
- 多項式カーネル
- ガウシアンカーネル
- 機械学習ツールWEKAを用いたニューラルネットワーク
- (→母音を認識するニューラルネットワーク)
- 事後確率最大法(MAP推定)
- 確率密度関数の形を仮定する「パラメトリック」な手法
- WEKAでクロスバリデーション(交差確認法)
- ベイズ誤り確率
- 連続音声認識
- オートマトンによる音響モデル
- 確率オートマトンによる〃
- 確率的非決定性オートマトン=隠れマルコフモデル
- (出力系列が与えられたときに、通った状態遷移が隠れている)
- ビタビアルゴリズム(近似計算)
- Baum-Welchアルゴリズム(HMMの学習)
- Forward-Backwardアルゴリズム
- HTK(HMMのツールキット)
- 文法を使った音声認識
- 正規文法と文脈自由文法
- 会話のできるコンピュータを目指して
- 音声認識、音声合成、対話制御、エージェント操作「Galateaツールキット」
- 日本語が出力できる「Galatea talk」
- 顔画像合成ツールFSM(face synthesis module)
- VoiceXML
幅広く、学習&認識を大まかにつかむことができる本。ただ、音声認識の実現はソフトウェアに頼る部分が多いので、C言語で「思い通りの音声認識対話システム」を作ろうとするならば、別の本が必要になる。音声認識の入り口としてはとても良くできているし、実際に動かしてみて音声認識の難しさも体験できるところもいい。