本発表では,自然言語処理分野の教師なし機械学習法である,潜在的ディリクレ 配分法(LDA)について,OCR文書分類を目的とした改良を行い, その成果につ いて述べる.
研究背景
近年,文書に含まれるトピック(話題)を高性能に抽出する手法として,LDAが
注目されている.しかし,OCR文書には誤認識文字など多くのノイ ズが含まれて
おり,LDAをOCR文書に直接適用すると,トピックの推定性能が低下してしまう問
題がある.
提案手法
LDAでは全単語を同一の重みで扱っており,誤認識単語がトピック推定のノイズ
となっていた.そこで本研究では,大規模コーパスから得られる単語 の隣接確
率を基に,単語の信頼度を定義する.LDAを拡張し,定義した信頼度をトピック
の推定に反映させ,OCR文書においても精度よくトピック を推定する手法を提案
する.
評価実験
実際のOCR文書を用いた評価実験を行った.各文書にはあらかじめ正解ラベルを
付与しておき,手法によって推定されたラベルと,正解ラベルとの一 致の割合
を分類精度として評価した.実験結果から,従来のLDAをそのまま用いる方法と
比べ,提案手法の性能が上回ることが示された.