氏名 : 鈴木 直人 (281267162)
所属 : 古橋研
題目 : Geometric Algebra を用いた日本語文書分類手法に関する研究
概要 :
近 年,電子文書の普及が進み,紙媒体であった文書を電子化するなど,様々な
場面で膨大な量の電子文書を管理する必要が生じている.このような文 書の管
理においては,人手で分類を行うのは多大な労力となるため,文書分類が不可欠
となる.これまで,tf-idfや潜在意味解析(LSA)を用いた文書分類手法が 報告
されているが,これらの多くは文書に出現した単語の種類と回数しか考慮してお
らず,単語の出現順序を考慮していない.これに対し,英語文 書におい
て,Geometric Algebra (GA) を 用いることで,単語の出現順序を考慮して文の
ベクトル化を行う手法が提案されている.この手法では,LSAに基づき,単語の
出現順 序に応じた回転ベクトルを定義する.各文を表すベクトルは,その文に
出現する単語の順序に応じて回転される.これにより,文に出現する単語の 順
序に応じたベクトルの最終状態が得られ,この得られたベクトルの違いにより文
の類似度を定義している.本発表では,この手法を日本語の文書 分類に適用す
る際に生じる問題点などについて検討を行う.
目次に戻る