近年、グローバル化の進展や、インターネット環境の普及などに伴って、多言語間機 械翻訳への要求が高まっている。しかし、代表的な言語間での翻訳の研究が盛んに取り組 まれている反面、機械翻訳の対象となっていない言語も多く見られる。これらの言語 では、機械翻訳の要たる電子的な対訳辞書の整備が不十分であり、翻訳知識を獲得す るための対訳コーパスも少ない。また、一般に、辞書の構築には多大な時間と人手を 要し、コストが高いという問題がある。
そこで、本研究では、比較的入手しやすい単言語の言語データを利用し、対訳辞書の 未登録語を翻訳できる語句へ言い換えることによって、対訳辞書の増補を図る手法を 提案する。本研究では、言語データに日本語の国語辞書を用い、見出し語を辞書の語 義文に言い換えることで対訳の獲得を狙う。しかし、一般に語義文は見出し語を説明 する内容であるから、実際に翻訳に使うためには冗長な語が含まれている。そこで、 これらの冗長な語を適切に除去し、必要十分な言い換えを獲得することを目指す。
本発表では、特に日本語の「サ変名詞+する」についての言い換え獲得と、これに基 づく辞書拡充実験の結果について報告する。