自動抽出した語彙関係と既存シソーラスによるシソーラスの構築・更新支援

自動抽出した語彙関係と既存シソーラスによるシソーラスの構築・更新支援

タイトル自動抽出した語彙関係と既存シソーラスによるシソーラスの構築・更新支援
要約大量のテキストの中から自動で抽出された単語間の上位下位関係の情報と、既存のシソーラスを関連づけることで、専門分野ごとの詳細なシソーラスの構築や、既存のシソーラスの更新を支援することができる。
キーワードシソーラス、AGROVOC、自動抽出
担当機関(独)農業・食品産業技術総合研究機構 中央農業総合研究センター データマイニング研究チーム
連絡先029-838-7026
区分(部会名)共通基盤
専門情報研究
分類研究、参考
背景・ねらいシソーラスは、同義語、類義語や単語の上位下位関係などを体系化したもので、情報検索における基盤的な情報として利用される。農業分野の代表的なシソーラスとしては、FAOが中心となって整備するAGROVOCがある。しかしながら、シソーラスの構築には人手と多大な時間と労力を要するため、AGROVOCでは専門分野ごとの詳細なシソーラスの構築には至っていない。 一方、大量のテキストの中からシソーラスを構成する情報を自動抽出する技術がある。この自動抽出を利用すれば負担を軽減できると考えられるが、自動抽出した情報は断片的なものになるため、そのままでは体系的なシソーラスとして利用できない。 自動抽出によって得られた断片的な情報を既存のシソーラスと関連づけ、詳細なシソーラスが構築できれば、その体系の一部を専門シソーラスとして利用できる。また、既存のシソーラスにおいては、自動抽出した情報を新しい関係の候補として利用でき、シソーラスの更新が効率化できると期待される。
成果の内容・特徴
  1. 自動抽出の方法として、主に定型表現を用いて語の上位下位関係を抽出する方法を用いた。定型表現を用いる方法は、文章中の「AなどのBが」という表現からBを上位語、Aを下位語として抽出するものである。テキストデータとしてインターネット上のファイルを約2万5千文字相当収集し、自動抽出を行ったところ237件の関係が抽出された。このうち96件が上位下位関係にある関係であることを確認した。ファイルは農業分野の専門的なテーマを設定して収集した。
  2. 96件をAGROVOCと比較したところ、24件は既にAGROVOCに収録されている関係と一致した。残りの72件のうち、39件がAGROVOCと関連づけできる関係であった。39件の内訳は、上位語も下位語もAGROVOCにある場合(図1のa)が17件、上位語のみがAGROVOCにある場合(図1のb)が6件、下位語のみがAGROVOCにある場合(図1のc)が16件であった。
  3. 今回の実験では抽出された上位下位関係の約半数をAGROVOCと関連づけることができ、自動抽出の結果とAGROVOCを関連づけることが現実的であることが示された。本手法を用いることで、専門シソーラスの構築や、既存シソーラスの更新が支援できる。
成果の活用面・留意点
  1. AGROVOCの整備に関わる機関での利用を想定しているが、他のシソーラスを対象としている場合にも利用できる。
  2. 特別なプログラムが無くても利用できるが、上位下位関係を抽出する際には、集計のためのプログラムや形態素解析、構文解析のソフトウェアがあれば作業が効率化できる。
  3. 抽出対象のテキストは、抽出したい語の分野・専門性に合わせて収集する必要がある。
具体的データ
図1
予算区分基盤
研究期間2007~2009
研究担当者竹﨑あかね、法隆大輔、木浦卓治、斉藤三行(農林水産研究情報総合センター)、倉嶋明子(農林水産研究情報総合センター)
発表論文法隆ら(2009)農業情報研究、18(2):65~71
発行年度2009
収録データベース研究成果情報

研究成果情報アクセスランキング

Copyright 2017 農林水産省 農林水産技術会議事務局筑波産学連携支援センター

Tsukuba Business-Academia Cooperation Support Center, Agriculture, Forestry and Fisheries Research Council Secretariat