固有表現抽出 (NER=Named Entity Recognition) は、情報抽出における基礎技術である。固有表現に関する研究は、1980年代から始まり、MUC(Message Understanding Conference)のようにコンテストが行なわれている。当初、固有表現抽出は、組織名 (ORGANIZATION)、人名 (PERSON)、 地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、 割合表現 (PERCENT)」の7種類とされていた。その後、関根先生によって、関根の拡張固有表現が提案されている。

近年の固有表現抽出について

  • (今後追記予定)
  • BERT
  • GINZA

GINZAでは、OntoNotes で利用しているEntity typeを利用している。

PERSON人名
NORP国籍または宗教的・政治的団体
FAC建物、空港、高速道路、橋など
ORG企業、代理店、機関など
GPE国、都市、州など
LOC上記のGPE以外の場所、山脈、水域
PRODUCT物品、車両、食品など (サービス以外)
EVENTハリケーン、戦い、戦争、スポーツイベントなど
WORK_OF_ART本や歌などのタイトル
LAW 法律名
LANGUAGE言語
DATE絶対的または相対的な日付または期間
TIME1日より短い時間の単位
PERCENT割合
MONEY単位を含む貨幣価値
QUANTITY重さや距離の量
ORDINAL1番、2番などの番号数
CARDINAL他のタイプに該当しない数値

GINZAを用いて、小樽市議会の会議録(約200ファイル)を処理した結果は、このサイトで閲覧することができる。

私たち(木村・桧森)は、NTCIR15 QA Lab-PoliInfo-2Entity Linking タスクにおいて、議会会議録から、法律名を抽出し、Wikipediaへ結びつけるために、固有表現抽出を利用している。

ここでは、小樽市議会会議録(2020年3月13日の定例会)を対象として、Entity Linking タスクでも用いたBERTによる抽出とGINZAによる抽出を比較した結果を示す。

BERT GINZA