固有表現抽出 (NER=Named Entity Recognition) は、情報抽出における基礎技術である。固有表現に関する研究は、1980年代から始まり、MUC(Message Understanding Conference)のようにコンテストが行なわれている。当初、固有表現抽出は、組織名 (ORGANIZATION)、人名 (PERSON)、 地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、 割合表現 (PERCENT)」の7種類とされていた。その後、関根先生によって、関根の拡張固有表現が提案されている。
近年の固有表現抽出について
- (今後追記予定)
- BERT
- GINZA
- …
GINZAでは、OntoNotes で利用しているEntity typeを利用している。
PERSON | 人名 |
NORP | 国籍または宗教的・政治的団体 |
FAC | 建物、空港、高速道路、橋など |
ORG | 企業、代理店、機関など |
GPE | 国、都市、州など |
LOC | 上記のGPE以外の場所、山脈、水域 |
PRODUCT | 物品、車両、食品など (サービス以外) |
EVENT | ハリケーン、戦い、戦争、スポーツイベントなど |
WORK_OF_ART | 本や歌などのタイトル |
LAW | 法律名 |
LANGUAGE | 言語 |
DATE | 絶対的または相対的な日付または期間 |
TIME | 1日より短い時間の単位 |
PERCENT | 割合 |
MONEY | 単位を含む貨幣価値 |
QUANTITY | 重さや距離の量 |
ORDINAL | 1番、2番などの番号数 |
CARDINAL | 他のタイプに該当しない数値 |
GINZAを用いて、小樽市議会の会議録(約200ファイル)を処理した結果は、このサイトで閲覧することができる。
私たち(木村・桧森)は、NTCIR15 QA Lab-PoliInfo-2 の Entity Linking タスクにおいて、議会会議録から、法律名を抽出し、Wikipediaへ結びつけるために、固有表現抽出を利用している。
ここでは、小樽市議会会議録(2020年3月13日の定例会)を対象として、Entity Linking タスクでも用いたBERTによる抽出とGINZAによる抽出を比較した結果を示す。
- BERTを用いた固有表現抽出の結果
- 人名の抽出数 141件 誤抽出 7件 例えば「さよう」「みずから」
- 姓に加えて、名も抽出できている
- GINZAを用いた固有表現抽出の結果 人名の抽出数
- 人名の抽出数 137件 誤抽出 6件 例えば「市債・地方債」「ランニングコスト」「喜」
- 名字だけ抽出することが多い
BERT | GINZA |