027-04

| Topic path: Top/027-04
  • 追加された行はこの色です。
  • 削除された行はこの色です。
  • 027-04 へ行く。

[[第27回研究会>027]]

* PDF形式の金融文書における項目-数値間関係を考慮したテーブル情報抽出 [#d6370dfc]

** 著者 [#u5c33d2d]
青野有華, 市川幸史, 近藤浩史, 加藤淳也(日本総合研究所)

**概要 [#u65a651e]
金融文書において,重要な情報はテーブル形式で記載されることもあり,テーブル内の情報抽出は金融データの更なる利活用に向けて重要な役割を果たすと期待される.しかし,企業が共通して開示する文書であっても,企業によってテーブル形式が異なることや,情報抽出の難しいPDF形式で開示される文書も存在することから,現状テーブル情報が抽出され,十分に活用されているとは言い難い.そこで本研究では,PDF形式で開示されている日本語金融文書からのテーブル情報抽出を試みた.我々の手法では、PDF内の罫線情報を利用しテーブル領域およびテーブル内セルを抽出した.その上で列方向に結合したセルの分割について,罫線情報に加え,セル内項目情報および数値情報に着目したBERTによる分割判定モデルを適用した.実験では,株主総会招集通知の文書に含まれるテーブルを対象とした性能評価実験を行い,我々の提案手法が優れた性能を発揮することを確認した.

**キーワード [#q533c0b1]
PDF, テーブル形式, 情報抽出

**論文 [#dfe139e8]

//(10月6日以降に公表いたします)
&ref(04_SIG-FIN-27.pdf);
トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS