ツリーバンク

ツリーバンク: Treebank)は、コーパスの一種であり、各統語構造の注釈が付与されているものである。統語構造は一般に木構造で表されることが多いため、ツリーバンクと呼ばれる。ツリーバンクはコーパス言語学で文法的現象の研究に使われる他、計算言語学での構文解析器の評価や訓練に使われる。

概要

ツリーバンクは既存の何らかのタグが既に付いたコーパスを使って作成されることが多い。従って、ツリーバンクは意味論的に何らかの拡張をしたり、他の言語学的情報を付与したりしている。

ツリーバンクは、言語学者が文一つ一つに注釈を加えていって構築することもあるし、半自動的に構文解析器で解釈し、その結果を言語学者がチェックするという方式もある。

ツリーバンクは特定の言語学的理論(例えばHPSG)に基づいた文法的注釈を付与している場合もあるが、多くのツリーバンクは特定の理論に依存しないようにしている。しかしながら、注釈の内容によって大まかに2つに分類できる。1つは句構造規則で(例えば、Penn Treebank)、もう1つは依存文法である(例えば、Prague Dependency Treebank)。

文法構造の表現方法は様々である。ラベル付き括弧を使ったテキスト表記の例は以下のようになる(Penn Treebank の場合)。

(S (NP (NNP John))
   (VP (VBZ loves)
       (NP (NNP Mary)))
   (. .))

XMLを使った表記方法もある。

各言語のツリーバンク

  • アラビア語: Penn Arabic Treebank, Prague Arabic Dependency Treebank (PADT)
  • バスク語: Eus3LB, Annotation guide for Eus3LB と group's home page も参照
  • ブルガリア語: BulTreeBank (HPSG-based Syntactic Treebank)
  • カタロニア語: Cat3LB
  • 中国語: Penn Chinese Treebank, Sinica Treebank by CKIP
  • チェコ語: Prague Dependency Treebank
  • デンマーク語: Danish Dependency Treebank, Arboretum: A syntactic tree corpus of Danish
  • オランダ語: CGN, Alpino
  • 英語:
    • Penn;
    • International Corpus of English (ICE);
    • LinGO Redwoods;
    • Multi-Treebank;
    • The PARC 700 Dependency Bank;
    • CHILDES Brown Eve corpus with dependency annotation, see Sagae, K., MacWhinney, B., and Lavie, A. (2004) Adding syntactic annotations to transcripts of parent-child dialogs. In Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC 2004). Lisbon, Portugal.
  • エストニア語: Syntactically analyzed and disambiguated text corpus, Arborest
  • フランス語: L'Arboratoire
  • ドイツ語: NEGRA, TIGER, The Tuebingen Treebank of Spoken German (TueBa-D/S), The Tuebingen Treebank of Written German (TueBa-D/Z)
  • ギリシア語: Greek Dependency Treebank
  • ヒンディー語: AnnCorra
  • イタリア語: TUT - Turin University Treebank, VIT - Venice Italian Treebank
  • 日本語: ATR Dependency corpus, Verbmobil treebanks, 日本語ツリーバンク「檜」:言語理解のためのコーパス, 京都テキストコーパス
  • 朝鮮語: Korean Treebank
  • ラテン語: Latin Dependency Treebank
  • ノルウェー語: TREPIL Norwegian treebank
  • ポーランド語: A Treebank / Test Suite for Polish (HPSG treebank)
  • ポルトガル語: Projecto Floresta Sintá(c)tica
  • ロシア語: Dependency Treebank for Russian, 別の論文
  • スロベニア語: Slovene Dependency Treebank
  • スペイン語: Cast3LB, UAM Treebank of Spanish
  • スウェーデン語: Talbanken05, Swedish Treebank
  • トルコ語: METU-Sabanci Treebank