現在世界の主要言語について統語解析情報付きコーパス (ツリーバンク) が作られ、それにより言語学および言語処理の研究において目覚ましい成果が現れています。「統語・意味解析コーパスの開発と言語研究」では多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究することを可能にすることを目的として、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報をアノテートした NINJAL Parsed Corpus of Modern Japanese (NPCMJ) の構築を進めており、現在、3万文を公開しています。(NPCMJ は けやき ツリーバンク の一部分を拡張したものです。「けやき ツリーバンク」はこちら。)

汎用性を高めるため、情報の抽出を最優先させるペン通時コーパス (Penn Historical Corpus; Santorini 2010) のアノテーション方針に従っています。

現在公開中のコーパスは、技術的スキルなしに誰でも簡単に利用できるインタフェースとともに、国立国語研究所のホームページからアクセスできます。随時アップデートする予定です。

研究やプロジェクトに本コーパスをご利用いただいた場合には,是非「お問合せメール」よりお知らせください。

プロジェクトリーダー
プラシャント・パルデシ(国立国語研究所 理論・対照研究領域 教授)