このプロジェクトについて

現在世界の主要言語について統語解析情報付きコーパス (ツリーバンク) が作られ、それにより言語学および言語処理の研究において目覚ましい成果が現れています。多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究することを可能にすることを目的として、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報をアノテートした NINJAL Parsed Corpus of Modern Japanese1 (NPCMJ) の構築を開始しました。 (NPCMJ は けやき ツリーバンク の一部分を拡張したものです。)

汎用性を高めるため、情報の抽出を最優先させるペン通時コーパス (Penn Historical Corpus; Santorini 2010) のアノテーション方針に従っています。

現在公開中の試行版コーパスは、技術的スキルなしに誰でも簡単に利用できるインタフェースとともに、国立国語研究所のホームページからアクセスできます。随時アップデートする予定です。

プロジェクトリーダー
プラシャント・パルデシ(国立国語研究所 理論・対照研究領域 教授)


ご利用にあたって

本コーパスをご利用になる際は、必ず下記の情報を明記してください。

国立国語研究所(2016)『NINJAL Parsed Corpus of Modern Japanese』(バージョン 1.0)http://npcmj.ninjal.ac.jp/interfaces/(年月日 確認)

(バージョンやアクセス年月日は適宜置き換えてください)

謝辞

1. 『河北新報』記事データ(newswire-KAHOKU) は株式会社河北新報社の、『基礎日本語文法–改訂版』(くろしお出版、1992年)例文データ (textbook_kisonihongo) は著者の益岡隆志氏および田窪行則氏の許諾を得てアノテーションを施し、公開を行っています。