NPCMJとは

世界の主要な言語において、統語解析情報付きコーパス (ツリーバンク) の整備が進められ、こうしたコーパスを利用した研究が言語学・言語処理の分野で目覚ましい成果を上げています。日本語については、2016年より、国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』がスタートし、現在、NPCMJ(NINJAL Parsed Corpus of Modern Japanese)の構築が進められています。このコーパスは、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報を付与し、多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究に活用できることを目的としています。2019年3月現在、約3万文(3万ツリー)を公開しています。あわせて、多様な検索ができる以下のNPCMJ向けツールを提供しています。ぜひお試しください。

出典 ツリー数 語数
青空文庫(aozora) 4,646 101,537
聖書(bible) 1,664 30,657
書籍(book) 552 12,515
辞書(dict) 3,419 33,651
国会会議録(diet) 1,698 37,349
フィクション(fiction) 923 12,051
法律文(law) 337 7,793
その他(misc) 2085 23,872
ニュース(news) 4,666 84,927
ノンフィクション(nonfiction) 223 4,454
テッドトーク(ted) 1,453 22,030
教科書(textbook) 6,048 64,038
ウィキペディア(wikipedia) 2746 70,445
合計 30,460 505,319

NPCMJツール

NPCMJ Explorer初中級者向け
益岡隆志・田窪行則著『基礎日本語文法―改訂版―』(くろしお出版)の各文法項目に該当する用例を調べることができるパターンブラウズと、ユーザが入力した文字列を含む用例を検索することができる文字列検索の機能が統合されたツールです。
NPCMJ Explorer を開く
NPCMJ Search中上級者向け
タグ・ブラウザー語の依存関係文字列検索ツリー検索とテキスト解析クエリ作成の5つのツールから構成されるインターフェースです。収録テキストの書誌情報や全文にアクセスすることもできます。
NPCMJ Search を開く
NPCMJ Search ユーザガイド

NPCMJ一括ダウンロード

Bracketed Treeファイル形式
NPCMJの全ファイル(Bracketed Treeファイル)をzip形式で圧縮したファイルです。
Bracketed Treeファイルをダウンロードする

NPCMJドキュメンテーション

準備中