NPCMJとは

世界の主要な言語において、統語解析情報付きコーパス (ツリーバンク) の整備が進められ、こうしたコーパスを利用した研究が言語学・言語処理の分野で目覚ましい成果を上げています。日本語については、2016年より、国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』がスタートし、現在、NPCMJ(NINJAL Parsed Corpus of Modern Japanese)の構築が進められています。このコーパスは、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報を付与し、多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究に活用できることを目的としています。2018年3月現在、約2万文(2万ツリー)を公開しています。あわせて、多様な検索ができる以下のNPCMJ向けツールを提供しています。ぜひお試しください。

出典 ツリー数 語数
聖書(bible) 1,652 30,508
書籍(book) 319 7,127
辞書(dict) 3,419 33,605
法律文(law) 337 7,644
その他(misc) 57 1,297
ニュース(news) 4,323 7,7407
ノンフィクション(nonfiction) 48 1,297
テッドトーク(ted) 1,158 18,027
教科書(textbook) 6,051 63,845
ウィキペディア(wikipedia) 2745 70,225
合計 20,109 310,982

NPCMJツール

NPCMJ Explorer初中級者向け
益岡隆志・田窪行則著『基礎日本語文法―改訂版―』(くろしお出版)の各文法項目に該当する用例を調べることができるパターンブラウズと、ユーザが入力した文字列を含む用例を検索することができる文字列検索の機能が統合されたツールです。
NPCMJ Explorer を開く
NPCMJ Search中上級者向け
タグ・ブラウザー語の依存関係文字列検索ツリー検索とテキスト解析クエリ作成の5つのツールから構成されるインターフェースです。収録テキストの書誌情報や全文にアクセスすることもできます。
NPCMJ Search を開く
NPCMJ Search ユーザガイド

NPCMJ一括ダウンロード

Alpino XMLファイル形式
NPCMJの全ファイル(Alpino XMLファイル)をzip形式で圧縮したファイルです。Alpino XMLは、The Alpino Treebankで採用されている形式です。The Alpino Treebankの詳細については、https://www.let.rug.nl/vannoord/trees/をご覧ください。
XMLファイルをダウンロードする
Bracketed Treeファイル形式
NPCMJの全ファイル(Bracketed Treeファイル)をzip形式で圧縮したファイルです。
Bracketed Treeファイルをダウンロードする(1ファイルにすべてのツリー)
Bracketed Treeファイルをダウンロードする(テキストごとに1ファイル)

NPCMJドキュメンテーション

準備中