NPCMJとは
世界の主要な言語において、統語解析情報付きコーパス (ツリーバンク) の整備が進められ、こうしたコーパスを利用した研究が言語学・言語処理の分野で目覚ましい成果を上げています。日本語については、2016年より、国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』がスタートし、現在、NPCMJ(NINJAL Parsed Corpus of Modern Japanese)の構築が進められています。このコーパスは、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報を付与し、多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究に活用できることを目的としています。2021年3月現在、約6万7000文(6万7000ツリー)を公開しています。あわせて、多様な検索ができる以下のNPCMJ向けツールを提供しています。ぜひお試しください。
出典 | ツリー数 | 語数 |
青空文庫(aozora) | 12,809 | 246,708 |
聖書(bible) | 1,664 | 26,119 |
ブログ(blog) | 219 | 3,217 |
書籍(book) | 553 | 10,992 |
辞書(dict) | 26,279 | 141,201 |
国会会議録(diet) | 1,698 | 32,446 |
エッセイ(essay) | 541 | 11,502 |
フィクション(fiction) | 958 | 10,445 |
法律文(law) | 337 | 6,954 |
その他(misc) | 2,211 | 22,745 |
ニュース(news) | 5,981 | 90,137 |
ノンフィクション(nonfiction) | 234 | 4,124 |
会話(spoken) | 2,382 | 12,578 |
テッドトーク(ted) | 1,453 | 21,366 |
教科書(textbook) | 6,953 | 63,974 |
ウィキペディア(wikipedia) | 2,746 | 59,758 |
合計 | 67,018 | 764,266 |
NPCMJツール
NPCMJ Development Interfaces(データは日々更新されます)
NPCMJ Development Interfaces では、開発中の最新のコーパスデータにアクセスし、Tregexを利用したツリー検索および文字列検索を行うことができます。加えて、アノテーションから得られた詳細な情報の閲覧など、さまざまな機能を備えています。
NPCMJ Development Interfaces を開く
NPCMJ Explorer初中級者向け
NPCMJ Explorerは、益岡隆志・田窪行則著『基礎日本語文法―改訂版―』(くろしお出版)の各文法項目に該当する用例を調べることができるパターンブラウズと、ユーザが入力した文字列を含む用例を検索することができる文字列検索の機能が統合されたツールです。
NPCMJ Explorer を開く
NPCMJ Search(レガシーインターフェース、データ更新は年に一度)
NPCMJ Search は、2016 年の NPCMJの初リリースの際に公開されたインターフェースです。タグ・ブラウザー、語の依存関係、文字列検索、ツリー検索とテキスト解析、クエリ作成の5つのツールから構成されます。収録テキストの書誌情報や全文にアクセスすることもできます。
NPCMJ Search を開く
NPCMJ Search ユーザガイド
NPCMJ Child Language Development Timeline (NPCMJ-CLDT)
NPCMJ-CLDT はそよごツリーバンクを扱うためのインターフェースです。そよごツリーバンクは子供の日本語のデータを統語解析したコーパスであり、CHILDES データベースに収録されたデータを使用しています。NPCMJ-CLDT によって、子供の日本語の形態・統語分析を年齢・月齢フィルターを通じて検索・閲覧することができます。そよごツリーバンクと NPCMJ-CLDT は NPCMJプロジェクトの一環として開発されました。
NPCMJ-CLDT を開く
NPCMJ アノテーションマニュアル
NPCMJ アノテーションマニュアルをダウンロードする
NPCMJ一括ダウンロード
Bracketed Treeファイル形式
NPCMJの全ファイル(Bracketed Treeファイル)をzip形式で圧縮したファイルです。
Bracketed Treeファイルをダウンロードする
統語論教科書練習問題
Exercises for Analyzing Japanese Syntax: A Generative Perspective
Analyzing Japanese Syntax: A Generative Perspectiveは、生成文法の基本的な考え方を説明し、日本語の統語をどのように分析できるかを具体的な例を用いて示した統語論入門の教科書です。この教科書の練習問題は,NPCMJプロジェクトと連携し作成したもので,上級レベルの練習問題にはNPCMJの検索エンジンを使って取り組む課題もあります。
Exercises for Analyzing Japanese Syntax: A Generative Perspectiveを開く