NPCMJ Searchインタフェースの公開終了のお知らせ

2016年のNPCMJの公開以来、NPCMJ Searchインタフェースを提供してきましたが、2022年3月1日をもって公開を終了いたしました。
NPCMJ Explorerは引き続きご利用いただけますが、NPCMJ Searchのリンク機能は使えなくなります。
今後は、NPCMJ Searchに代わるDevelopmentインタフェース(https://oncoj.orinst.ox.ac.uk/より公開)のご利用をお勧めします。NPCMJを検索する場合は、Contemporary JapaneseセクションにあるKainokiコーパスを選んでください。
このインタフェースは、NPCMJ Searchよりもさらに強力な検索ツールで、今後もプロジェクトの最新成果を取り入れながら継続的に更新します。NPCMJ以外にも、同じ設計方針で構築された多様な日本語コーパス(古典、方言、幼児言語発達データ、外国人日本語学習者データ)がご利用いただけます。

NPCMJとは

世界の主要な言語において、統語解析情報付きコーパス (ツリーバンク) の整備が進められ、こうしたコーパスを利用した研究が言語学・言語処理の分野で目覚ましい成果を上げています。日本語については、2016年より、国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』がスタートし、現在、NPCMJ(NINJAL Parsed Corpus of Modern Japanese)の構築が進められています。このコーパスは、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報を付与し、多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究に活用できることを目的としています。約9万文(9万ツリー)を公開しています。あわせて、多様な検索ができる以下のNPCMJ向けツールを提供しています。ぜひお試しください。

出典 ツリー数 語数
青空文庫(aozora) 12,810 246,568
聖書(bible) 1,664 26,089
ブログ(blog) 219 3,218
書籍(book) 553 10,992
辞書(dict) 26,279 141,297
国会会議録(diet) 1,698 32,715
エッセイ(essay) 3,264 70,167
フィクション(fiction) 7,597 84,169
法律文(law) 337 6,943
ニュース(news) 5,979 90,570
ノンフィクション(nonfiction) 234 4,118
特許(patent) 261 8,636
会話(spoken) 2,382 12,720
テッドトーク(ted) 1,453 21,420
教科書(textbook) 6,950 63,952
白書(whitepaper) 13,433 398,347
ウィキペディア(wikipedia) 2,745 59,833
その他(misc) 2,211 22,754
合計 90,069 1,304,508

NPCMJツール

NPCMJ Development Interfaces(データは日々更新されます)
NPCMJ Development Interfaces では、開発中の最新のコーパスデータにアクセスし、Tregexを利用したツリー検索および文字列検索を行うことができます。加えて、アノテーションから得られた詳細な情報の閲覧など、さまざまな機能を備えています。
NPCMJ Development Interfaces を開く(外部リンク)
NPCMJ Explorer初中級者向け
NPCMJ Explorerは、益岡隆志・田窪行則著『基礎日本語文法―改訂版―』(くろしお出版)の各文法項目に該当する用例を調べることができるパターンブラウズと、ユーザが入力した文字列を含む用例を検索することができる文字列検索の機能が統合されたツールです。
NPCMJ Explorer を開く
NPCMJ Search(レガシーインターフェース、データ更新は年に一度)
NPCMJ Search は、2016 年の NPCMJの初リリースの際に公開されたインターフェースです。タグ・ブラウザー、語の依存関係、文字列検索、ツリー検索とテキスト解析、クエリ作成の5つのツールから構成されます。収録テキストの書誌情報や全文にアクセスすることもできます。
NPCMJ Search を開く(外部リンク)
NPCMJ Search ユーザガイド
NPCMJ Child Language Development Timeline (NPCMJ-CLDT)
NPCMJ-CLDT はそよごツリーバンクを扱うためのインターフェースです。そよごツリーバンクは子供の日本語のデータを統語解析したコーパスであり、CHILDES データベースに収録されたデータを使用しています。NPCMJ-CLDT によって、子供の日本語の形態・統語分析を年齢・月齢フィルターを通じて検索・閲覧することができます。そよごツリーバンクと NPCMJ-CLDT は NPCMJプロジェクトの一環として開発されました。
NPCMJ-CLDT を開く
NPCMJ アノテーションマニュアル
NPCMJ アノテーションマニュアルをダウンロードする

NPCMJ一括ダウンロード

Bracketed Treeファイル形式
NPCMJの全ファイル(Bracketed Treeファイル)をzip形式で圧縮したファイルです。
Bracketed Tree Kanaファイルをダウンロードする
Bracketed Tree Romajiファイルをダウンロードする

統語論教科書練習問題

Exercises for Analyzing Japanese Syntax: A Generative Perspective
Analyzing Japanese Syntax: A Generative Perspectiveは、生成文法の基本的な考え方を説明し、日本語の統語をどのように分析できるかを具体的な例を用いて示した統語論入門の教科書です。この教科書の練習問題は,NPCMJプロジェクトと連携し作成したもので,上級レベルの練習問題にはNPCMJの検索エンジンを使って取り組む課題もあります。
Exercises for Analyzing Japanese Syntax: A Generative Perspectiveを開く

NPCMJドキュメンテーション

準備中