「統語・意味解析コーパスの開発と言語研究」2018年度第2回研究発表会

開催期日:2019年1月27日 (日) 10:30~16:00
開催場所:東北大学 川内北キャンパス (宮城県仙台市青葉区川内41)川北合同研究棟1階 101室
http://www.tohoku.ac.jp/japanese/profile/campus/01/kawauchi/areaa.html

  • 10:30~11:30
    “Changing the morphological base of the NPCMJ”
    Iku Nakasaki and Alastair Butler

    This talk describes changes being made to the morphological base of the NPCMJ, a corpus of Japanese parsed for syntax. The old morphological base consisted of segmentation decisions on Japanese script to isolate word units together with the classification of each unit’s part-of-speech (noun, verb, etc.). This old segmentation corresponded closely to, but also deviated from, the LUW (Long Unit Word) standard of the Corpus of Spontaneous Japanese (CSJ; Maekawa 2003) and the Balanced Corpus of Contemporary Written Japanese (BCCWJ; Maekawa et al. 2014). The replacement morphological base uses the JMOR system (Miyata & Naka, 2014) and is carried out with Romaji (Hebon) rather than the Japanese script. With this change it becomes possible to encode information about the internal makeup of words. Notably stem information is isolated and accompanied by an English gloss that acts as a partial lemmatisation. In addition, the grammatical functions of prefixes and suffixes are clearly distinguished. This change in morphological base brings significantly richer word information into the corpus, as well as a clear concept of what a word is for Japanese. But this change is also a massive undertaking, requiring major alterations to every annotated tree. In the talk we detail how we have used tools of automation to make the change feasible. This serves as an example of how it is possible to harness the power of a parsed corpus to improve and further supplement the contained analysis

  • 13:00~14:00
    「統語・意味情報付きコーパスの開発に関する研究:中国語名詞句の解析について」
    周振

    本発表は,統語・意味情報付きコーパスを開発するに当たって,中国語名詞句の解析を考察するものである。名詞句の解析をめぐっては,二つの課題がある。それは,名詞句の内部構造を明らかにし形式的に解析することおよび名詞句の担う類似した統語的役割を区別することである。名詞句の解析は,コーパス構築作業および構築できたコーパスを基にする言語研究の基本的かつ重要な一環を成しており,それを明らかにすることによって,研究の基盤を固めることができると考えられる。

  • 14:00~15:00
    「名詞句と述語の共起関係から見たコーパス研究」
    三好伸芳

    本発表では、統語情報付きコーパスであるNPCMJを用いて、文中における名詞句と述語の結びつきがどのように分布しているのかを明らかにする。名詞句には、普通名詞、固有名詞といったバリエーションがあるが、それらがテキスト内においてどのような述語(動詞述語、形容詞述語、名詞述語)と結びついているのかは、従来のコーパスでは明らかにすることができなかった。本研究により、従来品詞等の分布と結びつけられていた文体論研究や量的研究に、項構造や格関係の分布といった、文法的な関係性を導入することが可能になる。

  • 15:00~16:00 全体討論

「統語・意味解析コーパスの開発と言語研究」2018年度第1回研究発表会

開催期日:2018年6月22日 (金) 9:00~13:00
開催場所:岡山大学 津島キャンパス 工学部4号館103号室
https://www.okayama-u.ac.jp/tp/access/access_4.html

  • 「今年度のNPCMJ プロジェクトの活動について」
    プラシャント・パルデシ (国立国語研究所)
  • “Tools and practices for annotating discourse”
    スティーブン・ライト・ホーン (国立国語研究所)
  • 「構造的距離から見る否定極性項目間の類似度: NPCMJを指標にした検証」
    岸山健 (国立国語研究所/東京大学大学院)
  • ディスカッション 「データスキーマの改良」
    竹内孔一(岡山大学),宮田スザンヌ(愛知淑徳大学),アラステア・バトラー(弘前大学),プラシャント・パルデシ(国立国語研究所)他

ワークショップ “Research Methods for the Penn Parsed Corpora of Historical English (PPCHE)”

開催期日:2017年12月12日(火) 14:00~18:00
開催場所:早稲田大学 早稲田キャンパス 8号館3階303/304/305会議室 早稲田キャンパスアクセス
参加費:無料
共催: 国立国語研究所、早稲田大学言語情報研究所・情報教育研究所、日本言語情報学会
講師: Anthony Kroch and Beatrice Santorini (University of Pennsylvania)

「統語・意味解析コーパスの開発と言語研究」2017年度第2回研究発表会

開催期日:2017年11月4日 (土)
開催場所:神戸大学人文学研究科A棟1階学生ホール

  • 「NPCMJコーパスを用いた研究事例 ―実例から見るトキ節のテンス解釈 ―」 [発表資料]
    鈴木彩香 (国立国語研究所)
  • 「NPCMJコーパスを用いた研究事例 ―否定極性項目の節を超えた認可と副詞タイプについて ―」[発表資料]
    井戸美里 (国立国語研究所)
  • “From Keyaki to ABC: A treebank conversion project” [発表資料]
    Yusuke Kubota (University of Tsukuba) and Koji Mineshima (Ochanomizu University)
  • “Parsed corpus annotation (ad)ventures” [発表資料]
    Alastair Butler, Stephen Wright Horn and Iku Nagasaki (NINJAL)
    Susanne Miyata (Aichi Shukotoku University), Zhou Zhen and Kei Yoshimoto (Tohoku University)

「統語・意味解析コーパスの開発と言語研究」2017年度第1回研究発表会・講演会

開催期日:2017年6月9日 (金)
開催場所:国立国語研究所

  • “Japanese, English and Polish and the Typology of Tense” [発表資料]
    OGIHARA Toshiyuki (Associate Professor, University of Washington)

「統語・意味解析コーパスの開発と言語研究」2016年度第1回研究発表会

開催期日:2017年3月4日 (土)
開催場所:東北大学 川内北キャンパス 川内合同研究棟

  • 「統語・意味解析コーパスの開発と言語研究」
    プラシャント・パルデシ(国立国語研究所)
  • 「教材開発と構造体コーパス:現状と課題」[発表資料]
    岸本秀樹(神戸大学)
  • “How to annotate what”
    Kei Yoshimoto (東北大学)
  • “The Keyaki Treebank and the NPCMJ: Bridging a growing divide”[発表資料]
    Stephen Wright Horn, Alastair Butler (国立国語研究所)
  • “Grammatical principles for annotation and query”[発表資料]
    Stephen Wright Horn
  • 「日本語学習者の話し言葉データにみられる中間言語の諸相」
    堀田智子(東北大学)
  • 「名詞修飾のアノテーションについて」
    檜山祥太(東北大学)佐藤亮輔(東北大学)周 振(東北大学)
  • 「言語資料としての国会会議録」[発表資料]
    金城由美子(国立国語研究所)
  • 「NPCMJを活用したWord2Vec語彙学習過程の改善案」[発表資料]
    岸山健(国立国語研究所/東京大学)
  • 「分裂文のアノテーションについて」
    折笠誠(国立国語研究所/上智大学)