フレームグラフ
フレームグラフとは、検索文字列のセグメンテーションと構造を視覚化したものです。
各要素はブロックに分けられ、要素ごとにルートまでの全ての、あるいは一部のパスを示します。
フレームグラフは次のように下から上へと読んでいくことができます:
1番下の空欄のブロックはすべての可能なセグメンテーションのパターンを示します。ここにマウスカーソルを合わせると、総トークン数が表示されます。
下から2番目の行はいくつかのブロックに分かれています。
それぞれのブロックは検索文字列のセグメンテーションのパターンを示します。
ブロックの長さには、そのパターンをもつトークン数の総トークン数に占める割合が反映されています。
マウスカーソルをブロックに合わせると、その実際の数が表示されます。
下から3番目より上の行には、順により細かな下位分類が表示されます。
最上位のブロックでは、セグメンテーションパターンに対してルート位置までに与えられるタグが表示されます。
Full または Fine をチェックした場合には、最上位のブロックをクリックすると、そのセグメンテーションパターンの検索結果画面にジャンプします。
フレームグラフの表示は Liberal、Character、Mine、Strict のどの検索オプションを選択したかによって変わってきます。
以下は、文字列「という」のコーパスにおける用いられ方を示したフレームグラフです。
と い う
Reset Zoom
Search
[という]_P-ROLE_PP_NML (1 tokens, 0.05%)
[という]_P-ROLE_PP_NP (548 tokens, 29.48%)
[という]_P-ROLE_PP_NP
[と]_P-COMP_CP-THT-OB1_IP-ADV-CONJ_[いう]_VB_IP-ADV-CONJ (1 tokens, 0.05%)
[という]_P-ROLE_PP-1_IP-MAT (1 tokens, 0.05%)
[と]_P-ROLE_PP-CMPL_IP-ADV (1 tokens, 0.05%)
[という]_P-COMP_CP-THT-PRD_IP-ADV-CONJ (2 tokens, 0.11%)
[と]_P-COMP_PP-CMPL_IP-EMB_[いう]_VB_IP-EMB (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-REL (8 tokens, 0.43%)
[と]_P-COMP_PP-CMPL_IP-EMB_[いう] (1 tokens, 0.05%)
[という]_P-COMP (992 tokens, 53.36%)
[という]_P-COMP
[と]_P-COMP_PP-CMPL_IP-SUB (1 tokens, 0.05%)
[という]_P-COMP_CP-THT_PP_NP-PRD (1 tokens, 0.05%)
[と]_AX_ADVP_IP-ADV_[いう] (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-SUB_[いう] (14 tokens, 0.75%)
[と]_P-COMP_CP-THT-OB1_IP-MAT_[いう] (115 tokens, 6.19%)
[と]_P-..
[という]_P-COMP_CP-THT_NP-OB1 (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-EMB_[いう]_VB (2 tokens, 0.11%)
[と]_P-COMP_PP-CMPL_IP-MAT (21 tokens, 1.13%)
[という]_P-COMP_CP-THT-PRD_IP-REL (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL_IP-NMZ (1 tokens, 0.05%)
[という]_P-COMP_PP-CMPL (8 tokens, 0.43%)
[と]_P-COMP_CP-THT-OB1_IP-ADV_[いう]_VB (45 tokens, 2.42%)
[..
[という]_P-CONN_PP-SCON (2 tokens, 0.11%)
[と]_P-COMP_PP-CMPL_IP-MAT_[いう]_VB_IP-MAT (21 tokens, 1.13%)
[と]_P-COMP_CP-THT-OB1_IP-ADV (45 tokens, 2.42%)
[..
[と]_P-ROLE_PP_IP-MAT_[いう]_VB_IP-MAT (3 tokens, 0.16%)
[と]_AX_ADVP_IP-ADV_[いう]_VB (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-ADV_[いう]_VB (3 tokens, 0.16%)
[と]_P-ROLE_PP_IP-EMB_[いう] (2 tokens, 0.11%)
[と]_P-COMP_PP-CMPL_IP-MAT_[いう]_VB (21 tokens, 1.13%)
[と]_P-ROLE_PP_IP-REL (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-SUB_[いう]_VB (14 tokens, 0.75%)
[と]_P-COMP_PP-CMPL_IP-EMB_[いう]_VB (1 tokens, 0.05%)
all (1,859 tokens, 100%)
[と]_AX_ADVP_IP-ADV (1 tokens, 0.05%)
[という]_P-ROLE_PP_NP-PRD (72 tokens, 3.87%)
[とい..
[という]_P-COMP_CP-THT-1_IP-SUB (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-MAT_[いう]_VB (3 tokens, 0.16%)
[と]_P-COMP_CP-THT-OB1_IP-ADV-CONJ_[いう] (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-SUB (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-EMB_[いう] (11 tokens, 0.59%)
[と]_P-ROLE_PP_IP-REL_[いう] (1 tokens, 0.05%)
[という] (1,622 tokens, 87.25%)
[という]
[と]_AX_ADVP_IP-ADV_[いう]_VB_IP-ADV (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-MAT_[いう]_VB (115 tokens, 6.19%)
[と]_P-..
[という]_P-COMP_CP-THT_NML (2 tokens, 0.11%)
[と]_P-ROLE_PP_IP-MAT_[いう] (3 tokens, 0.16%)
[と]_P-COMP_CP-THT-OB1_IP-ADV-CONJ (1 tokens, 0.05%)
[という]_P-COMP_CP-THT-ADV_ADVP_IP-MAT (1 tokens, 0.05%)
[という]_P-COMP_PP-CMPL_NP-PRD (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-REL_[いう]_VB_IP-REL (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-REL_[いう]_VB (1 tokens, 0.05%)
[という]_P-ROLE-FW_PP (2 tokens, 0.11%)
[と]_P-COMP_PP-CMPL_IP-NMZ_[いう] (1 tokens, 0.05%)
[という]_P-COMP_CP-THT_PP (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-ADV_[いう]_VB_IP-ADV (3 tokens, 0.16%)
[と]_P-COMP_CP-THT-OB1_IP-REL_[いう]_VB_IP-REL (8 tokens, 0.43%)
[と]_P-CONN_IP-MAT (1 tokens, 0.05%)
[という]_P-COMP_CP-THT_NP-ADV (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-ADV_[いう]_VB_IP-ADV (45 tokens, 2.42%)
[..
[と]_P-COMP_PP-CMPL_IP-NMZ_[いう]_VB (1 tokens, 0.05%)
[と]_P-ROLE_PP-CMPL_IP-ADV_[いう] (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-EMB_[いう]_VB_IP-EMB (2 tokens, 0.11%)
[と]_P-ROLE_PP_IP-EMB (2 tokens, 0.11%)
[と]_P-ROLE_PP-CMPL (1 tokens, 0.05%)
[という]_P-ROLE_PP_NP-ADV (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-MAT (3 tokens, 0.16%)
[と]_P-ROLE_PP_IP-SUB_[いう] (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL_IP-ADV_[いう] (5 tokens, 0.27%)
[という]_P-COMP_CP-THT (973 tokens, 52.34%)
[という]_P-COMP_CP-THT
[と]_P-COMP_PP-CMPL_IP-REL_[いう]_VB (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1 (194 tokens, 10.44%)
[と]_P-COMP_C..
[と] (237 tokens, 12.75%)
[と]
[という]_P-ROLE_PP_IP-REL (1 tokens, 0.05%)
[という]_P-COMP_CP-THT_NP-PRD (275 tokens, 14.79%)
[という]_P-COMP_CP-TH..
[という]_P-ROLE_PP_NP-TMP (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-SUB_[いう]_VB_IP-SUB (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL_IP-EMB (1 tokens, 0.05%)
[という]_P-CONN (2 tokens, 0.11%)
[と]_P-COMP_PP-CMPL_IP-SUB_[いう]_VB (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL (30 tokens, 1.61%)
[という]_P-COMP_CP-THT_NP-TMP (1 tokens, 0.05%)
[という]_P-COMP_CP-THT_NML_NP (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-SUB_[いう]_VB_IP-SUB (14 tokens, 0.75%)
[という]_P-ROLE_PP-1 (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL_IP-REL_[いう] (1 tokens, 0.05%)
[と]_P-ROLE_PP-CMPL_IP-ADV_[いう]_VB_IP-ADV (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-MAT (115 tokens, 6.19%)
[と]_P-..
[と]_P-COMP_PP-CMPL_IP-MAT_[いう] (21 tokens, 1.13%)
[という]_P-COMP_CP-THT-PRD_IP-MAT (2 tokens, 0.11%)
[という]_P-COMP_CP-THT-PRD_IP-EMB (1 tokens, 0.05%)
[と]_P-ROLE_PP-CMPL_IP-ADV_[いう]_VB (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL_IP-REL_[いう]_VB_IP-REL (1 tokens, 0.05%)
[と]_P-CONN (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL_IP-ADV_[いう]_VB (5 tokens, 0.27%)
[と]_P-COMP_CP-THT-OB1_IP-SUB (14 tokens, 0.75%)
[と]_P-COMP_PP-CMPL_IP-SUB_[いう]_VB_IP-SUB (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-ADV-CONJ_[いう]_VB (1 tokens, 0.05%)
[と]_P-ROLE (11 tokens, 0.59%)
[という]_P-COMP_CP-THT_NP (691 tokens, 37.17%)
[という]_P-COMP_CP-THT_NP
[という]_P-ROLE (626 tokens, 33.67%)
[という]_P-ROLE
[と]_P-COMP_CP-THT-OB1_IP-REL_[いう]_VB (8 tokens, 0.43%)
[と]_P-COMP_CP-THT-OB1_IP-REL_[いう] (8 tokens, 0.43%)
[という]_P-COMP_CP-THT_NP-SBJ (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-EMB (11 tokens, 0.59%)
[という] (1,622 tokens, 87.25%)
[という]
[という]_P-ROLE-FW_PP_NP (2 tokens, 0.11%)
[という]_P-CONN_PP-SCON_IP-MAT (2 tokens, 0.11%)
[と]_AX_ADVP (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL_IP-ADV_[いう]_VB_IP-ADV (5 tokens, 0.27%)
[と]_P-COMP_CP-THT-OB1_IP-ADV_[いう] (45 tokens, 2.42%)
[..
[という]_P-COMP_CP-THT-ADV (1 tokens, 0.05%)
[という]_P-COMP_CP-THT-ADV_ADVP (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-ADV (3 tokens, 0.16%)
[と]_P-COMP_PP-CMPL_IP-ADV (5 tokens, 0.27%)
[と]_P-CONN_IP-MAT_[いう]_VB2_IP-MAT (1 tokens, 0.05%)
[と]_AX (1 tokens, 0.05%)
[という]_P-ROLE_PP_NP-SBJ (1 tokens, 0.05%)
[と]_P-COMP (224 tokens, 12.05%)
[と]_P-COMP
[という]_P-COMP_CP-THT-PRD_IP-ADV-SCON (3 tokens, 0.16%)
[と]_P-ROLE_PP (10 tokens, 0.54%)
[と]_P-COMP_CP-THT-OB1_IP-EMB_[いう]_VB (11 tokens, 0.59%)
[と]_P-COMP_CP-THT-OB1_IP-EMB_[いう]_VB_IP-EMB (11 tokens, 0.59%)
[と]_P-COMP_PP-CMPL_IP-NMZ_[いう]_VB_IP-NMZ (1 tokens, 0.05%)
[という]_P-COMP_PP-CMPL_NP (7 tokens, 0.38%)
[という]_P-COMP_CP-THT_NML_NP-PRD (1 tokens, 0.05%)
[という]_P-COMP_CP-THT-1 (1 tokens, 0.05%)
[と]_P-ROLE_PP_IP-ADV_[いう] (3 tokens, 0.16%)
[と]_P-ROLE_PP_IP-SUB_[いう]_VB (1 tokens, 0.05%)
[と]_P-COMP_CP-THT-OB1_IP-MAT_[いう]_VB_IP-MAT (115 tokens, 6.19%)
[と]_P-..
[という]_P-COMP_CP-THT-PRD (9 tokens, 0.48%)
[と]_P-CONN_IP-MAT_[いう] (1 tokens, 0.05%)
[という]_P-ROLE_PP_NML_NP (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL_IP-SUB_[いう] (1 tokens, 0.05%)
[と]_P-COMP_PP-CMPL_IP-REL (1 tokens, 0.05%)
[と][いう] (237 tokens, 12.75%)
[と][いう]
[という]_P-ROLE_PP (625 tokens, 33.62%)
[という]_P-ROLE_PP
[という]_P-ROLE-FW (2 tokens, 0.11%)
[と]_P-CONN_IP-MAT_[いう]_VB2 (1 tokens, 0.05%)
[という] と書かれたボックスにマウスカーソルを合わせると、コーパスにおける用例数が示されます。
マウスカーソルを上にずらしていくと、[という] が用いられた機能毎の用例数と全用例数にたいする割合が示されます。
ボックスをクリックすると、ズームしてそのボックスだけを表示します。
文字列検索はテキストの文字列を検索するものです。検索結果はコーパス内での出現回数と共に示されます。文字列検索は、語と語の区切り方が分からないときに便利です。
検索結果は次のように表示されます:
フレームグラフ — 検索文字列の用いられ方をグラフにして示します。
出現回数 — 用いられ方それぞれの出現回数を示します。
検索結果一覧 — KWIC 形式で検索結果を示します。
Liberal、Character、Mine、Strict の4つの検索オプションがあります。
Character は入力した文字列において、一番最初の文字と一番最後の文字が語の最初と最後に対応するということ以外は、文字列間で区切れを特に指定しません。つまり、「123」と入力した場合、[1][2][3]、[12][3]、[1][23]、[123]の4パターンを検索して表示します。(ただし、「だ」や「う」が前後にある別の語の一部になっているものは含まれません。)
Liberal では、最初と最後の文字が前後にある別の語の一部になっている場合も含めて検索して表示します。それ以外は、Character と同じです。
Strict では、自分で区切りを指定して検索を行います。例えば、「123」と入力した場合、「123」が一語として扱われているもののみ、「12 3」のように間にスペースを入れて検索すると、[12][3]と分けてアノテーションがされているもののみを表示します。一文字しか入力しない場合、Character と Strict は同じ検索結果になります。
Mine も上記の Strict と同じように区切りをスペースで示して検索します。ただし、Strict と違って、検索文字列の最初と最後の文字が、それぞれ前後の語の一部になっているものも検索します。
Fine をチェックすると、より詳細なアノテーション情報付きの検索結果が表示されます。
Full をチェックすると、検索結果のフレームグラフだけが表示されます。
Fine と Full の両方をチェックすると、フレームグラフの最も上のブロックをクリックすることで、検索結果にジャンプします。
検索された文の後に示された ID 番号をクリックすると、ツリーが表示されます。
また、画面下部のボタンから、すべての検索結果をコンマ区切り形式でダウンロードすることができます。
「よくばり文字列検索」を使うと、指定した文字列の間に何か別の文字列が挟まれているような例も検索することができます。
Tree fragments を使うと、文字列検索からツリーを作ることができます(ツリー横の出現回数をクリックすると、検索結果へのリンクが現れます)。