機能表現とは

日本語の文を構成する要素には、主に内容的な意味を表す要素(内容語)以外に、助詞や助動詞といった、主に文の構成に関わる要素があります。ここでは、後者を総称して、「機能語」と呼びます。

文の構成要素のなかには、複数の語から構成されているにもかかわらず、全体として一つのまとまった意味を表すものもありますから、それらも含めて整理すると、下のような表を作ることができます。

1語 複数の語から構成
内容的な意味を表す 内容語(名詞、動詞、形容詞、副詞など) 複合名詞、複合動詞、慣用句など
機能的に働く 機能語(助詞、助動詞、接続詞、形式名詞) 複合辞

ここで、「複合辞」とは、「に対して」や「なければならない」のように、複数の語から構成され、かつ、全体として機能語のように働く表現のことです。

我々は、機能語と複合辞を総称して、「機能表現」と呼ぶことにします。

機能表現の数

日本語には、いったいどれくらいの機能表現があるのでしょうか?

実は、これに答を与えるためには、「何を同一とみなすか」ということを厳密に定義する必要があります。

たとえば、「に関する」と「にかんする」は同一表現でしょうか?

これは、単に漢字表記とかな表記の違いですから、同一表現と考えるのが自然のように思えます。

では、「に関する」と「に関して」は同一表現でしょうか?

「Aに関する調査」と「Aに関して調査した」は、意味的に対応しますから、同一表現と考えたくなります。しかし一方で、前者は連体助詞相当(「Aの調査」)であるのに対し、後者は格助詞相当(「Aを調査した」)ですから、文法的機能はかなり異なります。

当然のことながら、「何を同一とみなすか」が変われば、数は変わってきますから、これらのことに判断を下さない限り、数を数えることはできません。

見出しの階層化

上記の問題を解決するために(というよりは、保留とするために)、我々は見出しを階層化することにしました。つまり、ある階層レベルでは、「に関する」と「に関して」は同一とみなすが、より下位のレベルでは、これらを別のものとみなすことにするわけです。

我々の辞書は、次の表に示すような9レベルの階層を持ちます。

レベル 区分の観点 IDの記号 IDの桁数
L1 最上位区分 341 数字 3
L2 意味 435 数字 1
L3 文法的機能 555 英字(8種類) 1
L4 機能語の交替 774 数字 1
L5 音韻的変化 1,187 英字(38種類) 1
L6 とりたて詞の挿入 1,810 英字(18種類) 1
L7 活用 6,870 数字 2
L8 「です/ます」の有無 9,722 英字(2種類) 1
L9 表記の異なり 16,801 数字 2

レベル9(L9)は、機能表現の「表層形」に対応します。つまり、表記のレベルでは、辞書の見出し数は16,801件となります。

一方、それ以外のレベルは、(なんらかの意味において)抽象化された機能表現を表します。

さて、すべてのレベルのノードには、つつじIDと呼ばれる、注意深く設計されたIDが付与されています。 たとえば、「に関する」と「に関して」の表層形(L9)のIDは、次のようになっています。

に関する 0101D.2xx.46n02
に関して 0101P.1xx.01n02

この2つのIDを比較することにより、それらは、L2までは同じだが、L3でD(連体助詞型)とP(格助詞型)に分かれるということがわかります。つまり、2つの表層形の関係がIDの比較によりわかるようになっているのです。

また、別の見方をするならば、0101というL2のIDは、「に関する」と「に関して」を包括する抽象的な(総称的な)機能表現に対応することになります。

日本語機能表現辞書「つつじ」

我々は、2004年頃からこの辞書の編纂を開始し、2007年初頭にいちおうの完成を見ました。その後、意味分類を拡張し、2007年末には、ほぼ現在の形に落ち着きました。

公開にあたって、辞書の名称を「つつじ」と決めました。

辞書に関するより詳しい議論は、次の論文をご参照下さい。

  1. 松吉俊, 佐藤理史, 宇津呂武仁 (2007). 日本語機能表現辞書の編纂.
    自然言語処理, Vol.14, No.5, pp123-146.
  2. 松吉俊, 佐藤理史 (2008). 文体と難易度を制御可能な日本語機能表現の言い換え.
    自然言語処理, Vol.15, Nol.2, pp.75-99.

ライセンス

「つつじ」は、以下のライセンスで公開します。(2010.11.1に Creative Commons 3.0, Attribution-NonCommercial-ShareAlikeから 以下のライセンスに変更しました。)
Creative Commons 3.0, Attribution-ShareAlike.