下記の(1)(2)の処理を、同時に行いながら解析しています。
(1)文章を分解
主に機能語に注目した処理を行います。
機能語とは、文を構成する単語の機能を決める言葉で、「て・に・を・は」や「た・でした・ちゃった」といったような言葉が含まれています。 これら約4,000語の機能語のみを用いて、「構文解析」のベースとなる文節単位の分解を行います。
(2)三要素に再構築
分解された文節を、「主題・副題・動作状態」の3要素に再構築して構文解析を行います。
これにより、形態素解析による品詞情報に依存した構文解析と比較すると、極めて正確な単語間の係り受け判定と文の構文解析が可能になります。
ConciergeCube™ 処理の流れ
ConciergeCube™ 処理の流れ
三要素イメージ
三要素イメージ
ConciergeCube™の強み
機能素解析アルゴリズムを搭載したConciergeCube™は、従来の日本語自然言語処理における以下の諸問題を解決致します。
日本語独特の文章レベルのゆらぎ・ルーズな文法の問題
日本語は名詞・動詞・助動詞などが多様な順序で出現します。「日本語独特の文章レベルのゆらぎ」や「ルーズな文法」で書かれた文章は、従来の日本語自然言語処理技術では正確に解析することが不可能でした。
ConciergeCube™の機能素解析アルゴリズムは、機能語に着目し、どの文節が「主題・副題・動作状態」の三要素のどこに属しているのかを即時に判断し、ゆらぎやルーズな文法を含んだ文の構造を正確に解析します。
新語・造語など未知語の問題
QBKのような2ch語に代表される言葉や、若者が独自に生み出していく新語は、 日記や会話などを通し、常に進化していきます。
さらに、日本語ではさまざまな言葉に対し、略称が多く用いられています。ConciergeCube™の機能素解析アルゴリズムは、もともと辞書に依存していないため、これらの未知語が出現しても解析精度が劣化せず、日々進化する言葉に対しても無限に対応することが可能です。
全文ひらがなの問題
「はははすーぱーにかいものにいきました(母はスーパーに買い物に行きました)」のような全文ひらがなの文章を解析する際には、どこが区切りなのか正確に判別する必要があります。 ConciergeCube™の機能素解析アルゴリズムは、機能語に着目することにより、「はは(母)」と「は」の区切りを正確に判断します。
品詞判別の問題
ConciergeCube™の機能素解析アルゴリズムは、品詞情報には一切依存していないため、そもそも問題ありません。
従来の言語解析アルゴリズムと機能素解析アルゴリズムの違い
従来の言語解析アルゴリズム
単語分解 形態素解析 大量の辞書と文法の知識を使って品詞に分解 辞書・文法的
アプローチ
N-gram解析 機械的に文をN個に分解 数学的
アプローチ
構文解析 形態素解析 品詞情報から係り受け判別を行い文構造を解析 辞書・文法的
アプローチ
意味解析 シソーラス解析 大量の類義語・反義語辞書(シソーラス)を使って出現語をグルーピング化 辞書・文法的
アプローチ
ベクトル空間解析 統計解析的手法を使って語の近傍度を数学的に計算 数学的
アプローチ
従来の言語解析手法は「辞書・文法的アプローチ」と「数学的アプローチ」に大別されます。
しかしながら、どちらのアプローチにおいても、文章レベルのゆらぎを大量に含んだ口語調の日本語文の解析は困難です。
すなわち「辞書・文法的アプローチ」は、未知語やルーズな文法に対応できず、「数学的アプローチ」は、単純に単語間距離によって意味判定を行いますので、文章がゆらぐほど、解析精度が劣化するという問題が発生します。
当社独自開発の機能素解析アルゴリズムは、日本人が無意識に行っている言語認識手法をアルゴリズム化したもので、上記アプローチの弱点を克服した画期的な第3のアプローチです。
利用方法
ブログやチャットなどの口語調の自然文テキスト解析に幅広く利用できます。
また方言やギャル語などに対しても柔軟に対応できるだけでなく、機械翻訳の精度アップや音声認識後の全文かな文字テキスト解析などにも利用できます。
お問い合せ
自然言語認識エンジンConciergeCube™にご興味のある方は、下記までお気軽にお問合せ下さい。
お問い合せ先:product@c2cube.com
  1. 機能素解析アルゴリズム
  2. 連鎖ニューロンストリング構造