ソリューション・製品|SOLUTION・PRODUCTS


Q&A


Q&A

テキストマイニングとはなんですか。データマイニングとどう違うのですか?
Text Miningの語源から「文書」+「マイニング(掘削)」ということで、大量の文書を掘り下げてみることで何かを発見しようという手段を総称しています。テキストマイニングの方法は、炭鉱の掘り方のように様々な道具(ツール)を使ったり、手作業もあったりします。データマイニングは分析の対象が数値情報であるのに対して、テキストマイニングは文章を対象にしているところが異なります。数値情報を扱うデータマイニングの方が歴史が古く、POSシステムの情報を分析してマーケティング分析に利用されていることは有名です。
テキストマイニングは文書情報を分析するため、一般的には形態素解析処理などの言語解析処理を施してから統計情報などをとり、グラフィカルに結果を表示させるようなツールがほとんどです。テキストマイニングを利用してインターネット上の文書情報や社内の営業日報や特許情報など様々な形態の文書について分析することで、お客様の要望やクレーム、営業情報の連携など新しいアイデアの源として、大量の文書が活用できるようになります。
Knowledgeoceanには最近開発されたKnowledgePaletteというデータマイニングオプションがあります。テキストマイニングの分析結果を連携することやグラフィカルでわかりやすいインタフェースを提供できるなどの特長があります。
TFとはなんですか?
TFはTerm Frequency(単語頻度)です。ある単語が文書中に何個あるかの出現頻度です。一般的にはTFが高い単語ほど、注目の情報であると言えますが、日本語の文書中には「です」、「ます」や「が、は、の、お、に」、「句点・読点」といった一般的な単語や文字も多く出現します。あまり意味の持たない語を不要語として処理対象から除外したり、品詞情報を選択し、例えば助詞や助動詞などを除くことでキーワードを浮き立たせたり、重要なキーワードを定義したりする方法もありますが、どれも100%の精度で解決することはできないところが、自然言語処理の難しいところです。
DFとはなんですか?
DFはDocument Frequency(文書頻度)です。ある単語がいくつの文書中に出現したかを表します。TFの説明にもあったような、どんな文書でも出現する単語は重要でないという意味を利用して、DFが低い単語の方が重要と考えます。このためDFの逆数をとったIDF(inverse document frequency)が高いものほど重要と考えます。
重要度とはなんですか?
一般的にTFが高く、IDFが高いものが重要です。この考え方に基づき、TFとIDFをかけあわせた値が大きいものを重要単語とします。Knowledgeoceanの場合は、TF・IDFに文書のサイズなどを考慮した重要度算出方法を使っています。
形態素解析処理とは何ですか?
文章を単語(一般的に)に分割して、品詞情報や読みなどの情報を取得する処理のことです。この処理をすることで、テキストマイニングで実施する重要キーワードの抽出や単語ごとの頻度の計算のもととなる単語情報を取得することができます。
Knowledgeoceanでは奈良先端科学技術大学院大学で開発された茶筌を利用しています。
主要語抽出とは何ですか?
Knowledgeocean独自の解析エンジンで、英語のchopperのような単語分割専用のエンジン(分かち書き処理)です。一般的な形態素解析処理では弱い、口語やメール、顔文字を含む感情などの語の処理も同質に処理でき、辞書のチューニングが容易であることが特長です。ただし、品詞や読みの情報は取れません。
共起抽出とはなんですか?
ある単語とある単語が同じ文書中で同時に出現する頻度を共起度と読んでいます。Knowledgeoceanでは、単語間の距離(単語の数)を指定して、共起度をカウントしています。
どうやったらテキストマイニングで新しい知識が発見できるのですか?
単語の頻度統計が取れても知識発見まで至らないのでは?
単語の頻度統計が取れただけでは、知識発見には至らないこともあると思います。単語の頻度統計を見て、日次や月次で比較すると傾向が見えてきます。お客様の声について分析する際には、このように時系列で比較するアプローチは多くの企業様で実施されているようです。
また、「マイニングをしなくても直接個々の情報を読めばわかる」というお客様もいらっしゃいます。処理できる量でしたら、お客様のご意見を余すところなく細かく見渡すためには全てに目を通すことも重要だと思いますが、ビジネス上時間やコストでの限界が存在するのも事実です。数千、数万文書といった数の文書を全部読みきった後に、公平な結果を出すのに人手で実施しなければならない場合は、かなりの負担になります。ツールを有効利用することで、概略傾向が瞬時にわかり、着目すべき箇所が見えてきます。
また、Knowledgeoceanは、「共起ネットワーク表示により知識発見に至ることが多い。」と、お客様から情報を頂いております。文書を読んだだけでは気付きにくい事象が、ユニークでインタラクティブなGUI表示により発見(気付き)に至るようです。
製品ラインナップやライセンスはどのようなものがありますか?
製品としては、Knowledgeoceanの全機能をご利用頂けるProfessional版と、「コンセプト抽出」・「コンセプト共起抽出」機能のみをご利用頂けるBasic版をご用意しております。 また、ライセンスとしては、クライアント上限数が無制限のサーバライセンスと、1クライアントのみでご利用頂けるStandalone版をご用意しております。詳細はお問合せください。