テキストマイニングでエクセル表を使う方法!無料ソフトのおすすめは?

AI・先端技術

テキストマイニングってソフトを買ったり、プログラミングを学ばないとできないのかな。無料で簡単にできる方法はないかな、と思ったことはありませんか?

データや情報があふれる日常で、必要な情報を抽出できるツールを使うことができたら便利ですよね。アンケートやレビューの分析など、仕事で使えるツールがあれば時間の短縮にもなります。

ここでは、テキストマイニングの工程・手法や、テキストマイニングでエクセル表を使う方法と無料ソフトのおすすめをお伝えし、エクセルはどんな方法でどのくらい役に立つのか?エクセル以外でフリーダウンロードができる3つのソフトの利点と注意点をご紹介します。

入力のファイル形式、機能の幅広さ、簡単さ、精度の点から評価しているので、テキストマイニングを無料でできる範囲について理解することができると思います。

文章の要約ツールや、ブログ・ツイッターのデータ収集ツールなど、知っておくと得する便利なツールも登場しますよ。

それでは、テキストマイニングのツールを見ていきましょう!

テキストマイニングの手法

テキストマイニングでのエクセルの利用法を見る前に、テキストマイニングにはどんな手法や工程があるのかを確認しておきましょう。

テキストマイニングの工程は大きく分けて4つあります。

  1. データの仕入れ
  2. 下ごしらえ(自然言語処理)
  3. 調理(統計解析)
  4. 盛り付け(可視化)

ここではわかりやすくするために、工程を料理の手順に例えてみました。

まずはじめに、元データを仕入れます。データはウェブ上の記事やSNSなどの情報であったり、自分で持っているアンケートの回答データ、エクセルデータなど様々です。この工程はスクレイピングと呼ばれたりします。

2番目にデータを解析器にかけやすいように、自然言語処理とよばれる下ごしらえをします。日本語の自然言語処理には、形態素解析・構文解析・意味分析などが含まれます。

下ごしらえ(自然言語処理)

  • 形態素解析
    • 品詞に分解して(分かち書き)
    • 単語の出現頻度を調べる
  • 構文分析
    • 句単位に分解して文の構造を調べる
  • 意味分析
    • 同義語辞書を使って同じ意味で違う表現の言葉をまとめる
    • 同じ意味の単語の出現頻度がわかる

単語の出現頻度を調べたり、文の構造を調べたり、表現の違う同じ意味の言葉の出現回数を調べたりするのに必要な言葉の分解や分類などの下処理をするのがこの工程。

3番目の統計解析は、テキストマイニングのクライマックスである調理工程。言葉の出現頻度や文の構造、意味などの関連性を統計的に分析し、言葉の使い方の特徴など、大量のデータが持っている本質的な意味合いを探ります。

最後の盛り付け、「可視化」では、解析した結果をグラフやチャートなど目に見える形で出力します。テキストマイニングではワードクラウドなどもこの工程に使うツールです。

エクセルを利用する方法

テキストマイニングでエクセルを使う方法は大きく分けて2つあります。一つはエクセル表の関数を使う方法。そしてもう一つはエクセルのデータを読み込めるフリーソフトを使う方法です。

エクセルの関数を使う

テキストマイニングに必要な作業の中で、エクセル表だけを使ってできるのは、実は単語の集計部分だけです。これはテキストマイニングの下ごしらえ、「形態素解析」の一部です。

集計前のデータの収集や整形、集計以降の分析や可視化はアドインか外部のソフトを使う必要があります。

それでは、エクセルの関数を使う手順を見てみましょう。

  • ステップ1:下ごしらえ(自然言語処理)
    • 分かち書き(品詞の分解)
    • 表記ゆれ修正(意味分析)
      • 例:プロバイダとプロバイダー

まずは、下ごしらえとして自然言語処理が必要になります。

日本語の文章は品詞ごとに区切られていないので、MeCabやPythonに付属のJanomeというソフトを使って文章を品詞単位に分解してスペースで区切る「分かち書き」をする必要があります。

また、同じ単語が出てくる頻度を数えるために、プロバイダとプロバイダーなど、同じ意味でもつづりかたが統一されていないもの(「表記ゆれ」といいます)を同じ表現に直して集計しやすくしておきます。

  • ステップ2:単語の集計
    • COUNTIF関数を使う
    • アンケートには不向き
      • エクセルを読める集計ソフトをと連携する

単語の集計にはCOUNTIF関数という機能を使います。指定した単語を含むセルがいくつかあるか数えるだけの機能なので、アンケートなどの複雑なデータは、エクセルを読み込める他のソフトに出力して使う必要があります。

  • COUNTIF関数の書き方
  • =COUNTIF($列A$行1:$列A$ 行99,”検索条件“)
  • 例)
    =COUNTIF($A$1:$A$99, “うな丼”)

上のように、$を前につけて範囲を指定し、検索条件に集計したい単語(ここでは「うな丼」)や数字などを入れると、当てはまるものの数を計算してくれます。

  • ステップ3:盛り付け(可視化)
    • フリーソフトを使う
      • ワードクラウド等

集計した結果は、ワードクラウドなどのフリーソフトを使って可視化することができます。

エクセルデータを読み込めるソフトを使う

エクセル関数を使ってできることは集計だけなので、もっと高度なテキストマイニングをやりたい、という場合には、エクセルで手作業の集計する代わりに、エクセルと互換性のあるフリーソフトを使う事ができます。

  • エクセルデータを読み込めるデータマイニングソフト
    • Tiny Text Miner
      • 文章の分析ソフト
        • (下ごしらえ)
        • 形態素解析と構文分析
    • ExcelTTM
      • Tiny Text Minerのエクセル上で動作するバージョン
    • KH Coder
      • 統計解析と可視化
      • (調理と盛り付け)
    • RMeCab
      • 日本語の形態素解析
      • (下ごしらえ)
      • MeCabを利用

エクセル表を読み込むことができるフリーのソフトでは、Tiny TextとKH Coderを使って形態素解析と構文解析をすることができます。形態素分析は文章を品詞に分解して単語が出現する頻度を調べ、構文分析では、文章を句に分解して単語と単語の関係や分の構造を調べます。

いずれも上のサイトリンクからソフトをダウンロードし、パソコンにインストールをして、データの処理をしたいエクセルファイルを読み込ませて使用します。

Tiny Text Miner はテキストマイニングの前処理用のソフトなので、外部ソフトをインストールして利用する必要があります。

形態素解析にはMacOSX(=MeCab付属)以外のパソコンの場合はMeCabのインストール、構文解析にはCabochaのインストール、また統計解析にはRやWEKAなどの外部ソフトを利用する必要があります。

RMeCabはKHCorderより理解するのが難しいので、あまりおすすめできません。

ExcelTTMはTiny Text Minerのエクセル上で動作するバージョンです。エクセル上で単語の集計をしたい方はこちらを使うと良いと思います。

無料おすすめソフト

入力形式をエクセルに限らなければ、テキストマイニングを無料でできるソフトの選択の幅は少し広がります。

ソフトによって特徴が違うので、使用する目的や操作の簡単さなどで使い分けるとよいとおもいます。

ここでは3つの無料ソフトのおすすめの点と、使うときの注意点をお伝えしましょう。

ユーザーローカル:テキスト文章

一番簡単で、誰にも使いやすいのがユーザーローカルの無料テキストマイニングツール。

  • ユーザーローカル
  • 簡単さ★★★★
  • 精度 ★
  • 幅広さ★★
    • データ整形~可視化まで 一連のツールを完備
      • (下ごしらえ~盛り付け)
    • 見やすい、操作が簡単
    • 2つの文章を比較して解析 
    • 音声入力も可能
    • すぐ使えるツールが充実

テキストマイニングの一連の作業の一部しかカバーしていないソフトがある中で、ユーザーローカルのツールは、ツールの品揃えが幅広いソフト。

分析できるようにデータを整えたり、分析結果を色々な形式で表示したりと、下準備から可視化までの一連のツールを完備しているので、他のソフトを併用する必要がないところが便利です。

無料の簡易版なので、他の専門的なソフトに比べると精度や細かい条件指定などのできる範囲に差があると思いますが、初めてテキストマイニングする人や、すぐに簡単に使いたいという人におすすめのツール。

文章をテキストボックスに貼り付けるだけで結果が全て表示されるので、操作がとても簡単。2つの文章を同時に解析して比較できるもの他のソフトにないポイントです。

さらに、テキストマイニングしなくても、普段使いしたくなるような便利なツールも含まれています。

  • レビュー整形・解析ツール
    • アマゾン、楽天市場、価格ドットコム、ぐるなび、食べログ等
    • レビューをそのままコピペする
  • 文章要約ツール
    • ダイジェスト
      • 3行、5行、10行にそれぞれ文章を要約
    • ハイライト
      • 文章の最重要部をハイライトで表示

ネットショップの運営者の方にはレビュー整形ツール、文章を書いたり調べ物をする方には文章要約ツールが便利でおすすめです。

同じサイトで文章の感情分析や未来予測ツールも使う事ができます。

注意するところは、エクセルやテキストファイルの入力には対応していないところです。テキストボックスに文章を貼り付けるのが基本で、エクセルなどの解析は有料版で使用できるツールになります。

無料の会員登録をすると使える機能が増えるので、登録しておくと良いでしょう。

KH Coder:アンケート等の文章

KHコーダーは文章型のデータを解析するためのフリーソフトです。

  • KH Coder
    • 簡単さ★
    • 精度 ★★★★
    • 幅広さ★★★
  • 自然言語処理~可視化
    • (調理~盛り付け)
  • 文章型の分析に向く
    • 自由記述のアンケート
    • インタビュー
    • 新聞記事など
  • エクセル・テキストファイル対応
  • 有料級の充実したツール
  • RMeCabよりは簡単

おすすめの理由は、20を超える有料級のテキスト解析ツールを無料で使うことができ、新聞記事・インタビュー記事・文章で回答されたアンケートの内容などを分析器にかけることができること。

KHCorderのサイトに掲載の機能と分析手順

ファイルの形式としてエクセルとテキストファイル両方に対応しているのが特徴です。別のフリーソフトのRMeCabに比べると、操作や理解が難しくないそう。

  • 注意点
    • ツールが複雑

ツールの内容が複雑で、チュートリアルを見て使い方を学びながら使いこなしていくような形になりますので、すぐに手軽に使いたいという人には不向きです。ですが、テキストマイニングの作業できる内容としては一番精度が高く、幅が広いので、テキストマイニングに多少知識がある方や、勉強しながらでもOKという方におすすめです。

Tiny Text Miner:エクセルデータ

Tiny Text Miner(TTM)は、 形態素分析と構文分析に特化したフリーソフト。

  • Tiny Text Miner (TTM)
  • ExcelTTM
    • 簡単さ★★
    • 精度★★
    • 幅広さ★★
  • 自然言語処理
    • 形態素解析と構文分析
    • (下ごしらえ)
  • エクセル入力に対応
  • KHCorderよりも操作が簡単
  • 集計データの作成

エクセル入力のみに対応しているので、操作は比較的簡単。無料ソフトの中ではユーザーローカルとKHCorderの中間くらいの理解のしやすさで、エクセル上でのデータ集計に向いていることが特徴です。エクセルのデータを扱いたい場合におすすめ。

エクセル表の1列目にタグを入れ、2列目に解析対象のテキストを入れた状態にして読み込ませます。使用できるツールは以下の通り。

  • タグ別
    • 出現頻度と件数
  • 語xタグのクロス集計
    • 出現頻度と件数
  • 語 x 語のクロス集計
    • 出現件数
  • テキスト x 語のクロス集計
    • 出現頻度

キーワードや同義語、不要語を指定して集計できるので、ユーザーローカルに比べて精度が高いところがおすすめのポイント。

さらに、おまけでブログやTwitterのデータ収集ができる無料ミニソフトも提供してくれています。

  • データ収集のミニソフト
  • (仕入れ)

テキストマイニングの1番目の工程、「データ収集」(仕入れ)を手伝ってくれるソフトです。

SNSのデータ収集などは、ユーザーローカルでは有料で提供していたり、自力でやろうとするとpythonなどのプログラミング言語の知識がないと難しかったりするので、気軽に情報収集するくらいの用途であれば、おすすめできるツールです。

  • Tiny Text Miner(TTM)の注意点
    • エクセルの整形が必要
    • テキストファイル非対応
    • 外部ソフトのインストール要
      • 形態素解析ソフト(Mecab)
      • 構文分析ソフト(CaboCha)
    • 後処理に外部ソフトが必要
      • 統計分析ソフト (R等)
    • アップデートがされていない
    • リクエストのできる頻度が限られている
    • Windowsは日本語のみ対応

エクセルデータが使えて操作も難しくないので使い勝手が良さそうなTTMですが、いくつか注意点があります。

エクセルのセル内に改行がある場合は、Clean関数というものを使って整形してから読み込む必要があります。また、入力方法がテキストファイルや文章に対応しておらず、エクセルのみになっています。

形態素解析のために MeCab のインストールが必要(MacのOSXが入っているパソコンを除く)で、構文分析をするのに、全てのパソコンでCaboChaという日本語係り受け解析ソフトのインストールが必要になります。

テキストマイニングの工程のうち、形態素解析と構文分析にのみ対応しているので、以降の作業(統計分析)には、RWEKARapidMiner, KNIMEといった他のフリーソフトを併用することになります。

大学の先生が作っているようなので、あまりアップデートがされていないのと、ウェブを通して解析をリクエストできる頻度が限られているのには注意が必要でしょう。

エクセルと無料ソフトの利点

それでは、テキストマイニングをエクセルを使って行う方法と、おすすめの無料のソフトについておさらいしましょう。

  • エクセルを使う方法
    • COUNTIF関数で単語を集計
    • (下ごしらえの一部のみ)
    • 前後の工程は無料外部ソフトを使う
  • 無料おすすめソフト
    • ユーザーローカル
      • 自然言語処理~可視化
      • (下ごしらえ~盛り付け)
      • 簡単・幅広い機能
    • KH Coder
      • アンケート等の文章分析
      • (調理と盛り付け)
      • エクセル・テキストファイル対応
      • 有料級の充実した機能
    • Tiny Text Miner
      • 形態素解析と構文分析
      • (下ごしらえ)
      • エクセル入力のみ対応
      • KHCorderより簡単

エクセルだけを使ってでできるテキストマイニングは、思ったより少なかったですね。テキストマイニングにはエクセルのカバーする範囲より長い工程があって、何をしたいかによっても使うツールが変わってくるので、ツールごとの機能や入力・出力形式を知っておくことは大切だと思いました。

一般の人が自由につかえるように、KH Corderなどのオープンソフトや無料ソフトが存在しているのはありがたいですが、無料ソフトだと多少のインターフェイスの使いにくさがあったり、ソフトをある程度自力で勉強しないとつかいこなせないという不便な点はありそうです。

その点を理解したうえで、エクセルと上の3つのようなおすすめ無料ソフトを目的や操作性、出力・入力形式に応じて使い分けながらテキストマイニングにチャレンジしてみましょう!

コメント

タイトルとURLをコピーしました