ゼロ年代の情報技術を「情報技術」で振り返る

失われた10年として名高いゼロ年代も、ITの世界ではいろいろと目覚ましい発展があった。
2000年前後には「ラスト・ワン・マイル」とされていた光通信のボトルネック問題も現代では大きく状況が改善されている。
それどころか当時からすると圧倒的に高速な通信が公衆電話網による無線通信で実現されようとしており、隔世の感があるといえなくもない。

本コラム「週刊Take IT Easy」でも、1998年の暮れに始まり今日に至るまで、ゼロ年代のIT関連トピックを議論してきた。
本稿ではその10年を振り返ってみたい。… それも本コラムらしく、ITを活用して。

テキストマイニングでバックナンバーを分析

などと格好良く書き出してみたが、要するに今回の話題は、過去の記事をテキストマイニングで分析してみた結果を紹介しようというものである。
過去10年間の記事を振り返り、記事のデータをテキストマイニングで分析することによってゼロ年代の情報技術動向を概観してみようという試みだ。

さて今回の分析は、1998年12月の第1回から2009年6月30日号までに発表された全部で516件の記事を対象とした(終わりが2009年6月となっているのは、分析を実施したタイミングが昨年の夏だったためである)。
対象としたデータは空行を含めて36,374行、テキストファイルながらそのサイズにして3MBの大きさに及んだ。

本コラム「週刊Take IT Easy」は、盆暮れなど特別な休日を除いてほぼ毎週継続して発表されてきた。
また多くの研究員が交代で執筆しているため特定のテーマに偏ることなく、その時々で注目されている情報技術の様々な話題に触れている。
この2点は本コラムの大きな特長といえるだろう。
まさにそれこそが、本コラムをテキストマイニングすることでゼロ年代の情報技術動向を俯瞰できるのではないかと考えた理由である。

テキストマイニングの実施には、樋口耕一氏によるKH Coderを利用した。
このツールはオープンソース・ソフトウェアとして公開されており、誰でも自由に利用可能である。
事前に一定のルールで対象データを整形しておく若干の手間を必要とするものの、準備さえ整えば比較的簡単に分析を進めることができる。

ネットワーク図とクラスター分析

では実際に分析した結果を紹介していこう。 次の図は、共起ネットワークグラフである。
共起とは単位記事中に現れる単語の相関を表す概念をいう。
同じ単語が記事中で同じように出現する場合、それらの単語間には強い関係があると考えられるだろう。
そのような関連性の強さを測る概念として、共起の概念が使われる。

ネットワーク図では、共起性の高い単語を結びつけるようにグラフを構成し、単語の配置を調整する。
その結果として、関連性の高い単語はネットワーク図には近い位置に配置されるようになる。

ネットワーク図

続いて、階層的クラスタ分析を行った結果の図を示す。 階層的クラスタ分析も、単語の出現頻度に関係した代表的な分析方法である。
出現頻度で構築される多次元空間上における単語間の距離を測り、その距離に基づいたクラスタリングによって各単語を分類する。
階層的クラスタ分析とは個々の単語のまとまりに着目する分析のひとつだ。

階層的クラスター分析

これらの結果から、特定の単語が形作るいくつかのまとまりを読み取ることができるだろう。
同じ文脈で語られる単語は近いグループにまとまる性質がある。
それぞれのグループに属する単語の関連性に、この10年に頻繁に話題に出された情報技術トレンドの特徴が表れていることを確認してほしい。

コレスポンデンス分析でみるトレンドの推移

さらに次の図はコレスポンデンス分析の結果である。
興味深いのは、この結果からゼロ年代における話題の移ろいを汲み取ることができるということだ。

コレスポンデンス分析

この分析は、やはり出現頻度で定義される多次元空間上に置かれている各単語を、主たる成分で低次元化して可視化する分析手法である。
図では、1999年(1998年12月を含む)から2008年、そして2009年前半まで、1年毎に単語の平均点をプロットしてある。
この点はその年における話題の中心点と考えることができる。
今回はさらに話題の遷移状況を明らかにすべく、その点を矢印で結んで話題遷移の明確化を試してみた。

分析した結果を解釈してみよう。図からは、次のようなシナリオが浮かび上がる。

  • ゼロ年代以前、90年代の最後にはインターネットやPCの活用が話題に上っていた。
  • ゼロ年代も半ばに差しかかると、オープンソースソフトウェアやインターネット検索技術といったトピックが増加する。
  • ゼロ年代後半ではサービスの提供方法やサービス普及が話題の中心となった。

このように、個別の技術に注目していた時代からサービスの提供にシフトしていった様子を、コレスポンデンス分析の結果から改めて伺うことができる。

まとめと展望

以上の例から、あるテーマに関する一連の文献をテキストマイニングで分析すると全体の傾向を掴むことができることが分かるだろう。
今回は対象が過去10年間の情報技術コラムであり、ゼロ年代の情報技術動向を炙り出すことができた。

今回、本コラムの10年間を対象としてテキストマイニングを実施、その傾向を把握するためにいくつかの分析を実施した。
新聞記事や雑誌の記事を対象として同様の解析をしても同じような傾向が掴めるだろうか?
またIT以外の分野で長期間蓄積された記事データを分析すると、どのような傾向が出てくるだろうか?
テキストマイニングによる記事データの分析は奥が深く、興味は尽きない。

(補足)

本記事は、先日、台北で開催されたPacificVis2010において発表した論文の概要を日本語で解説したものです。
より詳しい内容を知りたい読者の皆様には論文をお送りします。 本コラムの問合せ窓口までご連絡下さい。

  • 樋口耕一氏によるテキストマイニング・ツール:KH Coder
  • 2010年3月2日から5日にかけて台北で開催された情報可視化に関する国際会議、IEEE Pacific
    Visualization 2010