パソコン換装 (2002年7月4日:2)

 そういうわけで、進学することに決まりました。僕の人生は、ほぼ適当です。(゚0゚")進学するからには、修士論文なるものを一層しっかり書かなくてはいけません。しかし大学院経済学や論文作業から3ヶ月くらい離いたこともあって、30分で集中力が途切れるというダメ人間ぶりです。こういう時は、あまり頭を使わない作業をしておこうということで、個票データの作業をしていました。

 普通の(公表)データというのは、男性で30歳から35歳の全国平均年収とかは書いてあるのですが、マニアックなデータはなかなか載っていません。例えば、建設業、男性32歳、北海道在住の平均年収、年収の分散とかマニアックなデータというのは書いていないのが普通です。そんな一部のマニアのためにありとあらゆる切り口からのデータを公表していたら面倒だし、紙面や容量の無駄なので、普通の人が知りたそうな代表的なデータだけを載せているのが公表データというものです。しかし、大学院生や研究者というのはその定義上、マニアックです。

 マニアックデータをどうやって見るかというと、その統計表を作る前の元データからいじることになります。僕も最近知ったのですが、日本では統計法なるものがあって、個人情報の推定のおそれがある個票データの使用には、かなりの制限があります。大学院生風情では、個票データはなかなか使えないのです。しかし、さすが自由の国アメリカアメリカンフラッグ、労働力調査+国勢調査みたいなものに相当するCurrent Population Surveyの個票データも個人が手に入れることができます。これは大学院生のみならずここに書いてある大学の学部生でも手に入れることができますので、卒論にもマニアックデータが使えます。ちなみに近年のCurrent Population Surveyのデータなら、メールアドレスを入力すればインターネットで世界中どこからでも得ることができます(DataFerrett

 しかし個票データを手に入れてから面倒な作業があります。個々のデータは
001151200100 126302124325110010001000000111 212 2112492 125 12255113
みたいに並んでいて、3列目が1なら男性、2なら女性、4と5行目で15ならフロリダ州在住みたいな感じで並んでいて、コードブックを見ながら、このデータを読んでいきます。標本10万人を超えるデータなら、これが縦に10万行以上、ずらーっと並んでいるわけです。ワードパットでは止まりますし、Excelは2の16乗の65536が最大の行数なので、大量の個票データの扱いにはあんまり向いていません。そこで面倒ながらもAccessを使ったり、多変量解析のソフトを使ったりして、個票データを処理します。   
 大容量データ向きのソフトで読むとメモリの使い方が豪快にできるので、他のソフトで無理に読ませるよりは時間が短縮できるのですが、それでもデータを読むたびに、「うーんと10万人分待ってね・・・」ってコンピューターが数十秒待たせるのです。タスクマネージャーを見ると、どうもネックになっているのはメモリでなくCPUのようでした。昨年度も、計量経済でCPUやメモリに処理速度が依存するモンテカルロ法や、クロネッカー積×4ぐらいのMultiple-GMMがありました。でもそれらは1回当たりは1時間近くかかってしまうのですが、やった回数は合計3回くらいでした。1回当たり1時間かかっても回数が少なければ、他のAnalyticalでも御飯でも、時間つぶすことは簡単でした。しかし、こういう数分ずつとられる処理時間って、逆に扱いづらいのです。ダメ人間化している僕としては、あんまり作業もはかどらないし、気分転換&心機一転しようと先行投資として、パソコンを換装することに決めました。

 秋葉原へ行って、CPU(Duronの1.2GHz)と、安いCPUファンのvolcano3を買いました。今では1.2GHzのCPUも6000円くらいで1年半前の10分の1くらいの値段です。家に帰ってから、コンピューターをバラして、新しく組み上げるのに半日、BIOSのアップグレードから始まって、他のソフトを全部インストールするのに半日。合計で丸一日かかって、新しいパソコンが快適操作可能になりました。今まで使っていたK6-Vの450MHzからクロック数では2.5倍になったのに普通のアプリケーションをいじる分には「言われてみれば確かに早くなったかも」という位の差です。ベンチマーク計ったりマシンパワーが必要な作業をするとはっきり性能差が分かりますが、普段のアプリケーションではあまり変わりません。いずれにせよ 

 コンピューターも換装したし、心を入れ替えて頑張らねば!がんばらねば。