2009/02/09(月)なでしこでココログのファイルをダウンロード

ブログの方にココログをNamazuで検索という記事を書いたが、これは秀丸マクロでココログのファイルを加工する方法だった。なでしこでやったら、もっと簡単だった。以下はその手順。まず、ココログのバックナンバーページのソースを開き、月別のバックナンバーのURLをコピーする。それをurl.txtとしてデスクトップに置く。そこで以下のスクリプトをなでしこで実行。

「{デスクトップ}url.txt」を毎行読んで反復。
 URLファイルはそれ。
 URLファイルを「{デスクトップ}url2.txt」にHTTPダウンロード。
 「{デスクトップ}url2.txt」を毎行読んで反復。
  それを「<h3>.*</h3>」で正規表現マッチ。
  基本URLはそれ。
  もし、基本URLが「」でなければ、
   「{基本URL}{改行}」を「{デスクトップ}url3.txt」へ追加保存。
0.5秒待つ。
「{デスクトップ}url3.txt」を基本URL2に読む。
それからHTMLリンク抽出。
それを「{デスクトップ}url4.txt」に追加保存。
終わる。

url2.txtは記事のHTMLファイルのソース、url3.txtはそれからH3(見出し)行を取り出したファイル、url4.txtが記事のURLの一覧。で、このurl4.txtを読み込んで、ダウンロードする。デスクトップにfileというフォルダを作っておいて、以下のスクリプトをなでしこで実行。

「{デスクトップ}url4.txt」を毎行読んで反復。
 ローカルファイルはそれ。
 ローカルファイルからURLファイル名抽出。
 ローカルファイル1はそれ。
 ローカルファイルの『2.*/.*/.*html』を『』に正規表現置換。
 ドメインはそれ。
 ローカルファイルの「{ドメイン}」を『』に置換。
 ローカルフォルダ2はそれ。
 ローカルフォルダ2の「{ローカルファイル1}」を「」に置換。
 ローカルフォルダ3はそれ。
 ローカルフォルダ3の『2.../』を「」に正規表現置換。
 ローカルフォルダ4はそれ。
 ローカルフォルダ4の「/」を「」に置換。
 月フォルダはそれ。
 ローカルフォルダ3の「/.*」を「」に正規表現置換。
 年フォルダはそれ。
 「{デスクトップ}file\{年フォルダ}」のフォルダ存在するか。
 もし、それがいいえならば、
  「{デスクトップ}file\{年フォルダ}」にフォルダ作成。
 「{デスクトップ}file\{年フォルダ}\{月フォルダ}」のフォルダ存在するか。
 もし、それがいいえならば、
  「{デスクトップ}file\{年フォルダ}\{月フォルダ}」にフォルダ作成。
 ローカルファイルを「{デスクトップ}file\{年フォルダ}\{月フォルダ}\{ローカルファイル1}」へHTTPダウンロード。
終わる。

これで、デスクトップのfileというフォルダに2009\02とか2008\04とか年月別のフォルダにファイルがダウンロードできる。僕の場合はファイルが102個しかなかったから、すぐに終わった。1ファイルあたり1秒余りで終わるので2分足らずか。これぐらいの短いスクリプトでダウンロードできるのがなでしこの便利なところだ。

2009/02/07(土)ATOK2009

 一太郎2009が届いたのでインストール。一太郎自体の新機能に興味はない。だいたい、使うのは月に一度か二度。しかし、ATOKは毎日使うので、これはバージョンアップの意味がある。そういうATOK目当てに一太郎を毎年バージョンアップしている人は多いのではないかと思う。賢くない入力システムはストレスがたまるのだ。

 ATOK2009の目玉は英語入力支援機能か。Shiftキーを押しながら英語を入力しようとすると、一文字入力しただけでその文字から始まる候補がずらりと表示される。上下キーで選んで確定。これは便利かも。

 Just MyShopで予約した時に迷ったのはダウンロード版でもいいかなといこと。2000円ほど安い。毎年付いてきていたおまけがあるかなと思って製品版にしたが、今年はおまけはなかった。このおまけ、あまり役に立たないものも多かったが、過去にはUSBメモリーなどもあった。おまけが付いてこないのなら、来年からはダウンロード版にしよう。

 ATOKにはセキュリティソフトと同じように1年版もある。3,360円。一太郎を使わずに毎年ATOKをバージョンアップするなら、こちらの方がお得だな。

2009/02/04(水)ココログファイルの切り分け

ココログの全文検索はいちいち「このブログ内で検索」を選ぶのが面倒なので、Googleのカスタム検索を付けた。サイドバーに設置するには「マイリスト」の新規作成でメモを選び、ソースを貼り付ければよい。それだけでは面白くないので、検索結果をサイドバーに表示するようにした。この作り方は以前、映画とネットのDIARY(2009-01-07)に書いた通り。

これで少しはましだが、Namazuでも検索できるようにしたいところ。ココログの設定画面から書き出したファイルは1ファイルに全部の記事が収容されている。これを切り分け、1記事1ファイルの形にしてNamazuで検索できるようにすれば良いわけだ。で、秀丸で切り分けるマクロを書いてみた。

#num = 50;
#count = 0;
disabledraw;
call repeatSub;
enabledraw;
endmacro;
repeatSub:
while( #num > 0){
searchdown "--------";
    if(!result){endmacro;
    }else{
    call cutSub;
    #num = #num-1;
    }
    setactivehidemaru 1;
    closehidemaru 2;
}
return;
cutSub:
    gofiletop;
    beginsel;
    searchdown "--------";
    cut;
    deleteline;
    openfile "";
    paste;
    #count = #count + 1;
    $count = str(#count);
    saveas "cocolog" + month + day + hour + minute + second + $count + ".html";
return;

#numは作成するファイル数を指定する。大量に記事を書いている場合はこの数字を増やすか、何回かマクロを繰り返せば良い。しかし、これで検索できるようになっても実際のページには飛べない。自分で確認できるだけ。ココログのファイル名は一定の規則にはなっていないのでこれは仕方ない。いや、規則はあるんだけど、タイトルによっても変わるので不規則なのだ。

2009/02/02(月) トラックバックスパム

 tDiaryにもトラックバック機能はあるが、有効にはしていない。トラックバック先のURLだけがあって肝心のトラックバックがまったく付かないのは寂しいからだ。ココログの方のブログは公開して1カ月で6個のトラックバックが付いた。ほう、あるものだなと最初は思ったが、このうちの3個はアダルトサイトや出会い系サイトからのもので明確なスパム。速攻で削除した。残りの3個はトラックバックを「勝手にリンク機能」と勘違いしている人からのものだった。本文中にこちらのブログへのリンクがないのだ。これもスパムに近いし、中にはそういうトラックバックを許可しない人もいるのではないかと思う。

 僕はとりあえずそのままにしているが、トラックバックは無条件に許すのではなく、承認制にした。これでアダルトサイトのURLで汚される心配はない。トラックバックって、あまり有効ではないのではないかと思ってしまうが、ふと思いついた。2つのブログを持っている場合、そのブログ同士に関連のある記事を書くことがたまにある。これこれのように。関連記事はリンクしておけばいいのだが、トラックバックならそれが簡単にできる。そういう使い方もあるので、この日記でも有効にしようかと思う。

 で、有効にして、ココログからトラックバックしてみた。でも表示されない。なぜだろうと思ったら、設定で「中に自サイトへのリンクがあれば表示する」という設定になっていた。なるほど。これなら単にリンクされることを防げるわけか。反対にこちらからココログにトラックバックを送ってみたら、サーバーエラーになった。ping.rbと同じエラーだな、これは。

2009/01/27(火)mixi日記へのアクセス

mixiの日記を外部ブログに変更すると、自分でも過去のmixi日記にアクセスできなくなる。過去の日記が残っているかどうか不安になるが、確かめたらちゃんと残ってた。アクセスする方法はあるのだ。backup_mixiですべてをダウンロードしていれば、という条件が付くが。

backup_mixiでDドライブにファイルをダウンロードしたとする。ファイルをブラウザで開くと、パスは

file:///D:/backup_mixi_win/mixi_backup/diary/759528750.html

という感じになるだろう。これを以下のようなmixiのURL形式にすればいいだけのこと。

http://mixi.jp/view_diary.pl?id=759528750&owner_id=自分のmixiID

 ここで必要なのはファイル名に付く番号の759528750と自分のIDだけなので、秀丸のマクロなどを使って書き換えてしまえば、アクセスは簡単だ。といってもいちいち、マクロを実行するのは面倒。僕は2年前、Namazuを利用したmixi日記の検索ツールを自分用に作っていて、これにローカルファイルから直接mixiの該当URLに飛ぶ機能を付けておいた。パスを自動で書き換える機能。これが今ごろになって役に立つとはね。もっとも、そんなツールではなく、NamazuのReplaceだけでもアクセスはできそうだ。

mixiには3年近く日記を書いてきたので、これをすべて埋もれさせるのはなんだかもったいない。というわけで、さくらのブログに書評だけでも移しておこうかと思って作業を始めた。ところが、さくらのブログの仕様に腹が立つことが多い。画像の配置にCSSを使っていなかったり、なんだこれはと思ってしまうことが多々ある。一番腹が立つのは「改行を<br />に変更する」というやつ。「段落をPタグで囲む」仕様が文法的には正確だろう。BRタグが多数続くと、みっともない。

tDiaryはちゃんとPタグを入れてくれるし、これ極めて簡単な処理なんだから、取り入れて欲しいものだ。仕方がないので、秀丸に文章を貼り付け、以前書いたPタグ挿入マクロで加工することにした。段落をPタグで囲むのが、いかに簡単かはこのマクロを見れば分かる。たったの2行なのである。しかも実際に処理をしている部分は1行だけだ。

というわけで移す作業をしているのだが、やっているうちになんだかイライラしてきた。労多くして功少なしな感じ。ココログに移した方がストレスは少ないな、これは。ココログのコンテンツ拡充にもなるし、そうしよう。