トップ «前の日記(2009年02月07日 [Sat]) 最新次の日記(2009年02月14日 [Sat])» 編集

映画とネットのDIARY(tDiary版）

since 2004/07/15

ここは古い日記です。2013年11月からadiaryを使った新サイトに移行しました。
検索エンジンからのアクセスで、お探しのキーワードが見あたらない場合はNamazuで再検索してみてください。
【映画の感想一覧】 2004年7月以降　 2005年　 2006年　 2007年　 2008年　 2009年

2009年02月09日 [Mon]

■ なでしこでココログのファイルをダウンロード

ブログの方にココログをNamazuで検索という記事を書いたが、これは秀丸マクロでココログのファイルを加工する方法だった。なでしこでやったら、もっと簡単だった。以下はその手順。まず、ココログのバックナンバーページのソースを開き、月別のバックナンバーのURLをコピーする。それをurl.txtとしてデスクトップに置く。そこで以下のスクリプトをなでしこで実行。

「{デスクトップ}url.txt」を毎行読んで反復。
　URLファイルはそれ。
　URLファイルを「{デスクトップ}url2.txt」にHTTPダウンロード。
　「{デスクトップ}url2.txt」を毎行読んで反復。
　　それを「<h3>.*</h3>」で正規表現マッチ。
　　基本URLはそれ。
　　もし、基本URLが「」でなければ、
　　　「{基本URL}{改行}」を「{デスクトップ}url3.txt」へ追加保存。
0.5秒待つ。
「{デスクトップ}url3.txt」を基本URL2に読む。
それからHTMLリンク抽出。
それを「{デスクトップ}url4.txt」に追加保存。
終わる。

url2.txtは記事のHTMLファイルのソース、url3.txtはそれからH3（見出し）行を取り出したファイル、url4.txtが記事のURLの一覧。で、このurl4.txtを読み込んで、ダウンロードする。デスクトップにfileというフォルダを作っておいて、以下のスクリプトをなでしこで実行。

「{デスクトップ}url4.txt」を毎行読んで反復。
　ローカルファイルはそれ。
　ローカルファイルからURLファイル名抽出。
　ローカルファイル１はそれ。
　ローカルファイルの『2.*/.*/.*html』を『』に正規表現置換。
　ドメインはそれ。
　ローカルファイルの「{ドメイン}」を『』に置換。
　ローカルフォルダ２はそれ。
　ローカルフォルダ２の「{ローカルファイル１}」を「」に置換。
　ローカルフォルダ３はそれ。
　ローカルフォルダ３の『2.../』を「」に正規表現置換。
　ローカルフォルダ４はそれ。
　ローカルフォルダ４の「/」を「」に置換。
　月フォルダはそれ。
　ローカルフォルダ３の「/.*」を「」に正規表現置換。
　年フォルダはそれ。
　「{デスクトップ}file\{年フォルダ}」のフォルダ存在するか。
　もし、それがいいえならば、
　　「{デスクトップ}file\{年フォルダ}」にフォルダ作成。
　「{デスクトップ}file\{年フォルダ}\{月フォルダ}」のフォルダ存在するか。
　もし、それがいいえならば、
　　「{デスクトップ}file\{年フォルダ}\{月フォルダ}」にフォルダ作成。
　ローカルファイルを「{デスクトップ}file\{年フォルダ}\{月フォルダ}\{ローカルファイル１}」へHTTPダウンロード。
終わる。

これで、デスクトップのfileというフォルダに2009\02とか2008\04とか年月別のフォルダにファイルがダウンロードできる。僕の場合はファイルが102個しかなかったから、すぐに終わった。１ファイルあたり１秒余りで終わるので２分足らずか。これぐらいの短いスクリプトでダウンロードできるのがなでしこの便利なところだ。

[ツッコミを入れる]


		2009年 2月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28