2004年07月24日
復旧作業
エクスポートファイルをしっかり作っていればまだ良かったのでしょうが、
残念というか間抜けな事に作っていたのは、文字化けしたエクスポートファイルでした。
幸いなことに、archiveディレクトリはバックアップを取っていたので、
エントリ事のHTMLファイル(XXXXXX.html)中のrdfタグから
dc:title (タイトル)
dc:subject (カテゴリ)
dc:date (日付)
dc:description(本文)
を抜き出し、その他はベタ書きし、インポートファイルを作成するスクリプト(cygwin bash)
を作りました。
## 日付は「yyyy-mm-dd HH:MM:SS+09:00」から「mm/dd/yyyy HH:MM:SS [AM/PM]」に変換。
いいぞ、rdfタグ。おかげで楽チンじゃん。
なんて思っていたら、本文中のリンクやらのタグがすべて消えているのです。
しかたがないので、本文(h3タグから次のdivの前まで)とコメント
(comments-bodyとcomments-postをクラス名として持っているdivタグ周り)を抜き出し、
タグを消去するという極めて流用性が低く、且つ力技なスクリプト(cygwin Perl)を作りました。
で、なんとかインポートファイル作成スクリプトと組み合わせて、インポートファイルを作成。
多分UTF-8じゃないとだめなんだろうなぁー。と思ったので、MeadowでUTF-8に文字コードを変換。
ちょっとドキドキしながらMTにインポート。なんとか無事?成功しました。
週末にスクリプトを書くなんて。。。あー、疲れた。
投稿者 issei : 2004年07月24日 04:33
トラックバック
このエントリーのトラックバックURL:
http://www.achama.com/mt/mt-tb.cgi/86
