2007年 10月 12日 金曜日 Java HTML Parser 2.0 を使ったプロジェクトと NetBeans
最近、HTML ファイルを少しだけ加工するためのプログラムを作る必要があり、HTML Parser 2.0 を使って、<head> 内の meta タグをしらべて必要に応じて挿入する処理を書きました。この HTML Parser を選んだのは、
というのも確かに大きな理由なのですが、使い方がイマイチ把握できずに他のパーサーに切り替えようかと悩んだりしても結局使い続けたのは、
という理由が大きいです。処理されたファイルを元のファイルと比較して、予期せぬ変更が一切無いことの確認を比較的簡単に行うことができました。
書式が大幅に変わっても構文エラーが無ければ確かにそれで良いのですが、元のファイルの書式が様々で、head タグの無いものや、極端な場合は html タグが無い単なるテキストに対して元のテキストを html タグと body タグで囲んだ上で、head タグを追加して meta タグを挿入する必要があるものもあったので、実際にファイルを変換させた後に全部のファイルについて返還後にファイルがどう変わったのか元ファイルと比較したいと思っていました。比較が簡単にできることが大事だったので、もとの書式を維持してくれたのは非常にありがたかったです。diff コマンドで比較してなんとかなりました。
NetBeans のウィザードでプロジェクトを作って、ライブラリマネージャーに HTML Parser 2.0 のコンパイル済み jar ファイルと、ソースファイルの zip、javadoc のディレクトリを追加して作業をしました。javadoc を登録しておいたのでコード補完の時にドキュメントの内容が表示されて楽チンだったのですが、プロジェクトディレクトリを tar でまとめて別の場所で開いたときにライブラリが参照ができなくなりました。参照を解決するのは簡単なのですが、開くたびにライブラリ参照を解決する必要があるのもあまり良くないですし、最終的には Subversion なり CVS を介して他のメンバーとファイルを共有するので、このままではうまくありません。
ライブラリ参照の情報を最初にプロジェクトを作った環境に依存しない形で保持したいのですが、今のところ良い方法が思いつかず、Ant スクリプトを作った上で NetBeans から「既存の Ant スクリプトを使用する Java プロジェクト」として開くように変更しているところです。
Posted by keiichio
( 10月 12日 2007年, 06:21:34 午後 JST )
Permalink
投稿されたコメント [0]