複雑なHTMLと対峙する方法。
Webサイトの作成をやっていますと、
既存のWebをどうにかして欲しいという依頼があります。
もうそのサイトを作った業者との契約は無く、お客様が頑張ってhtmlを解析しても理解できず、
お手上げで弊社にお話しを頂くことも。
他の人が作ったhtmlを解析するのは難しいことです。
htmlを解析する方法には
Firefoxのアドオン”Firebug”
タグを色づけして見やすくしてくれるエディタ”mi”がありますが、
基本的なhtmlの知識がなければなりません。
そこで万能では無いのですが、整形してくれる良いソフトがあります。
Javaで出来ていますのでJavaがインストールされた環境でターミナルから実行します。
上記サイトの説明ではwgetでダウンロードしてパイプで渡していますが、
ローカルのファイルでも実行可能です。
cat bad.html | java -jar tagsoup-1.2.jar > good.html
bad.htmlが入力ファイルgood.htmlが処理後のコードが格納されるファイルです。
catでbad.htmlの中身を読み出し、パイプでtagsoupに渡して出力をgood.htmlにしています。







