2011年9月19日月曜日

html2txt: HTML ファイルからテキスト文章の抽出

html2txt: HTML ファイルからテキスト文章を抽出する例です。

html2txt により抽出されたテキストの例:

html2txt コマンドに与えられる引数(#define USE_LIB 0 としてビルド):

USAGE: html2txt htmlfile [-disp] [-link] [-out textfile] [-url baseurl]
-disp: ファイルに出力される HTML を標準出力(stdout)へ出力するように変更
-link: リンク部のタグを残したまま出力
-out textfile: 出力するファイル名を .txt 等から指定のファイル名に変更
-url baseurl: リンクを出力する際、ベースとなる URL を設定することにより相対参照を絶対参照に変更

ソース等をまとめたもの:DL(html2txt.zip)

html2txt.cpp(HTML 記号をテキストに変換する処理の部分が記号として変換されて表示されているため、上の html2txt.zip に含まれるソースをDLしてご利用ください)

html2txt.h 実行結果

0 件のコメント:

コメントを投稿