lxmlライブラリにあるhtmlパッケージでHTMLファイルからデータを取得する方法を紹介します。
また、HTMLファイルから日本語を取得しようとすると日本語が文字化けします。
文字化けにはcodecsモジュールを用いた解消方法を記載しております。
検証用としてHTMLファイルを用意します。
data:image/s3,"s3://crabby-images/c360c/c360cecc36c15a5a7a550ac65d6baf07ee05ae2d" alt="lxml 検証用HTMLファイル"
lxmlのインストール
pipコマンドでlxmlライブラリをインストールします。
>pip install lxml
data:image/s3,"s3://crabby-images/c506c/c506c017c588eda6526cbb9ac3999fe53bd74bee" alt="pip install lxml"
HTMLファイルからデータの取得(read)
import glob
from lxml import html
for file in glob.glob(r"C:\Users\python\Desktop\html\test.html"):
with open(file, mode='rb') as g:
t = html.fromstring(g.read())
text = t.text_content().strip()
print(text)
上記コマンドを実行すると以下のように出力されます。
data:image/s3,"s3://crabby-images/318ed/318ed65cd6f5f30573939a4d5ec93cd978850fee" alt=""
text_content()はテキストコンテンツをマークアップなしで返してくれます。
この記述がないと「<Element html at 0x1f355a9d680>」というように返されます。
4行目のfor~で処理をループさせることで同フォルダに入れた複数のHTMLファイルを
一度に実行することができます。
data:image/s3,"s3://crabby-images/80918/80918434465d0d064ce01dcf0e3bdbb4108dfea4" alt="lxml htmlファイル"
data:image/s3,"s3://crabby-images/9f235/9f23552c1bf8fa6a00cdf2e6b6dba29ff44e1a21" alt=""
HTMLファイルからデータの取得(readlines)文字化け対応
read()でHTMLファイルを読み込むと日本語も正しく日本語表示されますが
readlines()で日本語部分を取得しようとすると文字化けが発生します。
data:image/s3,"s3://crabby-images/10f0a/10f0a2fc3a0dd481b0d1b6cb93f31e0862b91496" alt=""
日本語が文字化けしてしまった場合はcodecsモジュールで解消します。
import glob
import codecs
from lxml import html
for file in glob.glob(r"C:\Users\python\Desktop\html\test.html"):
with open(file, mode='rb') as g:
t = html.fromstring(g.readlines()[7].decode('utf_8'))
text = t.text_content().strip()
print(text)
data:image/s3,"s3://crabby-images/bc779/bc77996cf8fc88262eb3bb1bce548ee4ffe50ba3" alt=""
上記のように日本語が文字化けしているときはデコードさせましょう。
codecs.decodeで「utf_8」を指定して元の日本語文字に復元させることができました。
タイトルとURLをコピーしました
コメント