feedparserについて
RSS、ATOM、CDFをパースするためfeedparserをインストールする。
feedparser-4.1がハンドリング可能なRSSなど
- RSS 0.90
- Netscape RSS 0.91
- Userland RSS 0.91
- RSS 0.92
- RSS 0.93
- RSS 0.94
- RSS 1.0
- RSS 2.0
- Atom 0.3
- Atom 1.0
- CDF
feedparser-4.1インストール
feedparserの最新版 をダウンロードしてfeedparser-4.1ディレクトリに置きます。ディレクトリはダウンロード前に用意しておきます。:
# mkdir feedparser-4.1 最新版をダウンロードする。 # cd feedparser-4.1 # unzip feedparser-4.1.zip # python2.3 setup.py install
使用例
- RSSの内容:
<rdf:RDF> <channel rdf:about="http://papasan.org/papablog/RSS"> <title>Papasanブログ</title> <link>http://papasan.org</link> <description> </description> <syn:updatePeriod>hourly</syn:updatePeriod> <syn:updateFrequency>1</syn:updateFrequency> <syn:updateBase>2006-07-04T13:39:35Z</syn:updateBase> <image rdf:resource="http://papasan.org/logo.png"/> <items> <rdf:Seq> <rdf:li rdf:resource="http://papasan.org/papablog/160"/> <rdf:li rdf:resource="http://papasan.org/papablog/159"/> <rdf:li rdf:resource="http://papasan.org/papablog/156"/> <rdf:li rdf:resource="http://papasan.org/papablog/155"/> <rdf:li rdf:resource="http://papasan.org/papablog/154"/> <rdf:li rdf:resource="http://papasan.org/papablog/153"/> <rdf:li rdf:resource="http://papasan.org/papablog/149"/> <rdf:li rdf:resource="http://papasan.org/papablog/146"/> <rdf:li rdf:resource="http://papasan.org/papablog/145"/> <rdf:li rdf:resource="http://papasan.org/papablog/131"/> </rdf:Seq> </items> </channel> <item rdf:about="http://papasan.org/papablog/160"> <title>新しいタイプのトラックバックスパム</title> <link>http://papasan.org/papablog/160</link> <description> 今までは英語圏からのものと思われるトラックバックスパムばかりでしたが、今朝のものは国内からのスパムのようです。 「PINGサーバー完成?」 のエントリに対して送りつけられました。 エントリ及び当サイトの内容とは無関係でしたのでスパムフィルタが弾いたも... </description> <dc:publisher>No publisher</dc:publisher> <dc:creator>papasan</dc:creator> <dc:rights/> <dc:date>2006-07-04T22:03:36Z</dc:date> <dc:type>COREBlog Entry</dc:type> </item> | 以下省略 | - Pythonインタプリタにて簡易的に行なったもの。:
$ python2.3 >>> import feedparser,japanese >>> kcode = 'euc_jp' >>> d = feedparser.parse("http://papasan.org/papablog/RSS") >>> e = d.entries[0] >>> print e.title.encode(kcode) 新しいタイプのトラックバックスパム >>> print e.link.encode(kcode) http://papasan.org/papablog/160 >>> print e.description.encode(kcode) 今までは英語圏からのものと思われるトラックバックスパムばかりでしたが、今朝のものは国内からのス パムのようです。 「PINGサーバー完成?」 のエントリに対して送りつけられました。 エントリ及び当サ イトの内容とは無関係でしたのでスパムフィルタが弾いたも... >>> - より詳しい使用方法は「Universal Feed Parser」のサイト へ。