Personal tools
You are here: Home サーバー Pingサーバー feedparserについて
Navigation

今の天気
  14℃ 41% 1024hPa WNW 3m
福岡地方の今の天気
« November 2008 »
Su Mo Tu We Th Fr Sa
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
最近のログイン

Papasan
2008/11/22 11:45

Guest
2008/11/12 15:50

seko
2008/11/11 20:05

Reiko
2008/11/02 16:58

hage88
2008/10/19 17:39

Peter
2008/10/06 21:22

猫さん。
2008/10/06 04:19

 
Document Actions

feedparserについて

by Papasan last modified 2008-11-19 16:37

RSS、ATOM、CDFをパースするためfeedparserをインストールする。

feedparser-4.1がハンドリング可能なRSSなど

  • RSS 0.90
  • Netscape RSS 0.91
  • Userland RSS 0.91
  • RSS 0.92
  • RSS 0.93
  • RSS 0.94
  • RSS 1.0
  • RSS 2.0
  • Atom 0.3
  • Atom 1.0
  • CDF

feedparser-4.1インストール

feedparserの最新版 をダウンロードしてfeedparser-4.1ディレクトリに置きます。ディレクトリはダウンロード前に用意しておきます。:

  # mkdir feedparser-4.1
  最新版をダウンロードする。
  # cd feedparser-4.1
  # unzip feedparser-4.1.zip
  # python2.3 setup.py install

使用例

  • RSSの内容:
      <rdf:RDF>
        <channel rdf:about="http://papasan.org/papablog/RSS">
          <title>Papasanブログ</title>
          <link>http://papasan.org</link>
          <description> </description>
          <syn:updatePeriod>hourly</syn:updatePeriod>
          <syn:updateFrequency>1</syn:updateFrequency>
          <syn:updateBase>2006-07-04T13:39:35Z</syn:updateBase>
          <image rdf:resource="http://papasan.org/logo.png"/>
          <items>
            <rdf:Seq>
              <rdf:li rdf:resource="http://papasan.org/papablog/160"/>
              <rdf:li rdf:resource="http://papasan.org/papablog/159"/>
              <rdf:li rdf:resource="http://papasan.org/papablog/156"/>
              <rdf:li rdf:resource="http://papasan.org/papablog/155"/>
              <rdf:li rdf:resource="http://papasan.org/papablog/154"/>
              <rdf:li rdf:resource="http://papasan.org/papablog/153"/>
              <rdf:li rdf:resource="http://papasan.org/papablog/149"/>
              <rdf:li rdf:resource="http://papasan.org/papablog/146"/>
              <rdf:li rdf:resource="http://papasan.org/papablog/145"/>
              <rdf:li rdf:resource="http://papasan.org/papablog/131"/>
            </rdf:Seq>
          </items>
        </channel>
        <item rdf:about="http://papasan.org/papablog/160">
          <title>新しいタイプのトラックバックスパム</title>
          <link>http://papasan.org/papablog/160</link>
          <description>
              今までは英語圏からのものと思われるトラックバックスパムばかりでしたが、今朝のものは国内からのスパムのようです。 「PINGサーバー完成?」 のエントリに対して送りつけられました。 エントリ及び当サイトの内容とは無関係でしたのでスパムフィルタが弾いたも...
          </description>
          <dc:publisher>No publisher</dc:publisher>
          <dc:creator>papasan</dc:creator>
          <dc:rights/>
          <dc:date>2006-07-04T22:03:36Z</dc:date>
          <dc:type>COREBlog Entry</dc:type>
        </item>
        |
        以下省略
        |
    
  • Pythonインタプリタにて簡易的に行なったもの。:
      $ python2.3
      >>> import feedparser,japanese
      >>> kcode = 'euc_jp'
      >>> d = feedparser.parse("http://papasan.org/papablog/RSS")
      >>> e = d.entries[0]
      >>> print e.title.encode(kcode)
      新しいタイプのトラックバックスパム
      >>> print e.link.encode(kcode)
      http://papasan.org/papablog/160
      >>> print e.description.encode(kcode)
      今までは英語圏からのものと思われるトラックバックスパムばかりでしたが、今朝のものは国内からのス パムのようです。 「PINGサーバー完成?」 のエントリに対して送りつけられました。 エントリ及び当サ イトの内容とは無関係でしたのでスパムフィルタが弾いたも...
      >>>
    
  • より詳しい使用方法は「Universal Feed Parser」のサイト へ。