pythonのfeedparserを使う


インストール

progdmac% sudo easy_install feedparser


スクリプト

#! /usr/bin/env python
# coding: utf-8

import feedparser

def get_links(feed_url, log_file):
  """
  指定したURLのフィードからlinkを抜き出して、そのリストを返す。
  ログファイルに既に存在するlinkはリストに含めない。
  抜き出したlinkはログファイルに保存する。
  """  

  file = open(log_file, 'r')
  log_list = file.readlines()
  file.close()

  feed_list = feedparser.parse(feed_url)
  link_list = []
  for feed in feed_list.entries:
    if (feed['link'] + '\n') not in log_list:
      link_list.append(feed['link'])

  file = open(log_file, 'a')
  file.write('%s\n' % '\n'.join(link_list))
  file.close()

  return link_list

if __name__ == '__main__':
  feed_url = 'http://d.hatena.ne.jp/progd/rss'
  print get_links(feed_url, '/var/log/hoge.log')


適当だけどとりあえず使える。