字形		¢	£	¬	‖	−	〜	―	〜(JIS X 0212)
マッピング	Windows-31J, MS932	\uFFE0	\uFFE1	\uFFE2	\u2225	\uFF0D	\uFF5E	\u2015	−
	SJIS	\u00A2	\u00A3	\u00AC	\u2016	\u2212	\u301C	\u2014	−
	EUC-JP	\u00A2	\u00A3	\u00AC	\u2016	\u2212	\u301C	\u2014	\uFF5E
	EUCJP-OPEN	\u00A2	\u00A3	\u00AC	\u2016	\u2212	\u301C	\u2014	\uFF5E

RSSをパースしているexpatの文字コードがUTF-8なのだが、出力するコードページはcp932。
ここで、Unicode マッピングの不整合が発生し、UnicodeEncodeError が起きていると推測。

そこで、解決策には心許ないがマッピングの異なる文字の場合、該当の文字を replace して出力という流れにすることで、出力時のエラーを回避することができた。

これは、コマンドプロンプト出力がcp932によるもので、

Web[EUC-JP]　→　Python[Unicode]　→　出力[cp932]

この時に起こるようだ。
ネットでPythonの文字エンコーディングの問題を検索すると、かなりヒットする。みんなも同じ問題に直面したに違いない。
しかも、Pythonの文字コード、エンコーディング問題は結構「鬼門」らしい。
いいかげん、Unicodeで統一してほしい。
できなくとも、Unicode マッピングは他のと統一してよ M$さん。--;

その場しのぎな解決コードです。すいません。
「―」用replace
output_ok_str = output_ng_str.replace(u"\u2014", u"\u2015").encode('cp932')
「¢、£、¬、‖、−、〜」についても同じようにreplaceを掛けてやる。

2008-07-30

文字列検索

Python

import re

をして、

if re.search( findStr, targetString ) != None :
　　print "見つけた！"
else
　　print "見つからない"

正規表現検索で使用するらしいけど、通常の文字列検索にも使える。便利！

2008-07-30

PythonでXMLの要素を抜き出す[RSSからでしょ編]

Python

PythonでXMLの要素を抜き出す
このアプローチでは問題があることに気付いた！

RSS配信されているニュースは、そのXMLをパースして処理した方が確実で効率的。
いちいちニュースサイトのレイアウト解析して、ニュースのリンクのみ抜き出して・・って時代じゃないよね。-;

ということで再チャレンジ！

新アプローチ手順
１．RSSリンクからXMLをminidomに食わせる
２．あとは前回の方法で、必要なデータを抽出する。

[ Sample.py ]
import urllib2
import sys
from xml.dom import minidom, Node
#今回追加した関数
def urlParse(url):
　# リクエストオブジェクトを構築
　req = urllib2.Request(url)
　# リクエストを送信し、レスポンスを読み出すためのファイルライクなオブジェクトを得る
　opener = urllib2.build_opener()
　#minidomに食わせる
　doc = minidom.parse( opener.open(req) )
　#前回の処理を再利用！
　parseNode( doc )

def parseNode(node):
　titleNodes = node.getElementsByTagName('title')　
　linkNodes = node.getElementsByTagName('link')
　if linkNodes.length == titleNodes.length:
　　i=0
　　while i < linkNodes.length:
　　　print titleNodes[i].firstChild.data + " : " + linkNodes[i].firstChild.data
　　　i+=1
　else:
　　print "Error!"
if __name__ == '__main__':
　#アサヒ・コムの一般社会ニュースRSS
　urlParse( "http://rss.asahi.com/f/asahi_national" )

[実行結果]
社会 - アサヒ・コム : http://www.asahi.com/
アイヌ古式舞踊、ユネスコ無形文化遺産に : http://rss.asahi.com/click.phdo?i=81b1621b1f10ec1caf60b7aa318fb15f
オリオン電機、１１５億円所得隠し指摘　金沢国税局 : http://rss.asahi.com/click.phdo?i=df570a0db77c30cb164211c85b9a201c
「痴漢でっちあげ」女に懲役４年求刑　大阪地検 : http://rss.asahi.com/click.phdo?i=bc56d932f9a1cdcee1116c60a190c669
市役所内で男性刺され重傷　埼玉・新座 : http://rss.asahi.com/click.phdo?i=19d20156fa1ca25cddf8239bf1d48e03
　:
　:(ry

受信系のライブラリをimportして、あとはサクッと受信したXMLをminidomへ渡せばOK。
よし、RSSからのデータ受信はできたぞ！＾＾