Python

UnicodeEncodeError:でハマる

Pythonのコードをテストする時はコマンドプロンプト上で実行結果を確認しながらの作業をしているんだけど、ある実行結果を表示する部分で UnicodeEncodeError: 'cp932' codec can't encode character u'\u2014' in position 21: illegal multibyte sequence …

文字列検索

import re をして、 if re.search( findStr, targetString ) != None : print "見つけた!" else print "見つからない" 正規表現検索で使用するらしいけど、通常の文字列検索にも使える。便利!

PythonでXMLの要素を抜き出す[RSSからでしょ編]

PythonでXMLの要素を抜き出す このアプローチでは問題があることに気付いた!RSS配信されているニュースは、そのXMLをパースして処理した方が確実で効率的。 いちいちニュースサイトのレイアウト解析して、ニュースのリンクのみ抜き出して・・って時代じゃな…

おお!心強いぞ

Pythonの基本を一通り勉強した人が次に読む記事を目指して書く予定。 Python 2.5を対象とする。 Effective Python 基本も同時進行だ!^^;

PythonでXMLの要素を抜き出す

・XMLを解析し必要なデータ(URL、タイトル等)を集める ・検索をかけるページのデータを受信する(http) ・検索範囲を特定し検索を行う(文字コードに注意する)おおまかに分けてこの3つをクリアする必要がある。 まずは、XMLの解析なのですが、ここでは…

PythonでXMLを操作する

今の仕事で、RSS形式のURL一覧から指定文字列が見つかるリンクのみを抽出する処理を全てC++で1件ずつダウンロードして、本文から検索してっていうアプローチでとてもパフォーマンスが悪い。 だから、ダウンロードせずにサーバー側で抽出を行って、その結果…