python抓取糗百信息并入庫(kù)mysql
作者: 鄭曉 分類: Python 發(fā)布于: 2013-12-24 17:19 瀏覽:10,950 評(píng)論(7)
這里抓取的頁(yè)面是糗百的最近8小時(shí)糗事頁(yè)面。感覺(jué)它的列表規(guī)則比較簡(jiǎn)單一些。學(xué)習(xí)pytho的urllib庫(kù)基本操作與mysql的基礎(chǔ)使用。
連接mysql使用的是mysql自家的connector。http://dev.mysql.com/doc/connector-python/en/index.html
環(huán)境win2003+python3.3代碼如下。
#導(dǎo)入urllib、mysql和正則類庫(kù)
import urllib.request
import mysql.connector
import re
#設(shè)置要抓取的頁(yè)面
url="http://www.qiushibaike.com/8hr/page/1"
#模擬訪問(wèn)頁(yè)面,抓取頁(yè)面內(nèi)容到page變量中
response=urllib.request.urlopen(url)
page=response.read()
#匹配糗事正文及圖片的正則
p = re.compile(r'
[^<]+)*)<\/div>(?=\s*
本文采用知識(shí)共享署名-非商業(yè)性使用 3.0 中國(guó)大陸許可協(xié)議進(jìn)行許可,轉(zhuǎn)載時(shí)請(qǐng)注明出處及相應(yīng)鏈接。
本文永久鏈接: http://yjfs.org.cn/information-python-crawling-embarrassing-one-hundred-and-storage-mysql.html
python抓取糗百信息并入庫(kù)mysql:目前有7 條留言
我的數(shù)據(jù)庫(kù)老是出問(wèn)題,不知道怎么回事
學(xué)習(xí)一下,關(guān)于python的博客好少啊
?? ?? 很好很好
又是一個(gè)搞運(yùn)維的啊。。。
python沒(méi)用過(guò),看來(lái)真要學(xué)習(xí)一下
沒(méi)看懂這個(gè)是什么意思?
獲取url的內(nèi)容,然后正則找出當(dāng)前頁(yè)所有的糗事信息,再入庫(kù)。 用正則寫的麻煩了,后來(lái)發(fā)現(xiàn)用BeautifulSoup庫(kù)更方面。