Rivers know this: there is no hurry. We shall get there some day.
河流知道這一點:無需匆忙。我們終有一日會到達(dá)。———— A. A. Milne
爬蟲如何識別網(wǎng)頁的正文部分?比如寫一個python爬蟲去抓百度搜索結(jié)果列表中的網(wǎng)頁數(shù)據(jù), 然后從這些網(wǎng)頁中提取出正文部分(比如新聞資訊的文章部分),是否可以實現(xiàn)?能實現(xiàn)的話應(yīng)該如何去做?百度新聞中,每條信息都會顯示有多少條重復(fù)數(shù)據(jù),這個應(yīng)該是百度抓取的每個頁面的正文部分吧。所以這個功能是可能實現(xiàn)的。抓回一個頁面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個思路是:1...
這兩天抽空完成了定時發(fā)布功能的設(shè)置部分,比如添加定時,刪除定時,顯示當(dāng)前已定時任務(wù)。定時功能由主菜單選擇進(jìn)入增加一條定時任務(wù)命令格式:add 日期時間 發(fā)布內(nèi)容如add 2014-11-05/08:00:00 這是一條微博!顯示當(dāng)前任務(wù)列表命令為show,列出當(dāng)前任務(wù)的索引編號、定時時間、發(fā)布內(nèi)容。刪除某條任務(wù),命令格式:del 索引編號如del 1基本實現(xiàn)代碼:#定時發(fā)布任務(wù)設(shè)置p ...
這兩天研究了下python的騰訊微博sdk,突然就想到是否可以用python寫個微博管家小腳本,可以實現(xiàn)通過python來發(fā)布微博。然后感覺可行,而且應(yīng)該可以把功能做的更多。所以就開始倒騰了。目前基本的代碼是寫完了,還需要一些時間去完美,實現(xiàn)一些交互控制?,F(xiàn)在先寫個功能大綱,記錄一下。目前已實現(xiàn)的功能:1.定時發(fā)送微博:通過CLI中輸入要定時發(fā)布的日期與時間,輸入要發(fā)布的文字,然后程序...
寫的一個爬蟲練習(xí),目的是抓取目標(biāo)站點下所有鏈接, 并記錄下問題鏈接url(包括問題url,入口鏈接,http狀態(tài)碼)??梢宰孕性O(shè)置線程數(shù)量,程序開啟一個子線程來維護(hù)當(dāng)前線程數(shù)量。之前還好點兒,現(xiàn)在是越改bug越多,問題越多。目前發(fā)現(xiàn)的問題有:1.線程的管理上,之前用傳統(tǒng)的方法,三個for循環(huán)來創(chuàng)建固定數(shù)量線程,不過發(fā)現(xiàn)如果某線程拋出異常后,線程終止,總線程數(shù)就會減少。所以自己改成了...
發(fā)現(xiàn)有人居然在試探下載我博客的源碼包,查了那家伙的IP,發(fā)現(xiàn)有一個網(wǎng)站,所以簡單寫了個python腳本,利用python的threading與urllib2庫進(jìn)行瘋狂請求,不知道這算不算是攻擊的一種,反正在運行時它的站倒是挻慢的。。哈哈。。。#coding: gbkimport urllib2import osimport threadingimport timedef ddos(): while True: #我還是把人家地址給匿了吧。。。 req = urllib2.urlopen('ht...
Python Challenge是一個網(wǎng)頁闖關(guān)游戲,通過一些提示找出下一關(guān)的網(wǎng)頁地址。與眾不同的是,它是專門為程序員設(shè)計的,因為大多數(shù)關(guān)卡都要編程來算哦??!從今天開始研究pythonchallenge.com上的題。下面是我對其第0題的解題思路。問題地址:http://www.pythonchallenge.com/pc/def/0.html頁面上只有一張圖片,打眼一看是238,于是直接訪問238.html,會提示“No… the 38 is a little bit abo...
在手機上敲代碼純屬娛樂,輸入速度比較蛋疼,不過裝上玩玩也好。所以一直想找個可以在android安卓手機上編輯和運行python的軟件。之前就嘗試安裝過qpython,不過是基于python2.7的。我是學(xué)習(xí)的python3,所以就一直沒用。今天在三星app商店里找到了基于python3.2版本的qpython3,所以在這里拿出來分享給各位安卓控們。以下是兩個軟件的部分截圖,功能很全。在手機上玩python的利器,Qpy...