當前位置:博客首頁>>Python >> 閱讀正文

爬蟲如何識別網頁的正文部分?

作者: 鄭曉 分類: Python 發(fā)布于: 2014-11-19 22:30 瀏覽:7,892 評論(3)


爬蟲如何識別網頁的正文部分?

比如寫一個python爬蟲去抓百度搜索結果列表中的網頁數(shù)據(jù), 然后從這些網頁中提取出正文部分(比如新聞資訊的文章部分),是否可以實現(xiàn)?能實現(xiàn)的話應該如何去做?

百度新聞中,每條信息都會顯示有多少條重復數(shù)據(jù),這個應該是百度抓取的每個頁面的正文部分吧。所以這個功能是可能實現(xiàn)的。

抓回一個頁面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個思路是:

1. 提取出body標簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標簽(包括標簽內不含中文的)–>獲取結果。

2. 直接匹配出非鏈接的、 符合在div、p、h標簽中的中文部分???

還是會有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?

? ? ? ?

本文采用知識共享署名-非商業(yè)性使用 3.0 中國大陸許可協(xié)議進行許可,轉載時請注明出處及相應鏈接。

本文永久鏈接: http://yjfs.org.cn/python-spider-shibie-wenzhang.html

爬蟲如何識別網頁的正文部分?:目前有3 條留言

用戶評論頭像 我就是個過客發(fā)表于 2015年11月19日 15:40[回復]

正文部分解決了嗎?
看看,我現(xiàn)在頁面都down下來了,但是正文解析還是不是十分的準確。
語義識別應該也算是人工智能的一部分。

用戶評論頭像 春熙路發(fā)表于 2014年11月28日 19:49[回復]

過來看看、python好學不?

    用戶評論頭像 鄭曉發(fā)表于 2014年11月29日 16:37[回復]

    還算比較簡單的一門語言,非常優(yōu)美 :mrgreen:

發(fā)表評論

change vcode