爬蟲如何識別網頁的正文部分?
作者: 鄭曉 分類: Python 發(fā)布于: 2014-11-19 22:30 瀏覽:7,892 評論(3)
爬蟲如何識別網頁的正文部分?
比如寫一個python爬蟲去抓百度搜索結果列表中的網頁數(shù)據(jù), 然后從這些網頁中提取出正文部分(比如新聞資訊的文章部分),是否可以實現(xiàn)?能實現(xiàn)的話應該如何去做?
百度新聞中,每條信息都會顯示有多少條重復數(shù)據(jù),這個應該是百度抓取的每個頁面的正文部分吧。所以這個功能是可能實現(xiàn)的。
抓回一個頁面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個思路是:
1. 提取出body標簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標簽(包括標簽內不含中文的)–>獲取結果。
2. 直接匹配出非鏈接的、 符合在div、p、h標簽中的中文部分???
還是會有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?
? ? ? ?
本文采用知識共享署名-非商業(yè)性使用 3.0 中國大陸許可協(xié)議進行許可,轉載時請注明出處及相應鏈接。
本文永久鏈接: http://yjfs.org.cn/python-spider-shibie-wenzhang.html
正文部分解決了嗎?
看看,我現(xiàn)在頁面都down下來了,但是正文解析還是不是十分的準確。
語義識別應該也算是人工智能的一部分。