在线免费,а天堂中文一区二区在线,JAPANESEHD熟女熟妇伦

當前位置：博客首頁>>Python >> 閱讀正文

爬蟲如何識別網頁的正文部分？

作者: 鄭曉分類: Python 發(fā)布于: 2014-11-19 22:30 瀏覽：7,892 評論(3)

爬蟲如何識別網頁的正文部分？

比如寫一個python爬蟲去抓百度搜索結果列表中的網頁數(shù)據(jù)，然后從這些網頁中提取出正文部分（比如新聞資訊的文章部分），是否可以實現(xiàn)？能實現(xiàn)的話應該如何去做？

百度新聞中，每條信息都會顯示有多少條重復數(shù)據(jù)，這個應該是百度抓取的每個頁面的正文部分吧。所以這個功能是可能實現(xiàn)的。

抓回一個頁面的數(shù)據(jù)，如何匹配出正文部分，鄭曉在下班路上想了個思路是：

1. 提取出body標簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標簽(包括標簽內不含中文的)–>獲取結果。

2. 直接匹配出非鏈接的、符合在div、p、h標簽中的中文部分？？？

還是會有不少其它多余信息啊，比如底部信息等。。如何搞？不知道大家有木有什么思路或建議？

? ? ? ?

本文永久鏈接: http://yjfs.org.cn/python-spider-shibie-wenzhang.html

我就是個過客：發(fā)表于 2015年11月19日 15:40[回復]

正文部分解決了嗎？
看看，我現(xiàn)在頁面都down下來了，但是正文解析還是不是十分的準確。
語義識別應該也算是人工智能的一部分。

春熙路：發(fā)表于 2014年11月28日 19:49[回復]

過來看看、python好學不？

鄭曉：發(fā)表于 2014年11月29日 16:37[回復]

還算比較簡單的一門語言，非常優(yōu)美