实时抓取网页数据(我的Java,什么的都很熟悉谢谢-- )
优采云 发布时间: 2021-11-05 04:03实时抓取网页数据(我的Java,什么的都很熟悉谢谢--
)
如何有效的动态抓取某个网站的数据现在我们需要抓取某个网站的价格信息
比如下页的“参考价”
这只是一个标志,实际数据不是取自这个网站
我目前的做法是使用VB.NET,然后添加HtmlAgilityPack包,通过XPath获取值,如
Util.GetNodeValue(v_doc,"/html/body/div[2]/div[5]/div[1]/div/table/tr[10]/td")
但是因为对方的网站经常打折,网页经常会有一些小改动,每次都要手动改Xpath
我想知道有没有更好的方法来处理这个,不使用.Net也没关系,我对Java、PHP等非常熟悉。
谢谢--------------------编程问答--------------------本文属于网络爬虫程序范围,助你登顶。--------------------编程问答 --------------------没有人回答?那我自己就喜欢了,我觉得就算用xpath还是有改进的空间
比如上面使用的绝对路径其实可以改成这样
//div[@class='roundCornerBox']/descendant-or-self::table/descendant::font[@class='BlackH4'and@color='#CC0000']
感觉灵活了很多,简单的页面更改对此没有影响
补充:.NET技术 , VB.NET