c#抓取网页数据(想做爬虫工具?是做的公司的一个项目是从网上抓数据 )

优采云 发布时间: 2022-03-01 04:10

  c#抓取网页数据(想做爬虫工具?是做的公司的一个项目是从网上抓数据

)

  C#抓取网页数据问题我写了一个小程序来抓取网页上的内容。从数据库中读出 2600 个 ID。然后循环读取ID,拼接到网站的URL中。然后使用正则表达式来匹配网页中的内容。将读取的数据存储在数据库中。大致相同的过程。现在我的问题是程序运行一次后,只读取了2100条ID数据。还有 500 件物品没有被捕获。这500有的没有数据,有的有404,我能理解。但是,有一些 ID 可以找到数据。程序获取到这些正常ID的HTML代码后,使用正则表达式进行匹配,但没有匹配到数据。我认为这是一个正则表达式问题。我选择了一个普通的ID来测试,原来的正则表达式可以得到正确的内容。这是怎么回事啊。征求专家意见。--------------------编程Q&A--------------------想做爬虫工具?--------------------编程问答-------------------- 引用1日rui_china的回复楼:觉得做爬虫工具吗?

  该公司的项目之一是从互联网上抓取数据并将其放入我们的数据库中。--------------------编程问答--------------------不要依赖正则表达式,编写自己的方法。以前用VB写太多找不到规律--------编程问答---------- -------- -- 测试在什么情况下正则化失败。. -------------------- 编程问答-------------------- 不知道发生了什么。

  但是您可以编写一个“警报”功能。当获取到网页的html内容,但是没有解析数据时,应该记录日志!-------------------- 编程问答-------------------- 无论如何,如果你不能准确重现错误很难解决。因此,捕捉问题的方法更为重要。去csdn解决不了那种连自己都难以复现的问题,在没有得到具体数据的情况下让别人猜测。--------------------编程Q&A--------这样应该通过多线程来完成. 我怀疑您的程序在运行时丢失了。可以记录抓取到的id的网页,看看这些网页是否没有被分析过。---------编程问答 A-------- ------------- 最近在帮公司写一个比价程序,和你说的差不多。使用 HtmlAgilityPack。

  补充:.NET技术 , C#

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线