自动抓取网页数据(FirstIam)
优采云 发布时间: 2021-12-01 20:14自动抓取网页数据(FirstIam)
我有兴趣提取新闻中报道的超自然活动数据,以便我可以分析任何相关性的空间和时间数据。分析与发生的空间和时间相关的任何数据。这个项目只是为了好玩,学习和使用网页抓取、文本提取和空间和时间相关分析。这个项目只是为了好玩,学习和使用网页抓取、文本提取和空间和时间相关分析。所以请原谅我决定了这个话题,我想做一些有趣且具有挑战性的工作。所以请原谅我决定了这个话题,我想做一些有趣且具有挑战性的工作。首先我发现这个网站有一些报告的超自然现象的集合,他们有2009、2010、2011和201的集合2. 网站的结构是这样的,他们每年都有1..10页面...和链接是这样的2009年链接 首先,我发现网站采集了一些关于超自然现象的报告。他们采集了 2009、2010、2011 和 2012 年。 网站 的结构每年有 1..10 页,就像这样......以及像这样链接到 year2009 的链接
在每个页面中,他们都采集了标题下的故事,例如内部结构超自然活动,发布时间为 03-14-09,每个标题行内都有两页......就像这个链接标题下的所有采集的故事: “内部结构超自然活动”,发表于 09 年 3 月 14 日,每行两页。 类似于这个链接od/paranormalgeneralinfo/a/news_090314n.htm
在这些页面中的每一个页面上,他们都有在各种标题上采集的实际报道故事......以及这些故事的实际网站链接。在每一页上,他们都有在各种标题上采集的实际报道故事。以及指向这些故事的实际 网站 链接。我有兴趣采集那些报告的文本,并提取有关鬼魂、恶魔或 UFO 等超自然活动类型以及事件发生的时间、日期和地点的信息。 、恶魔或不明飞行物)以及有关事件时间、日期和地点的信息。我希望分析这些数据的任何空间和时间相关性。我希望分析这些数据的任何空间和时间相关性。如果 UFO 或 Ghosts 是真实的,那么它们的运动中必须有一些行为和空间或时间的相关性。这是故事的远景……这是故事的远景……
我需要帮助来抓取上述页面中的文本。我需要帮助来抓取上述页面的文本形式。在这里,我写下了跟随一页的代码及其链接到我想要的最后一个文本。任何人都可以让我知道有没有更好更有效的方法来从最后一页获取干净的文本。任何人都可以让我知道有没有更好更有效的方法来从最后一页获取干净的文本。还可以通过跟踪整个 200 的所有 10 页来自动采集文本9. 还可以通过跟踪整个 200 的所有 10 页来自动采集文本9.
我衷心感谢您阅读我的帖子以及您花时间帮助我。对于任何愿意在整个项目中指导我的专家,我都会非常满意。对于任何愿意在整个项目中指导我的专家,我都会非常满意。
关于 Sathish 的问候 Sathish