网页信息抓取软件(用feed43自制一个Feed使用(1)生成格式的XML文件)
优采云 发布时间: 2021-10-24 13:02网页信息抓取软件(用feed43自制一个Feed使用(1)生成格式的XML文件)
FEED43 是一个在线应用程序,它可以为不提供提要供读者订阅的网页生成 RSS 格式的提要。@Appinn
如果您最喜欢的 网站 没有提要来源怎么办?Feed43 解决您的烦恼。对于很多上班族来说,关注重要的网站通知和公告是日常工作的必修课。但是,许多官方 网站 不提供提要来源。使用Feed43可以为没有feed的网页生成rss格式。的提要地址,可以解决您的烦恼。
Feed43的作用是将网页中你需要的信息如图(1))转换成代码(2)生成RSS格式的XML文件,使用自己的RSS阅读器(推荐阅读:Google Reader时代后在线阅读器推荐)可以阅读表格部分(3).
Feed43 有详细的教程。虽然不是傻瓜式的操作,但是理解网页代码的概念还是比较简单的。Item (repeatable) Search Pattern 中填写的{%} 代表您需要的动态信息,而不是{*} 代表任何其他代码的通配符。
名词解释:feed是信息源地址,比如小众软件的订阅地址,格式可以是rss,atom。
示例:以我最喜欢的软件页面为例。由于没有提供feed,用户不知道什么时候更新,所以我们用feed43做一个feed供使用。
首先输入页面地址:,代码“utf-8”,点击Reload,可以看到页面代码。我们的目的是检测页面更新。其实我们只需要检测到分类增加了,于是找到分类链接代码:
可以发现分类链接代码都是规则,所以在第二步Step 2.定义抽取规则我们输入
意思是:find,让后面的href双引号的内容成为第一个参数,anchorLink">前面的内容是任意的,后面的内容变成第二个参数,span之间的内容变成第三个参数,最后一个两个A*也是任意值(代码中有换行符),点击Extract,可以看到第三部分:
简单设置后,注意连接第二个和第三个参数:
自制版提要成功:
还可以自定义提要地址,比如当前的:可以直接使用。
那么,我最喜欢的软件页面有Feed功能,欢迎订阅:
多研究几页,你会发现这很容易。这样折腾下来,比如一些有特殊信息的页面,用ifttt发送到邮箱,以后再也不会丢失信息了。
相关链接: