抓取网页生成电子书(网站没有输出Feed(Feed)RSS阅读器)

优采云 发布时间: 2021-12-05 07:05

  抓取网页生成电子书(网站没有输出Feed(Feed)RSS阅读器)

  我一直在关注某个网站,但是发现网站不输出提要,我还能用RSS阅读器订阅吗?

  如果你现在看三好市民的RSS阅读器,你会发现你订阅了各种网站,甚至包括微博,有的只是订阅了网站的某个版块或页面,并且这些部分和页面不提供 RSS 提要,也不输出提要。那么三好市民是如何订阅的呢?

  这需要借助在线工具Feed43,理论上可以通过Feed43生成任意网页的RSS提要,从而订阅任意网页。以下三位好公民以他们的订阅之一为例进行演示:

  例如,三好市民一直关注中关村在线软件频道的技能申请页面,但该页面不提供RSS订阅。每天都要单独打开页面查看有没有更新文章,很麻烦。现在我们使用 Feed43 从此页面生成 RSS 提要。

  首先访问Feed43网站,点击“创建自己的Feed”链接,打开新的Feed页面。

  第一步:指定源页面地址

  在地址框中输入中关村在线软件频道技能申请页面的网址。如图:

  

  在后面的编码框中填写网页的编辑类型,通过查看网页源文件头部的代码可以看出该网页是gbk。然后点击“重新加载”按钮,在下面的文本框中显示当前的否定源代码。

  步骤 2:定义提取规则

  我们先观察网页的源码,找到需要订阅的文章列表的代码,然后找到规则,再总结成符合Feed43要求的抽取规则。例如,本网页的文章列表部分中每个文章条目的代码为:

  1

2

3

4

5

6

7

8

9

10

11

12

  

学长教你升级XP Win8.1系统安装指南<p class="nlc_time">2014年04月12日 05:42 作者:马荣 【原创】

  XP已经在几天前正式退休了,所以经常找学长帮忙的重装电脑的学弟学妹们也要犯愁了。其实完全没有必要,因为我们干脆直接升级到Win8.1就能解决所有的问题了。现在作为一个大学长,我们现在就教大... [详细]

<br />

标签:最新  |  应用技巧  |  win8应用  |  桌面软件

查看全文我要评论(4)http://soft.zol.com.cn/446/4466341.html

</p>

  其中,对我们订阅有用的无非是文章的标题和链接,最多加上发布时间。然后根据Feed43的抽取规则,我们用{%}表示需要的部分,用{*}表示不需要的部分。从而总结出以下抽取规则并输入到“项目(可重复)搜索模式”框中。

  1

  {*}{%}<p class="nlc_time">{%}{*}{*}</p>

  如图:

  

  有朋友可能会问,上面还有没有填写的“全局搜索模式”设置框?其实这个框可以留空,也可以只填文章列表部分开头的代码和结果,中间加{%},例如:

  1

  {%}

  然后点击“提取”按钮,预览根据您定义的提取规则捕获的提要内容。

  第 3 步:定义输出格式

  Feed43 会自动生成这个页面上的feed 的标题名称、链接地址和描述,feed 的内容格式需要自己定义。根据步骤2预览的Feed内容,填写对应的入口代码。如图:

  

  最后,单击“预览”按钮以定义格式预览提要内容。

  第 4 步:获取 RSS 提要提要

  现在您已经完成了,您已经可以看到生成的 xml 格式的 RSS 提要文件。如图:

  

  复制xml文件的链接地址,然后就可以在RSS阅读器中添加订阅了。添加后订阅效果如图:

  

  最后提醒一下,虽然三好市民还没有经过验证,但是为了保证你新创建的Feed可以正常更新,最好先注册一个Feed43账号,然后点击底部的“Add this feed to my account”在您刚刚创建提要的页面上,然后将其放入将提要添加到您的帐户中。您也可以登录您的Feed43账号,点击窗口上方的“我的订阅源”,然后点击“添加订阅源到您的帐号/取消删除订阅源”,在xml后缀前填写数字“72806”在这个例子中为“Feed Name”可以。不过免费用户的feed更新频率是6小时,升级为付费用户后可以增加到1小时。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线