规则采集文章软件(如何查看网页的文章、新闻采集到自己系统里？)

优采云发布时间: 2021-10-20 19:22

　　采集您可以将其他网站的文章和新闻采集放入您的系统。旧系统迁移到新系统时，也可以使用采集到采集将旧系统的数据转移到新系统。

　　系统自带一些网站采集规则，但是如果改变了相关的网站布局，可能会导致采集不正确。

　　原则

　　采集主要分析两种页面：栏目列表页面和文章详细页面。网站的文章一般是按栏目分类的，首先找到你要采集的栏目列表页面，分析页面源码找到文章列表代码，然后分析得到文章的URL地址；然后分析文章详情页的源码，解析出标题、发布日期、正文等数据。

　　如何查看网页的 HTML 源代码

　　在浏览器页面的空白处右击（不要在图片或文字上右击），会弹出一个菜单（个别网站会屏蔽右击），点击“查看页面源代码”菜单中（每个浏览器的名称会略有不同），就会显示页面的HTML源代码。

　　采集列表

　　点击后台功能导航“生成”-“采集管理”进入采集列表页面。

　　采集添加

　　在“采集管理列表”页面点击“添加”。

　　进入采集新页面。

　　名称：采集的名称。

　　保存到列：采集的数据保存到哪一列。

　　页面代码：采集的页面代码。通常为 UTF-8 或 GBK。如果编码设置不正确，会出现乱码。查看你要采集的页面源码确认编码格式，如：。如果页面显示的编码是GB2312，也可以设置为GBK，因为GBK包括GB2312。

　　是否提交：“否”表示采集收到的数据处于“采集”状态，审核后才会在网站上显示；“是”将被视为采集的用户对于提交的数据，如果用户采集拥有最终审核权限，且采集收到的数据在“已发布” state，会直接显示在网站上。

　　间隔时间：采集上一条数据到下一条数据的间隔时间，是最小和最大之间的一个随机数。一些网站会阻塞频繁访问的请求。采集数据期间的随机间隔可以模拟正常用户浏览网站的行为。

　　User Agent：User Agent，模拟浏览器访问的User Agent信息，通常默认为“Mozilla/5.0”。浏览器访问网站时，会携带User Agent信息，其中收录浏览器版本、操作系统版本等信息。有些网站会根据User Agent信息判断是正常用户浏览还是机器爬虫访问。如果是机器爬虫访问网站，网站可能会拒绝访问或返回不同的页面。如果遇到此类问题，可以设置一个更像浏览器访问的User Agent。

　　列表地址：采集的列表页地址。您可以填写多个条目，每行一个。可以使用占位符（*），它将替换为“页码”，例如：（*）.shtml，页数为2到10，相当于....

　　倒序采集：如果页数为2到10，则从第10页采集开始。

　　文章URL地址：从栏目列表页面解析出文章详细页面地址。对于区域HTML，在列表页面选择文章列表的区域；对于入口HTML，从区域HTML中选择文章的详细页面的URL地址。正则表达式：是否通过正则表达式匹配。

　　文章网址地址设置

　　设置“列表地址”后，点击“文章URL地址”处的“设置”，进入设置页面。设置页面可以测试匹配规则，验证匹配规则是否正确。

　　这里有一些乱码。这是新浪的listing页面编码（GB2312）和详细页面编码（UTF-8））不同造成的，因为采集的内容主要是详细页面，所以UTF -8作为采集的页面编码，不影响采集的效果，列表页和详细页的编码相同网站@的情况非常少见> 不一样了，可能是版本在修改，只修改了一半，另一半还没来得及修改。

　　URL地址集：顶部下拉框中显示的是新添加页面采集的“列表页面地址”的URL地址集。如果每个列表页面不完全相同，您可以选择不同的页面来验证匹配规则是否通用。

　　HTML源代码：左侧区域为采集的栏目列表页面的HTML源代码。单击“获取”重新加载当前 URL 地址的 HTML 源代码。

　　Area HTML：首先匹配列表页面的详细页面列表区域。(*) 是一个占位符，代表匹配的内容。匹配规则对空格和换行敏感，可以更好地达到匹配效果。设置好匹配规则后，点击“匹配”，左侧的“HTML 源代码”会显示匹配结果。如果没有达到效果，可以点击“获取”修改匹配规则，重新匹配。对于复杂的页面，你可以勾选“Regular expression or not”来应用java正则表达式。

　　输入HTML：确认区域HTML后，点击区域HTML的“匹配”按钮，左侧“HTML源代码”会显示匹配结果，然后设置输入HTML匹配规则，点击“匹配”，匹配的详细信息会从匹配结果中的区域显示 HTML 页面的 URL。(*) 是一个占位符，代表匹配的内容。这时可以看到左侧“HTML源代码”中显示了详细页面的URL地址，说明匹配规则设置成功。点击“确定”按钮，设置的内容会写回到采集新页面。

　　正则表达式匹配

　　对于复杂的页面，占位符（*）方法可能达不到匹配的效果。这时候就可以使用万能的正则表达式了。勾选“正则表达式”开启正则表达式模式，正则表达式用括号()匹配。

　　因为html收录换行符，不能直接使用。匹配任何字符，但使用 [\d\D] 匹配任何字符。

　　采集字段列表

　　采集新定义列表页为采集，解析列表页的详细页面URL地址，采集字段解析标题、发布日期、正文等详细页面的内容。

　　保存“采集新建”后，点击“字段列表”。

　　进入“采集字段列表”页面。此时没有设置字段，列表中也没有数据。

　　采集字段已添加

　　在“采集管理-字段列表”页面，点击“添加字段”。

　　进入采集字段添加页面。

　　此处显示的字段与文档模型相关。不需要把所有的字段都加进去，常用的字段有title、body、release time。检查所需的新字段并单击“保存”。

　　采集字段设置

0

2021-10-20

规则采集文章软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

规则采集文章软件(如何查看网页的文章、新闻采集到自己系统里？)

0 个评论

发起人

AI时代内容工厂

规则采集文章软件(如何查看网页的文章、新闻采集到自己系统里？)

0 个评论

发起人

相关问题