文章内容采集( phpcms2008采集模块教程图文2009-10-202039来源未知)
优采云 发布时间: 2021-09-08 01:20文章内容采集(
phpcms2008采集模块教程图文2009-10-202039来源未知)
phpcms2008采集module教程图文2009-10-202039来源不明作者admin大中小点击259次summary采集网站httpnewssinacomcn采集tasksina国内新闻任务列表地址httprollnewssinacomcnnewsgnxindex_wgds逐步添加采集site运营模块管理财务成本管理系统文件管理系统成本管理项目成本管理行政管理系统-》采集管理-》采集网站管理-》添加采集site两个属性基本信息和网站规则-采集网站httpnewssinacomcn采集tasksina 国内新闻任务列表地址 httprollnewssinacomcnnewsgnxwgdxw1index_1shtml 第一步添加采集网站运营模块管理-》采集管理-》采集网站管理-》add采集站点 两个属性,基本信息和站点规则,基本信息是必填项,站点规则可以填写,也可以不填写,所以这一步可以很简单,也可以有点麻烦,设置站点规则A。网站基本信息填写name 和你给这个 网站 做的标记方便以后的管理。所用站点的URL为网站的地址。注意如果你的采集是网站的二级域名,比如httprollnewssinacomcn,那么这里填写二级域名站点描述。这可以是空的 B Site Rules 整个站点的内容页面。注意内容页是文章详细展示页的一般规则。如果你设置了之后再添加采集任务,这个规则会自动继承,这样会省很多工作。第二步添加采集Task操作模块管理-》采集管理-》采集Task管理-》添加采集Task或模块管理-》采集管理-》采集网站管理- 》在新浪国内新闻专线添加任务采集Task具有三个属性。 URL 采集Content 规则高级设置 A网站采集URL采集 目的是从列表页采集转到文章content页。流行的一点是从列表中模仿鼠标。点击下方文章content页面链接填写每一项
项目描述 职位描述 职位描述标准模板 职位描述 总经理 职位描述 收银员 职位描述 基本信息所属站点。必须选择此项。任务名称只有选择站点后才能正常执行。必须填写此项以记住简单描述。必须选择发布列。只有选择发布栏,内容规则才能出现相应的发布字段URL采集single 网页或不规则网页 这是最简单的只有采集list 的页面,如httprollnewssinacomcnnewsgnxwgdxw1indexshtmlhttprollnewssinacomcnnewsgnxwgdxw1index_2shtml采集multiple 规则采集multiple页面地址很规则,可以批量添加多个页面。httprollnewssinacomcnnewsgnxwgdxw1index_2shtml变成httprollnewssinacomcnnewsgnxwgdxw1index_shtml,表示任意字符或数字,我们称之为通配符。接下来,让我们定义通配符范围从____到_____Step multiples___Generate zero padding in reverse order _____Page number wildcard × Step multiples 逆序生成主要是为了采集的内容遵循原来文章列表中的顺序。 网站表分页都按时间降序是最新发布的。 文章 首先在第一页。 采集页数多,页数少。 采集页数少。请注意,某些站点列表页面以相反的顺序生成,并且可以使用零填充。 网站文章List 地址 第 1-10 页地址中的规则是 index_01shtmlindex_02shtml。在这种情况下,如果选择零填充,它会自动在生成的页码上加零文章URL过滤器这是用来过滤非文章内容URL需要文章内容地址收录哪些字符必须不收录任何字符。获取页面特定区域的URL。这对于确定文章列表的上下限非常重要。如果不填写列表的上下边界,它会自动匹配真实的。页面区域可以正确填写
过滤掉不需要的网页链接,填写要点: 1 找到文章列表中的第一条记录,在页面空白处右击-查看源文件,搜索第一条的名字记录。在第一条记录之前查找特殊标记。填写第一个框作为边界的起点 2 找到文章列表的最后一条记录或分页标记。寻找最后一条记录后的特殊标记。填充第二个框作为边界的末端。注意这个特殊标记必须在边界起点之后第一次出现,比如httprollnewssinacomcnnewsgnxwgdxw1index_1shtml页面,我要找的边界,其中ulclass“list_009”出现在列表页面的第一条记录之前并且是唯一的,而divclass "hs01" div出现在list页最后一条记录之后,是ulclass" 这是"list_009"之后的第一次,所以可以作为边框结束缩略图采集rule。这个用于采集list页面缩略图,留空采集Login网站此为需要登录才能访问cookie的内容设计可以使用ieHTTPHeaders获取或者优采云采集器可以参考对应工具获取然后将获取到的cookie粘贴到后面的框里 使用现有的COOKIE B内容规则 内容规则看这里 比较复杂,其实很简单 为了方便解释,我们只有两个字段采集title content采集content 网址 httpnews sinacomcnc2009-05-239shtml content采集rule 请打开这个网址,在页面查看源文件的空白处右击搜索标题和内容的开始边界。标题以标题和标题为边界。事实上,可以使用 title 和 _ 因为 title 收录两者。 body content end--作为边界,但观察代码中还有一些其他的东西
他的评论和链接被信息替换--google_ad_section_start--多次替换被Html隔开自动清除就是清除采集内容中的一些html标签。根据实际情况选择。可以设置文章分页采集,合并分页码的边界是指分页码列表的上下边界。 C 高级设置列表页编码 设置列表页的编码为GBK 或UTF-8。查看方法 打开列表页面,在页面空白处右击——查看源文件并搜索charset等号,然后设置页面编码内容页面编码。这就是文章内容页编码查看方式,和下载图片、下载flash、下载文件等一样,这些都是简单易懂的说明。数字设置为5,采集值越大,速度越快,占用系统资源越大。超时时间为采集内容链接无响应时间。您无需更改它,一切就绪。这时候只要点击保持设置即可。第三步启动采集URL操作模块管理-》采集管理-》采集Taskmanagement-》采集URL在管理操作,第四步启动采集content操作采集URL完成后,在管理操作中点击采集content或模块管理-》采集管理-》采集Taskmanagement-》采集Content 点击采集content后,会自动显示采集进度条采集进度条第五步发布内容操作采集内容完成点击发布内容。这里需要注意的一点是,生成html的速度很慢。如果您发布的内容较少,则可以选择此选项。如果你发布文章一百多篇文章,建议不要选择这个文件,因为phpcms默认每次发布文章都会更新网站home列表页面栏目内容页面html批量发布会导致频繁更新这些页面严重降低了发布效率。发布文章时取消这个选项只将文章添加到数据库中非常高效 高发布完成后,可以使用phpcms内置的HTML生成功能,只更新特定下的内容页面列和列。生成HTML操作位于内容管理-》生成HTML,更新栏目页面,根据需要更新内容页面