文章采集规则(自定义脚本采集规则的流程及构建方法)

优采云 发布时间: 2022-04-17 11:02

  文章采集规则(自定义脚本采集规则的流程及构建方法)

  文章采集规则大体遵循惯例,下面会具体说明如何构建采集规则。实现过程来看,python本身已经封装好了这些params.switch_threekeys方法,配置完后就可以直接使用它。我重点说一下自定义脚本采集规则的流程。

  1、把你python内置的那些forms全都封装起来以运行一个脚本。先说明,模板文件需要用wordpress。其他的forms已封装好。forms文件用代码编辑器编写。blogforms$pythonmanage.pyrun-p''-anonymousmarkdown-mforms'\u4e08d{page}\u4e078{font}\u4e09d{title}\u4e09c{post}\u4e09f{tag}\u4e09e{follow}'{}""}pdfforms$pythonmanage.pyrun-p''-anonymousmarkdown-mforms'\u4e08d{page}\u4e078{font}\u4e09d{title}\u4e09c{follow}'{}""}htmlforms$pythonmanage.pyrun-p''-anonymousmarkdown-mforms'\u4e08d{page}\u4e078{font}\u4e09d{title}\u4e09f{tag}\u4e09f{follow}'{}""}。

  2、在python内,读取html文件并获取tags和follow值。blogforms$pythonmanage.pyrun-p''-anonymousmarkdown-mforms'\u4e08d{page}\u4e078{font}\u4e09d{title}\u4e09f{tag}\u4e09f{follow}'{}""}pdfforms$pythonmanage.pyrun-p''-anonymousmarkdown-mforms'\u4e08d{page}\u4e078{font}\u4e09d{title}\u4e09f{tag}\u4e09f{follow}'{}""}htmlforms$pythonmanage.pyrun-p''-anonymousmarkdown-mforms'\u4e08d{page}\u4e078{font}\u4e09d{title}\u4e09f{tag}\u4e09f{follow}'{}""}。

  3、获取posted属性。其实代码很简单,但还是简单说一下吧。因为自定义的postforms,不是通过设置用户名和密码获取的,而是在getheader中获取的。所以需要在middleware函数中。

  $pythonmanage.pyrun-p''-p'\u4e08d{page}\u4e078{font}\u4e09f{title}\u4e09f{follow}'{}""}注意两点:

  1、post这个值是包含在url子字典中的。如何加载并处理表单参数的话以后慢慢写,这里不多说。

  2、关于表单设置的问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线