采集的文章内容不能直接发布(最新的web发布使用方法教程_爬虫软件技术与爬虫软件)

优采云 发布时间: 2022-01-17 08:19

  采集的文章内容不能直接发布(最新的web发布使用方法教程_爬虫软件技术与爬虫软件)

  优采云采集器V9.7最新网页发布教程_爬虫软件技术与爬虫软件网页资料采集器传送门

  图 160S

  2018 年 10 月 25 日

  Web发布中内容发布前的版本一直是粘贴发布中抓取的数据,然后软件自动分析表单名和表单值,但是对于一些特殊要求发布网站,这个功能不是很好用,所以,新版本增加了自定义发布数据的新功能,可以更轻松地处理一些复杂的网站。

  

  下面介绍自定义数据的功能:

  (1)对于网站使用json或者其他特殊格式作为post的,则可以直接使用自定义数据。

  (2)对于某些具有不确定数量的 网站 的表格。

  ①比如发布一个产品,如果有图片要发布,如果有多张图片要发布,那么需要添加几个表单项,那么就必须使用自定义数据,发布的图片定义在采集 数据标签,然后发布模块直接调用该标签中的值

  ②例如发布分类时,有多种颜色,每增加一个颜色就会增加一个表格项,但是当每个产品的颜色数量不固定时,可以使用自定义发布数据来做。

  还有各种应用场景,可以结合具体需求来做。但是,对于简单的发布,建议使用发布网站本身的发布,更加明确。

  下面以opencart发布产品图片为例,讲解该功能的使用方法。教程主要讲自定义发布数据的使用,发布模块的*敏*感*词*法通过一个简单的截图展示:

  (1)首先我们手动发布一条商品信息,并使用fiddler对发布格式进行抓取分析:

  

  

  对于出现的form-data格式的参数,如果我们现在使用自定义发布,最好使用

  application/x-www-form-urlencoded,所以我们可以在发布模块中写一个简单的发布模块,看看application/x-www-form-urlencoded是什么格式:

  

  将post参数直接粘贴到程序中,然后点击解压,因为opencart比较特殊,在高级功能中也会生成文件上传,不过这个其实没什么用,所以我们手动删除

  

  

  

  下一步是测试版本并尝试获取它。接下来可以点击保存,然后在配置文件中配置地址参数。接下来就是测试发布,使用fiddler抓包获取application/x-www-form-urlencoded格式的post参数。参数格式如下:

  

  (3)得到了post参数格式如下图:

  

  接下来就是分析图片上传的参数格式:

  

  如上图分析可知,①为上传的主图参数,②为上传的两张图片。因此,我们只需将上传的两张图片处理成②中的参数格式即可正确上传。多张图纸。现在我们先将post参数填入自定义post数据中,并定义标签名称。地址中的随机值也被定义为全局变量。采集 规则中定义了下一个操作:

  

  (3)以下

  ,以本产品的采集为例,介绍如何处理采集规则。本产品的采集需要cookies,所以用fiddler抓取cookies放到优采云采集器中,然后将需要采集的标签导入采集器@ > 通过发布模块:

  

  接下来设置需要的标签采集规则,设置并下载图片如下图:

  

  其中,商品的标题是用字符编码处理的,因为在使用自定义发布数据时,发布的内容不会被加密,所以我们需要在采集规则中进行加密:

  我们的 采集 规则应该表明主图像的结果已经满足格式要求。我们现在需要处理的是附加图像的格式。处理格式

  

  我们抓取的格式是逗号分隔的,但是我们处理的格式要求每张图片都有一个递增的序列号,并添加一些前缀和后缀来处理。在这种情况下,我们必须使用 C# 代码来处理它。,这里我们提供这个样板的代码:

  使用系统;

  使用 System.采集s.Generic;

  使用蜘蛛接口;

  类 LocoyCode{

  公共字符串运行(字符串内容,ResponseEntry响应){

  string[] strArray = content.Split(',');

  int len=strArray.Length;

  字符串 t;

  内容="";

  for(int i=0;i{

  t=strArray[i];

  content=content+"&product_image["+i+"][image]="+t+"&product_image["+i+"][sort_order]=0";

  }

  返回内容;

  }

  }

  

  用 C# 填充它并运行它。

  然后就可以根据你上传图片的ftp连接设置ftp连接方式和对应目录,然后就可以正确发布了。

  相关标签

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线