伪原创编辑器可用点赞16%我不是写爬虫
优采云 发布时间: 2022-08-08 00:05伪原创编辑器可用点赞16%我不是写爬虫
伪原创编辑器可用点赞16%
我不是写爬虫,我是爬信息。比如淘宝的信息,或者微博里一些商品信息,这两个都是一般的写爬虫都能爬。但是用写伪原创编辑器,对于原创的更新效率很高,没有技术门槛。网上的大部分是免费,特别是伪原创工具类的。大部分都没有写爬虫开发者友好。现在主流的爬虫类的在线工具有scrapy(我们公司用它做页面请求),fake_postmessage。
对于淘宝的价格,上两年一个淘宝的python爬虫数据大概是8块多*敏*感*词*,前年16块多,去年30块多。如果是别的,那个可能差别就比较大了。我用户用过mongolao,爬过三只猫,勉强能用。用户主要是真正写爬虫的。目前主流的伪原创编辑器是狗尾草。这类伪原创编辑器其实有两个优点,一个是免费,第二个是模板较多,满足大多数人的需求。
所以我们公司大部分人用狗尾草。其实还有很多其他的伪原创编辑器,大概也都是类似的,但是我用过狗尾草以后,才下定决心也要写一个狗尾草的爬虫出来。因为我觉得很多人根本就不会写原创。我写爬虫第一步就是检查文本是否伪原创。什么是伪原创,就是主语从动语变化。你写一个爬虫去抓某个商品,正常人写代码爬虫的行为是,正常人先检查商品的商品名是否和商品描述(主语从动语)一致,价格是否一致,然后才去爬,如果价格不一致,看是不是大家都这么写,如果大家都这么写,那就都一样,不是大家写的不一样,那就要问是不是你写的比别人优秀,写的更符合大家对价格的看法。
但是伪原创,就是先检查商品的主语是否和商品描述一致,价格是否和商品描述相一致,在看是不是大家都这么写,然后只要这个商品描述一致,就可以去抓,找出商品的价格是否和商品的描述中的价格一致,大概就是这个思路。因为写文章的,文章写好之后,首先要给读者看,要让别人觉得你写的有价值,才会去找到你的文章去看,所以一定要说话符合读者的心理预期,不能让读者觉得你的文章像大多数人写的那种垃圾文章。
如果大家都这么写,那基本上就是不怎么写。伪原创就要做到这点,用变量和大量的条件变量代替和读者正常交流的,为了更准确的判断读者的心理预期。接下来就去下主语从动语,也就是商品描述中的价格,主语是商品名和商品描述,变量是价格。然后下主语从动语后,只要写的不是恶意修改,一般都能爬到。