不用采集规则就可以采集(【东哥福利】优采云采集器V9智联招聘信息采集规则分享)
优采云 发布时间: 2021-10-17 05:07不用采集规则就可以采集(【东哥福利】优采云采集器V9智联招聘信息采集规则分享)
【以往福利】
【东哥福利】优采云采集器V9澎湃新闻网站资讯采集规则分享
【东哥福利】优采云采集器版本选择策略
【东哥福利】优采云采集器V9智联招聘信息采集规则分享
【东哥福利】优采云浏览器百度地图商家信息采集详解
【东哥福利】优采云采集器V9知乎采集规则分享
【东哥福利】优采云采集器V9微信公众号文章采集规则分享
【东哥福利】优采云采集器V9优酷视频电视剧采集规则分享
【东哥福利】优采云采集器V9版JSon功能讲解及示例规则分享
【东哥福利-新手必看】最新最全优采云采集器V9版学习资料
【东哥福利】优采云采集器V9财富网业绩预测信息采集规则分享
【东哥福利】优采云采集器V9信息采集规则分享
【东哥福利】优采云采集器V9安居客社区信息采集规则分享
【东哥福利】豆瓣电影采集规则并发布到本地CSV格式文件
【东哥福利】美图采集规则与DZ3.X门户发布规则分享
【东哥福利】优采云采集器58同城招聘信息采集规则分享
【东哥福利】优采云采集器软件-今日头条娱乐新闻采集规则
【东哥福利】优采云采集器V9携程景点采集规则分享
【东哥福利】优采云采集器V9京东商城商品信息采集规则分享
【东客福利】优采云采集器V9人气大众点评餐饮全国商家采集规则
-------------------------------------------------- ---------------------------
东哥微信tony_*敏*感*词*,请注明:东哥福利
-------------------------------------------------- -----------------------------
[东哥福利]优采云采集器V9 unicode编码转换案例规则分享
今天和大家分享的规则主要是针对汉字编码转换的问题。这里提到的编码不是一批“GBk”或“UTF8”,而是一种unicode编码。先说说unicode编码是什么。
Unicode(Uniform Code、Universal Code、Single Code)是计算机科学领域的行业标准,包括字符集、编码方案等。Unicode 的诞生是为了解决传统字符编码方案的局限性。它为每种语言的每个字符设置了统一且唯一的二进制编码,以满足跨语言和跨平台文本转换和处理的要求。
什么?还是不明白?这么说吧,我们经常看到网站的源代码中的字符“\u5730\u4e0e\u9999\”是由字母数字字符和\组成的。这是 Unicode 代码。其实这些都是汉字。关于我的什么?采集 如何将这些字符转换成汉字?强大的优采云采集器,当然是有办法的。请看案例说明!
【案例说明】
采集案例网址:采集文章内容。
第 1 步:列出 URL采集
查看网页源码,源码中没有内容页的链接,需要使用抓包软件。推荐使用Fiddler(相关教程:)。我们先打开Fiddler软件,然后点击页面页面,可以多点击几个页面。通过抓包软件找到网址:""
像这样打开网站,如下图:
其实这就是Unicode编码,不过这里不需要转码。里面的汉字都是Unicode编码。如果你不明白,你可能已经错过了。其实这就是文章列表页,那么这就是起点。URL,“page=3”是分页参数。另外,这个 URL 可以简化为以下参数。你可以在采集器...&page_size=13&page=[地址参数]上这样设置,如图:
第二步:文章内容网址采集
当我们找到列表页面时,我们会找到文章页面的链接。根据页面内容,发现有标题、时间、ID等,好像没有文章链接。别着急,我们来看看文章页面URL的规则。让我们通过这个页面打开它,然后随意点击一篇文章文章,文章的链接是这样的,有一组数字“1305128”,我猜这是ID 文章的,你可以把这组数字在上面的页面搜索进去,如果有就确认是对的。然后就很容易了。我们只需要列表页面上采集的ID号,然后通过URL拼接,然后链接到采集文章页面,像这样[参数1]/我以为这就够了,但我没有 没想到后面会有坑。打开文章页面,查看源码,发现源码中没有文章的内容。不用着急,你也可以使用上面提到的抓包软件抓包,通过抓包找到内容URL。URL拼接规则应该改为【参数1】/?render=1&callback=news_【参数1】,如图:
原理很简单,我们只需要采集到ID,然后将ID拼接到内容URL中即可。
第三步:文章内容采集
如上所述,这个网站的文章的内容也需要被捕获。抓到的网址就是,我们打开这个网址,如图:
文章内容在哪里?显然,这是一堆你看不懂的字符。一开始我们讲了unicode汉字编码转换的案例。这是正确的。这些是unicode编码的汉字。我们需要 采集 下来并转换它们。变成真正的汉字。文章的标题和内容都是unicode编码,没关系,只要有规则就可以采集,规则设置如图:
开头的字符串是 pre_article"
*)title":"以"}结尾,测试内容采集如下:
是unicode编码,然后我们需要将数据转换为采集。在数据处理中,单击+号。高级功能里面有个“字符编码转换”,然后我们可以选择From Js String,参考下图:
采集 相同的内容,做相同的设置,如下图:
设置好后,我们测试一下采集,可以看到都是汉字,如下图:
你学会了吗?继续尝试!
-------------------------------------------------- ---------------
此规则为优采云采集器V9版本规则,其他低版本不可使用。
免费版用户可以使用。
本规则仅供用户学习交流参考,不得用于非法或商业用途。对于因使用本规则而引起的任何法律问题,我们概不负责。