不用采集规则就可以采集(【东哥福利】优采云采集器V9智联招聘信息采集规则分享)

优采云发布时间: 2021-10-17 05:07

　　【以往福利】

　　【东哥福利】优采云采集器V9澎湃新闻网站资讯采集规则分享

　　【东哥福利】优采云采集器版本选择策略

　　【东哥福利】优采云采集器V9智联招聘信息采集规则分享

　　【东哥福利】优采云浏览器百度地图商家信息采集详解

　　【东哥福利】优采云采集器V9知乎采集规则分享

　　【东哥福利】优采云采集器V9微信公众号文章采集规则分享

　　【东哥福利】优采云采集器V9优酷视频电视剧采集规则分享

　　【东哥福利】优采云采集器V9版JSon功能讲解及示例规则分享

　　【东哥福利-新手必看】最新最全优采云采集器V9版学习资料

　　【东哥福利】优采云采集器V9财富网业绩预测信息采集规则分享

　　【东哥福利】优采云采集器V9信息采集规则分享

　　【东哥福利】优采云采集器V9安居客社区信息采集规则分享

　　【东哥福利】豆瓣电影采集规则并发布到本地CSV格式文件

　　【东哥福利】美图采集规则与DZ3.X门户发布规则分享

　　【东哥福利】优采云采集器58同城招聘信息采集规则分享

　　【东哥福利】优采云采集器软件-今日头条娱乐新闻采集规则

　　【东哥福利】优采云采集器V9携程景点采集规则分享

　　【东哥福利】优采云采集器V9京东商城商品信息采集规则分享

　　【东客福利】优采云采集器V9人气大众点评餐饮全国商家采集规则

　　-------------------------------------------------- ---------------------------

　　东哥微信tony_*敏*感*词*，请注明：东哥福利

　　-------------------------------------------------- -----------------------------

　　[东哥福利]优采云采集器V9 unicode编码转换案例规则分享

　　今天和大家分享的规则主要是针对汉字编码转换的问题。这里提到的编码不是一批“GBk”或“UTF8”，而是一种unicode编码。先说说unicode编码是什么。

　　Unicode（Uniform Code、Universal Code、Single Code）是计算机科学领域的行业标准，包括字符集、编码方案等。Unicode 的诞生是为了解决传统字符编码方案的局限性。它为每种语言的每个字符设置了统一且唯一的二进制编码，以满足跨语言和跨平台文本转换和处理的要求。

　　什么？还是不明白？这么说吧，我们经常看到网站的源代码中的字符“\u5730\u4e0e\u9999\”是由字母数字字符和\组成的。这是 Unicode 代码。其实这些都是汉字。关于我的什么？采集如何将这些字符转换成汉字？强大的优采云采集器，当然是有办法的。请看案例说明！

　　【案例说明】

　　采集案例网址：采集文章内容。

　　第 1 步：列出 URL采集

　　查看网页源码，源码中没有内容页的链接，需要使用抓包软件。推荐使用Fiddler（相关教程：）。我们先打开Fiddler软件，然后点击页面页面，可以多点击几个页面。通过抓包软件找到网址：""

　　像这样打开网站，如下图：

　　其实这就是Unicode编码，不过这里不需要转码。里面的汉字都是Unicode编码。如果你不明白，你可能已经错过了。其实这就是文章列表页，那么这就是起点。URL，“page=3”是分页参数。另外，这个 URL 可以简化为以下参数。你可以在采集器...&page_size=13&page=[地址参数]上这样设置，如图：

　　第二步：文章内容网址采集

　　当我们找到列表页面时，我们会找到文章页面的链接。根据页面内容，发现有标题、时间、ID等，好像没有文章链接。别着急，我们来看看文章页面URL的规则。让我们通过这个页面打开它，然后随意点击一篇文章文章，文章的链接是这样的，有一组数字“1305128”，我猜这是ID 文章的，你可以把这组数字在上面的页面搜索进去，如果有就确认是对的。然后就很容易了。我们只需要列表页面上采集的ID号，然后通过URL拼接，然后链接到采集文章页面，像这样[参数1]/我以为这就够了，但我没有没想到后面会有坑。打开文章页面，查看源码，发现源码中没有文章的内容。不用着急，你也可以使用上面提到的抓包软件抓包，通过抓包找到内容URL。URL拼接规则应该改为【参数1】/?render=1&callback=news_【参数1】，如图：

　　原理很简单，我们只需要采集到ID，然后将ID拼接到内容URL中即可。

　　第三步：文章内容采集

　　如上所述，这个网站的文章的内容也需要被捕获。抓到的网址就是，我们打开这个网址，如图：

　　文章内容在哪里？显然，这是一堆你看不懂的字符。一开始我们讲了unicode汉字编码转换的案例。这是正确的。这些是unicode编码的汉字。我们需要采集下来并转换它们。变成真正的汉字。文章的标题和内容都是unicode编码，没关系，只要有规则就可以采集，规则设置如图：

　　开头的字符串是 pre_article"

　　*)title":"以"}结尾，测试内容采集如下：

　　是unicode编码，然后我们需要将数据转换为采集。在数据处理中，单击+号。高级功能里面有个“字符编码转换”，然后我们可以选择From Js String，参考下图：

　　采集相同的内容，做相同的设置，如下图：

　　设置好后，我们测试一下采集，可以看到都是汉字，如下图：

　　你学会了吗？继续尝试！

　　-------------------------------------------------- ---------------

　　此规则为优采云采集器V9版本规则，其他低版本不可使用。

　　免费版用户可以使用。

　　本规则仅供用户学习交流参考，不得用于非法或商业用途。对于因使用本规则而引起的任何法律问题，我们概不负责。

0

2021-10-17

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

不用采集规则就可以采集(【东哥福利】优采云采集器V9智联招聘信息采集规则分享)

0 个评论

发起人

AI时代内容工厂

不用采集规则就可以采集(【东哥福利】优采云采集器V9智联招聘信息采集规则分享)

0 个评论

发起人

相关问题