[搜狗微信]特定微信官方帐户的最新文章采集
优采云 发布时间: 2020-08-05 20:08采集场景
我们通常使用搜狗微信()采集微信官方帐户文章. 搜狗微信支持[官方账号搜索]. 通过输入官方账号名称/ ID,可以搜索目标官方账号,以及目标官方账号的相关信息(官方账号ID,微信ID,功能介绍,微信认证)及其最新发布的文章(文章标题和文章)链接),请点击文章链接以进入文章详细信息页面并查看文章正文(文字+图片).
采集栏
官方帐户名称,微信ID,功能介绍,微信认证的公司名称,文章标题,文章来源,文章作者,出版日期,文章正文.
将鼠标移到图片上,右键单击并选择[在新选项卡中打开图片]以查看高清大图片
以下图片也是如此
采集结果
采集的结果可以导出为Excel,CSV,HTML,数据库和其他格式. 导出到Excel示例:
教程说明
本文的生产时间: 2020/4/26优采云版本: V8.1.8
如果由于网页的修订而导致URL或步骤无效,并且无法采集目标数据,请联系官方客户服务,我们将及时予以纠正.
采集步骤
第1步: 打开网页
第二步,分批输入多个关键字并搜索
第3步. 采集官方帐户信息
第4步. 单击以输入最新文章的详细信息并采集文章正文
第5步. 修改字段
第6步,开始采集
以下是具体步骤:
步骤1.打开网页
在主页上的[输入框]中输入目标URL,单击[开始采集],然后才彩云将自动打开该网页.
特殊说明:
a. 打开网页后,如果开始启动[自动识别],请单击[不再自动识别]或[取消识别]将其关闭. 因为本文不适合使用[自动识别].
b. [自动识别]适用于自动识别列表,滚动和翻页网页. 识别成功后,直接开始采集以获取数据. 有关详细信息,请单击以查看[自动识别]教程
第二步,分批输入多个关键字并搜索
通过以下步骤,批量输入多个关键字.
1. 创建[输入文字]以输入关键字
2,创建[文本列表循环],存储多个关键字
3. 将[输入文本]与[文本列表循环]链接
4,点击搜索
1. 创建[输入文字]以输入关键字
选中搜狗微信搜索框,在操作提示框中单击[输入文字],输入关键字并保存.
2,创建[文本列表循环],存储多个关键字
在[输入文本2]步骤之后,添加一个[循环].
进入[循环]步骤设置页面,将循环模式选择为[文本列表],然后单击
按钮,输入我们准备的关键字(您可以同时输入多个关键字,每行一个)并保存.
特殊说明:
a. 在示例中输入的关键字是[优采云 Big Data]和[优采云 Collection Research Institute],可以根据自己的需要进行替换.
b. 一次输入最多2W个关键字. 您可以先准备一个收录多个关键字的文档,然后将其复制并粘贴到Youcai Cloud中.
3. 将[输入文本]与[文本列表循环]链接
将[打开网页]步骤拖入循环.
将[输入文本]步骤拖入循环. 然后进入[输入文本]设置页面,选中[使用当前循环中的文本填充输入框]并保存.
4. 点击搜索
在[循环]中选择一个关键字,然后单击[输入文本],可以看到该关键字已成功输入到网页的文本框中.
然后选择[搜索正式帐户]按钮,在操作提示框中单击[单击此按钮],将显示关键字搜索结果列表页面.
特殊说明:
a. 为什么将[打开的网页]拖到循环中?这是因为,在搜狗微信主页上输入第一个关键字并进行搜索之后,您将获得一个搜索结果列表页面. 采集第一个关键字的数据后,在直接列表页面上输入第二个关键字. 主页和列表页上的[搜索]按钮的源代码不同,并且第二关键字搜索无法完成. 为了解决这个问题,我们将[打开网页]拖到循环中. 关键字采集结束后,请重新打开主页,在主页上输入下一个关键字并进行采集...有关详细信息,请参阅批输入关键字查询,查询结果采集教程
第3步. 采集官方帐户信息
在页面上选择文本,然后在操作提示框中单击[采集此元素文本].
可以通过这种方式提取文本字段. 在该示例中,我们提取了微信官方帐户名,微信ID,功能介绍和微信认证.
第4步. 单击以输入最新文章的详细信息并采集文章正文
1. 点击文章链接进入文章详细信息页面
搜索官方帐户后,默认情况下将显示此官方帐户发布的最新文章. 单击文章标题进入文章详细信息页面并采集详细信息页面字段.
在[最近的文章]之后选择文章标题,然后在操作提示框中选择[单击链接]. 单击以自动进入文章详细信息页面.
2. 采集文章详细信息页面中的字段
在页面上选择文本,然后在操作提示框中单击[采集此元素文本].
可以通过这种方式提取文本字段. 在示例中,我们提取了文章标题,作者,出版时间,正文和其他字段.
然后进入[click element]设置页面,并将[执行前等待]设置2秒钟.
特殊说明:
a. 设置合理的[执行前等待]时间可以有效避免数据泄漏. 有关详细信息,请参阅执行前等待教程.
b. 文本,图片,视频和源代码是不同的数据形式,在操作提示框中选择提取方法时,它们会稍有不同. 文本通常为[采集此元素文本],而图片通常为[采集图片地址]. 有关更多提取方法,请单击以查看不同数据类型(文本,图像,链接,源代码等)的捕获方法.
c. 需要特别注意[article body]字段. 我们要提取整个文本块,因此我们需要选择整个文本块. 但是,由于搜狗的微信文章格式更加复杂,因此无法通过直接移动鼠标来选择整个文本块. 然后我们首先选择一个段落,然后在操作提示框中单击最后一个DIV(通常,最后一个DIV代表整个文本块),然后选择[采集此元素文本],该文本将被采集下来.
第5步. 修改字段
进入[提取数据]设置页面,您可以删除冗余字段,修改字段名称,移动字段顺序等.
第6步,开始采集
1. 单击[采集]和[开始本地采集]. 启动后,优采云开始自动采集数据.
特殊说明:
a. [本地采集集]用于使用您自己的计算机进行采集,[云采集集]用于使用由优采云提供的云服务器,单击以查看本地采集集和云采集详细信息.
2. 采集完成后,选择适当的导出方法以导出数据. 支持导出到Excel,CSV,HTML,数据库等. 在此处导出到Excel.
数据示例:
作者: DJacky