汇总:优采云采集器批量爬取网页信息——以Pubmed为例

优采云 发布时间: 2022-12-15 12:55

  汇总:优采云采集器批量爬取网页信息——以Pubmed为例

  【戴哥】三句话,让我的同事做一个零代码的数据工程项目丨数据爬取&数据清洗丨Tableau丨Excel丨优采云采集器丨prep丨No Python丨数据分析师_哔哩哔哩哔哩_bilibili

  3.2 爬取Pubmed中的文献信息: 3.2.1 需求描述:

  (整个需求可以使用Pubmed自带的一些函数来简化,但是这次为了详细描述如何使用“优采云采集器”,整个过程使用“优采云 采集器 来满足需求。)

  1. 爬取关键词在Pubmed中作为“成本效益分析”,“TEXT AVAILABILITY”作为“免费全文”,2022年出版,前5页资料。包括:“题目、作者、发表时间、DOI、摘要”。

  图 2 Pubmed 网页 1

  2. 爬取关键词在Pubmed中作为“成本效果分析”,“TEXT AVAILABILITY”作为“免费全文”,发表于2021-2022,前5页信息。包括:“题目、作者、发表时间、DOI、摘要”。

  图 3 Pubmed 网页 2

  3. 整合Excel中的内容进行输出。

  3.2.2 详细步骤: 3.2.2.1 获取需要的URL:

  1. 打开 Pubmed,在搜索栏中搜索“成本效益分析”,将“TEXT AVAILABILITY”设置为“Free full text”,将“RESULTS BY YEAR”设置为“2022”。

  图4 Pubmed*敏*感*词*1

  2. 将 URL 复制到一个空白的 txt 文件。

  本文中空白txt文件的名称为“优采云采集器test.txt”。

  图5 Pubmed*敏*感*词*2

  图6 网址txt文件

  3. 打开Pubmed,在搜索栏中搜索“成本效果分析”,将“TEXT AVAILABILITY”设置为“Free full text”,将“RESULTS BY YEAR”设置为“2021-2022”。

  图7 Pubmed*敏*感*词*3

  4. 将 URL 复制到“优采云采集器test.txt”。

  图8 Pubmed原理图4

  图 9 批处理 URL txt 文件

  使用说明——网址分析:

  当针对不同的搜索条件进行批量爬取或者在同一网页搜索关键词时,需要进行“URL分析”,即通过分析URL快速大量获取所有需要的URL。

  Pubmed 网站中术语的第一部分是搜索 关键词;第二部分过滤器是搜索到的文章类型;第三部分是过滤的时间段文章。您可以通过更改该部分的信息,快速批量获取您想要的网址。

  

  5.将URL复制到一个空白的xlsx文件中,也就是本文中的“优采云采集器test.xlsx”。

  图 10 批处理 URL xlsx 文件

  3.2.2.2 获取“题名”、“作者”、“DOI”和“题名链接”:

  1、打开优采云采集器,在优采云采集器中输入URL 1,界面如下图所示。

  图11 “优采云采集器”*敏*感*词*1

  2. 点击“智能采集”,出现如下页面。红框部分为“自动识别”爬取的内容。有时 优采云采集器 auto 采集 字段是所需的字段,有时是因为 网站 有多个“列表”内容。因此,当“优采云采集器”被错误识别时,需要将模式更改为“手动订单列表”进行重新识别。

  图12“优采云采集器”*敏*感*词*2

  3、将“页面类型”栏中的页面识别方式改为“手动点击列表”。

  图 13 “优采云采集器”的图表 3

  4. 按照说明选择第一篇和第二篇论文的题目:“Nanopore sequencing data analysis using Microsoft Azure cloud computing service”、“Acceptability and feasibility of the Heartfulness Way: A social-emotional learning program for school-going adolescents in印度”,“抓取内容”修改为下图。

  图14 “优采云采集器”*敏*感*词*4

  5. 右键单击​​不需要的字段,删除该字段。

  图15“优采云采集器”*敏*感*词*5

  6.对字段进行排序和重命名,结果如图。

  图16 “优采云采集器”*敏*感*词*6

  7. 单击“设置采集 范围”,并将“设置结束页”设置为“5”。

  (这里需要注意“分页设置”栏中的“自动识别分页”是否成功,如果不成功,需要修改分页设置为“点击分页按钮”手动选择分页按钮。)

  图17 “优采云采集器”*敏*感*词*7

  3.2.2.3 获取“摘要”:

  1. 点击右侧的“深度采集”。“优采云采集器”将自动选择收录链接的字段中的第一个链接进入,您也可以手动选择链接进入。

  图18 “优采云采集器”*敏*感*词*8

  2. 点击右侧“添加字段”,选择“摘要”栏目。“优采云采集器”会根据选择的结果自动批量处理采集需要的内容。

  图19 “优采云采集器”*敏*感*词*9

  

  3.2.2.4 批量导入网址:

  1. 点击“编辑网址”。

  图20 “优采云采集器”*敏*感*词*10

  2、选择“文件导入”,选择“优采云采集器Test.xlsx”,点击“确定”,导入所有网页信息。

  图21 “优采云采集器”*敏*感*词*11

  3.2.2.5 导出数据:

  1. 单击“开始 采集”。

  图22 “优采云采集器”*敏*感*词*12

  2. 启用“重复数据删除”并单击“开始”。

  (如觉得有其他需求,可在官网购买其他套餐)

  图 23 "优采云采集器" 图 13

  3、开始爬取需要的内容,如下图所示。

  图24 “优采云采集器”*敏*感*词*14

  图 25 "优采云采集器" 图 15

  4. 爬取成功,内容导出。

  图26 “优采云采集器”*敏*感*词*16

  图27 爬取结果xlsx文件

  附上爬取结果文件:

  抓取结果.xlsx

  四、注意事项

  使用 优采云采集器 时需要注意以下几点:

  1. 采集数据是每分钟10条左右。如果需要短时间下载大量数据,需要到官网购买付费包。

  2、《优采云采集器》支持导出数据到数据库,付费版支持定时采集,所以理论上可以作为定时爬取的中间软件。

  3. "优采云采集器"还有一些未描述的功能,有待发现和开发。

  4. "优采云采集器"中有很多错误。

  最新版:www.ucaiyun.com(优采云采集器)V9.6.1 官方免费版

  优采云采集器()是一款专业强大的网络数据/信息挖掘软件。通过灵活的配置,您可以轻松地从网页、文件和其他任何资源中抓取文本和图片。

  程序支持远程下载图片文件,支持网站登录后信息采集,支持检测文件真实地址,支持代理,支持采集防盗链,支持采集data direct 具有存储、仿人手动发布等多种功能特点。

  优采云采集器支持从各种新闻网站、论坛、电子商务网站等任意类型的网站采集获取您需要的信息>、职位招聘网站等

  还具有强大的网站登录采集、多页和分页采集、网站跨层采集、POST采集、脚本页面采集、动态页面 采集 和其他高级 采集 功能。

  强大的php和c#插件支持,让您通过二次开发实现任何您想要的更强大的功能。

  软件特色

  1、通用性强

  无论新闻、论坛、视频、黄页、图片、下载网站,只要能通过浏览器看到结构化的内容,都可以通过指定匹配规则采集获取到自己需要的内容。

  2.稳定高效

  经过五年的努力,软件不断更新完善。采集速度快,性能稳定,占用资源少。

  

  3、可扩展性强,适用范围广

  自定义web发布,自定义主流数据库的存储和发布,自定义本地php和.net外部编程接口处理数据,让数据为您所用。

  基本技能

  1.规则定制——通过采集规则定义,您可以搜索所有网站采集几乎任何类型的信息。

  2、多任务、多线程——可以同时执行多个信息采集任务,每个任务可以使用多个线程。

  3、所见即所得——所见即所得任务采集过程中,过程中遍历的链接信息,采集信息,错误信息等都会体现出来在软件界面及时。

  4、数据存储——数据自动保存到采集边缘的关系数据库,数据结构可自动适配。软件可以根据采集规则自动创建数据库,其中的表和字段也可以通过数据库引导方式灵活的将数据保存在客户现有的数据库结构中。

  5.断点续传- 采集任务可以在停止采集后从断点继续,从此你再也不用担心你的采集任务被意外中断了。

  6、网站登录-支持网站Cookie,支持网站可视化登录,连登录时需要验证码的网站也可以采集。

  7. 定时任务——通过此功能,您的采集任务可以定时、定量或连续执行。

  8、采集范围限制——可以根据采集的深度和URL的标识来限制采集的范围。

  

  9. 文件下载 - 您可以从采集下载二进制文件(如图片、音乐、软件、文档等)到本地磁盘或采集结果数据库。

  10. 结果替换 - 您可以根据规则将采集的结果替换为您定义的内容。

  11.条件存储——可以根据一定的条件决定保存哪些信息,过滤哪些信息。

  12、过滤重复内容——软件可以根据用户设置和实际情况自动删除重复内容和重复网址。

  13. 特殊链接识别——使用此功能识别由 JavaScript 动态生成的链接或其他奇怪的链接。

  14. 数据发布 - 您可以通过自定义界面将采集结果数据发布到任何内容管理系统和指定数据库。目前支持的目标发布媒体包括:数据库(access、sql server、my sql、oracle)、静态htm文件。

  15、预留编程接口——定义多种编程接口,用户可以使用PHP、C#语言在事件中编程,扩展采集功能。

  特殊功能

  1.支持所有网站编码:完美支持所有编码格式的采集网页,程序还可以自动识别网页的编码。

  2、多种发布方式:支持目前所有主流和非主流cms、BBS等网站节目,通过系统的发布模块可以实现采集器和网站节目的完美结合。

  3、全自动:无人值守工作,程序配置好后,程序会根据您的设置自动运行,完全不需要人工干预。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线