经验:硕士敏感词的第一道难题（2）：如何快速了解某个研究领域的发展历程及代表性文献？

优采云发布时间: 2022-10-24 09:17

　　经验:硕士*敏*感*词*的第一道难题（2）：如何快速了解某个研究领域的发展历程及代表性文献？

　　硕士生的第一个问题（1）：如何快速理解某一研究领域的发展历程和代表性文献？

　　最后，我们谈到了“验证我们采集的数据和网页上的数据是否一致”，我们发现了以下两个问题。如图 1 所示。

　　图 1

　　问题 1：cited_num部分抓取人员的姓名，而不是相应数量的引用。

　　问题2：related_articles其中一些还抓取人们的名字，而不是相应的文本和链接。

　　此外，我还想获取文档的特定下载地址，然后可以直接访问该地址并下载文档。

　　今天的文章重点解决了这三个问题，如果你还没有读过前一个问题文章建议复习一下，否则你不会知道该怎么办。

　　02

　　问题描述：如果cited_num部分抓取人员的姓名而不是相应数量的引用，我该如何解决此问题？

　　猜测1：开发人员在编写代码时是否意外犯了错误？

　　1.代码是人写的，只要是人，就有可能犯错误。

　　2.我们从源头向上看，如果“源头”错了，那么无论如何调整“下游”，都无济于事。

　　下一步是根据实际情况验证我们的猜测是否正确。

　　第一个普通数据HTML代码（如果你不知道HTML是什么，那没关系，你也不需要知道它是什么）。如图 2 所示。

　　图2

　　第二种正常数据HTML代码的情况。如图 3 所示。

　　图 3

　　这

　　第四个异常数据（cited_num应为 164，抓取的数据是 J Hu 的 HTML 代码）。如图 4 所示。

　　图 4

　　第五个异常数据（related_articles应该是相关文章，抓取的数据是J Ye的HTML代码。如图 5 所示。

　　图 5

　　在检查了第一个和第二个正常数据的HTML代码以及

　　第四和第五个异常数据，我发现它们的代码层次结构是相同的。如图 6 所示。

　　图 6

　　结论：开发人员编写的代码不会显示错误。

　　猜测2：网络抓取工具设置的抓取规则不正确吗？

　　步骤 1：查看爬网规则之间的层次结构。如图 7 和图 8 所示。

　　图 7

　　图 8

　　步骤2：检查选择器与每个ID对应的内容。如图 9 和图 10 所示。

　　图 9

　　图 10

　　让我们将选择器图形和相应的选择器集成到单个图形中。如图 11 所示。

　　图 11

　　图 12

　　将图 11 和图 12 一起比较可以得出以下结论：

　　1. 图

　　图11和图12 div.gs_ri->H3行之间有*敏*感*词*的对应关系，实际捕获的“论文标题”信息也是正确的。

　　2. 图 11 中发生错误的两个位置具有 a：n-type（）。

　　插入 a：n 类型（）的定义和用法。

　　：n-of-type（n）选择器匹配属于父元素的特定类型的第 n 个子元素的每个元素，其中 n 可以是数字、关键词或公式。

　　这有点抽象，请阅读以下两个案例，看看你是否能理解它。

　　p：nth-of-type（2）表示父标记（在本例中为 body）下的第二个 p 元素的每个元素。如图 13 所示。

　　图 13

　　p：nth 类型（3n+0）表示父标记（在本例中为正文）下 3n+0 p 元素的每个元素。如图 14 所示。

　　图 14

　　休息结束

　　好吧，让我们来看看与cited_num和related_articles对应的选择器是什么以及它的含义。

　　前者是： a：nth-of-type（3），意思是：第三个元素的每个元素都是父标记下的元素。如图 15 所示。

　　后者是： a：nth-of-type（4），意思是：第 4 个元素的每个元素都是父标记下的元素。如图 15 所示。

　　图 15

　　查看已爬网的 10 个数据结果以及 a 标记在所有相关 HTML 代码中的位置。

　　让我们先来看看这10条数据。如图 16 和图 17 所示。

　　图 16

　　图 17

　　接下来，查看与这 10 条数据对应的代码。

　　第一条数据。如图 18 所示。

　　图 18

　　a：nth-of-type（3）含义：采集父标签下第三个 A 元素的每个元素，红色框中有 1 个 A 标签，蓝色框中有 1 个 A 标签，绿色框中有 7 个 A 标签。

　　因此，采集只有绿色框中标签的第三个数据，采集的数据是：引用1729年。如图 19 所示。

　　a：nth-of-type（4）的含义：对于父标签下第 4 个 A 元素的每个元素，采集在红色框中有 1 个 A 标签，在蓝色框中有 1 个 A 标签，在绿色框中有 7 个 A 标签。

　　因此，只有绿框的a标签的第四个数据采集，采集的数据是：相关文章。如图 19 所示。

　　图 19

　　结论：从理论上讲，采集数据应与实际采集数据一致。

　　第二条数据。如图 20 所示。

　　图20

　　a：nth-of-type（3）表示：父标签下的第 3 个 A 元素的每个元素采集蓝色框中的 1 A 标签和绿色框中的 7 A 标签。

　　所以只有第三个数据

　　绿色框采集标签，采集的数据是：2063 年引用。如图 21 所示。

　　a：nth-of-type（4）表示：采集父标记下第四个 A 元素的每个元素，则蓝色框中有 1 个 A 标签，绿色框中有 7 个 A 标签。

　　所以只有第四个数据

　　绿色框标签采集，数据采集为：相关文章。如图 21 所示。

　　图21

　　结论：从理论上讲，采集数据应与实际采集数据一致。

　　第三条数据。如图 22 所示。

　　图22

　　a：nth-type（3）的含义：父标记下第三个 A 元素的每个元素采集红色框中的 1 A 标签、蓝色框中的 1 A 标签和绿色框中的 8 A 标签。

　　所以只有第三个数据

　　绿色框标签采集，数据采集为：被引 4495。如图 23 所示。

　　a：nth-of-type（4）的含义：父标记下第 4 个 A 元素的每个元素采集红色框中的 1 A 标签、蓝色框中的 1 A 标签和绿色框中的 8 A 标签。

　　所以只有第四个数据

　　绿色框标签采集，数据采集为：相关文章。如图 23 所示。

　　图23

　　结论：从理论上讲，采集数据应与实际采集数据一致。

　　第四个数据。如图 24 所示。

　　图24

　　a：nth-of-type（3）的含义：对于父标记采集下的第 3 个 A 元素的每个元素，红色框中有 1 个 A 标签，蓝色框中有 3 个 A 标签，绿色框中有 8 个 A 标签。如图 25 所示。

　　此时，有两个符合数据采集要求的A标签，即蓝框和绿框，但从实际采集情况向后。

　　猜测：n-of-type（）选择器使用规则是：

　　如果有多个满足要求的框，则选择器仅采集满足要求的第一个框。

　　所以，这里采集数据是：胡俊

　　a：nth-of-type（4）：采集父标签下的第 4 个 a 元素的每个元素在红色框中有 1 个 A 标签，在蓝色框中有 3 个 A 标签，在绿色框中有 8 个 A 标签。如图 25 所示。

　　图25

　　结论：应该采集的数据被164引用，但实际上是胡志明。

　　第5条数据。如图 26 所示。

　　图26

　　a：nth-of-type（3）含义：采集父标记下第三个 A 元素的每个元素，则红色框中有 1 个 A 标签，蓝色框中有 4 个 A 标签，绿色框中有 8 个 A 标签。

　　此时，有两个满足数据采集要求的A标签，即蓝色框和绿色框。

　　但是，根据我们的猜测：使用第n个type（）选择器：这个选择器只采集第一个满足要求的盒子。

　　所以，这里采集的数据是：郭俞。

　　a：nth-of-type（4）表示：采集父标签下第 4 个 a 元素的每个元素，则红色框中有 1 个 A 标签，蓝色框中有 4 个 A 标签，绿色框中有 8 个 A 标签。

　　同样，有两个A标签符合采集要求，即蓝盒和绿盒。

　　但是，按照我们的猜测：使用第n个type（）选择器，它只采集满足要求的第一个框。

　　因此，这里采集的实际数据是：相关文章。

　　但是，采集这些数据是J Ye，那么数据实际上是什么呢？如图 27 所示。

　　图27

　　我在这里猜测的是使用：nth-of-type（）的另一条规则。

　　当一个框满足多个采集要求时，数据将采集当前框中，而不是跳转到满足数据采集要求的下一个框。

　　也就是说，蓝框有 4 个 A 标签，同时满足 a：n 类型（3）和 a：n 类型（4）的采集要求。

　　然后，数据直接采集在蓝色框中，而不是采集

　　蓝框和 a：n 类型（4）采集另一个符合要求的绿色框中。

　　再一次，我想：这里的规则制定策略应该是节省计算机资源。

　　PS：后续6-10条数据的分析逻辑是相同的，所以我在这里不再重复。

　　在这一点上，我们知道数据采集错误的原因是第n个type（）选择器阻止了它。

　　同时，我们必须（猜测）（测量）使用：n-of-type（）选择器的两条规则：

　　1.如果有多个符合要求的框，将从上到下选择它们。

　　如果一个框同时满足多个采集要求，它将在当前框中被选中，而不是跳到下一个框进行选择。

　　好吧，然后我们知道了问题，让我们开始解决它：

　　回想一下：nth-of-type（n）的定义：与属于父元素的特定类型的第 n 个子元素匹配的每个元素，其中 n 可以是数字、关键词或公式。

　　问题分析

　　采集规则图示。如图 28 所示。

　　图28

　　我们可以看到

　　a：第 n 个类型（3）和 a：n 个类型（4）不指定它们的父元素是哪个父元素。

　　如果未指定，则程序的规则是默认的div.gs_ri是它们的父元素，因此上述数据采集“无序”将发生。

　　可能的解决方案

　　如果我们分别为类型（3）和类型（4）指定它们的父元素。也就是说，我们去红框，篮子框，绿框进行数据采集，那么它将无法正常工作。

　　我们将任何一个相应的HTML代码采集上述五条数据。如图 29 所示。

　　图29

　　如您所见，如果我们在绿色框中保留采集数据，则绝对没有问题。

　　因此，绿色框的父元素是我们要确定的，这里是div.gs_fl。

　　好的，那么在这里我们将修改我们的采集规则。

　　修改原来的 a：n 类型（3

　　）到 div.gs_fla：第 n 种类型（3）。

　　注意：有一个空格

　　在 div.gs_fl 和 a：n 类型之间（3），如果没有空格，则采集数据将为空]。

　　同样，修改类型 a：n 类型（4）。

　　更新之前。如图 30 所示。

　　图30

　　更新后。如图 31 所示。

　　图31

　　预览数据以查看它是否是我们想要的结果。如图 32 所示。

　　图32

　　好了，到目前为止，我们已经成功地采集了我们想要的数据内容，前两个问题都解决了。

　　具体步骤可以按照下面的视频进行。

　　问题描述：如何获取文档的特定下载地址？

　　创建新的采集规则：article_download_link

　　为了防止上述数据采集中的“混淆”，我们需要限制采集的范围（红色，绿色，蓝色或其他）。

　　由于数据在

　　文档下载链接不在*敏*感*词*框中（div.gs_ri），我们将范围扩大到div.gs_or。如图 33、图 34、图 35 所示。

　　图33

　　图34

　　图35

　　好吧，然后采集数据，导出数据，然后查看这次采集的数据是否是我们想要的。如图 36 所示。

　　图36

　　就是这样，这次采集是我们想要的数据内容，接下来的步骤：

　　1.然后进行简单的数据清理（添加，删除，修改，保留，替换等，用于您的数据组织目的，可用于数据分析的下一步）。

　　2、根据您的个人目的，进行相应的数据分析，得到你想要的结论。

　　3.根据你的结论

　　得到，使用你获得的结论来指导你的实际行为。

　　4.然后分析和练习，让你的逻辑思维能力螺旋式上升，向前挥手提高和提高。

　　02

　　即将推出

　　在前两文章，我们使用 Google 学术搜索关键词“对象检测”在搜索结果的第 1 页上采集多个数据项。

　　但是，不要忘记，我们的目标是找到尽可能多的与当前研究领域相关的文献。

　　因此，现在，我们只采集第 1 页数据，如图 37 所示。

　　图37

　　好吧，下一个问题是：

　　1. 如何采集第 2 页、第 3 页.相关数据项一直到页面 46700？

　　2、在谷歌学术搜索中，使用“对象检测”关键词搜索结果共有46.7万个项目，我们真的要花费这么多时间和精力去获取这些数据，这是必要的吗？

　　如果文章对你帮助不大，就像它是对我最大的支持一样，我们将在下一期见到你，**

　　总结:都2020年了，这些亚马逊关键词研究工具你还没用过吗？

　　亚马逊关键词工具让卖家了解他们的潜在买家。您可以使用采集到的信息来制定亚马逊营销策略，并提高您的亚马逊产品的知名度和排名。

　　我们都知道亚马逊的关键词工具的重要性，本文将为亚马逊的大卖推荐几款常用的工具。

　　1. Ahrefs 站点浏览器

　　Ahrefs网站Browser Reveal关键词通过自然搜索将访问者带到亚马逊页面。在仪表板上，您将看到允许您分析竞争对手数据的各种指标。

　　还可以查看该页面在每个关键词的搜索引擎结果页面中的位置。

　　2. 商家用语

　　MerchantWords 是一个非常流行的关键词研究工具。卖家无需太多 SEO 专业知识即可使用此工具获得有价值的关键词。

　　卖家还可以生成特定于其产品的关键词短语。

　　3.关键字检查器

　　KeywordInspector 提供了许多不同的选项，包括趋势关键词搜索。此功能允许用户每天或每周检查最热门的新关键词。

　　Indexation Tester 和反向 ASIN 功能可帮助您优化亚马逊产品以吸引感兴趣的买家。

　　KeywordInspector 不是免费的。用户必须为他们想要的工具购买积分或购买每月订阅。

　　卖家提示：亚马逊卖家经常忽略的长尾关键词来源是他们的产品评论和卖家反馈。通过查看客户对您的产品的评价，您可以看到他们喜欢的共同特征——因为评论是用他们自己的语言进行的，他们通常可以很好地了解客户重视什么以及他们正在寻找什么。

　　4.科学卖家

　　Scientific Seller 易于使用且完全免费。

　　免费关键词免费关键字研究工具提供准确的亚马逊买家关键词信息。这个过程可能很慢，但为亚马逊卖家提供了相关且高质量的关键词数据。

　　5.谷歌关键字规划师

　　Google AdWords 可能仍然是 Internet 上最流行的广告工具。在其中，您可以免费使用 Google 的 Keyword Planner 来监控和比较关键字趋势。

　　但它可能不是亚马逊卖家从谷歌搜索引擎中查找关键词时最有效的工具。

　　6.关键词工具

　　关键字工具可以为每个搜索词生成多达 750 多个长尾关键词建议。

　　在途中使用这些选项卡，用户可以轻松地在 Google 和 Amazon 之间切换，以获得最好的关键词产品。

　　7. 声纳

　　Sonar 提供免费的 Google Chrome 扩展程序，为卖家提供广告和列表所需的一切关键词。

　　您可以通过免费的反向 ASIN 查找来发现竞争对手的关键词，并在超过 7500 万个真正的亚马逊搜索词中找到最赚钱的关键词。

　　总结

　　在亚马逊竞争日益激烈的市场中，您需要利用所有可用的信息和见解。上面的每个亚马逊关键词工具都可以帮助您采集关键词以增加销售额并优化您的列表。

　　每个工具都是不同的，选择哪种工具取决于您的预算和您需要的功能。多试几次，看看哪一个适合您的电子商务业务。

0

2022-10-24

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

经验:硕士敏感词的第一道难题（2）：如何快速了解某个研究领域的发展历程及代表性文献？

0 个评论

发起人