话题：网站内容抓取 - 自动文章采集器-优采云官网

网站内容抓取

全部内容
精华
推荐
我的收藏
关于话题

百度抓取器会和网站首页进行友好性优化(图)

网站优化 • 优采云发表了文章 • 0 个评论 • 112 次浏览 • 2021-06-17 04:08 • 来自相关话题

　　百度抓取器会和网站首页进行友好性优化(图)
　　首先百度的爬虫会和网站的首页进行交互，得到网站首页后，会理解页面，理解收录（类型，值计算），其次，会把@的所有k14@首页的超链接提取出来了。
　　
　　
　　如上图所示，首页上的超链接称为“post-links”。下一轮爬行时，爬虫会继续与这些超链接页面进行交互，并获取页面进行提炼。一层一层的不断抓取，构成了一个抓取循环。
　　一、Grab-Friendly Optimization1、URL 规范
　　任何资源都是通过 URL 获取的。 URL是相对于网站的门牌号，所以URL规划很重要。尤其是在如上图所示的“待抓取网址”环境下，爬虫在首页的时候，不知道网址长什么样子。
　　优秀网址的特点是主流、简单。你可能不想做出一些让人看起来很直观的非主流风格。
　　优秀网址示例：
　　
　　
　　如上图所示，第一个是百度知道的链接。整个链接分为三个部分。第一部分是网站的站点，第二部分是资源类型，第三部分是资源ID。这种网址很简单，爬虫看起来很不错。
　　如上图，第三篇文章比百度多了一段。首先，第一段是网站的站点，第二段是站点的一级目录，第三段是站点的二级目录。最后一段是网站的内容 ID。像这样的网址也是标准的。
　　不友好网址示例：
　　
　　
　　如上图所示，这种链接乍一看很长很复杂。有经验的站长可以看到，这种网址含有字符，而且这个网址中含有文章的标题，导致网址有偏差。与简单的 URL 相比，较长的相对较长的 URL 没有优势。百度站长平台规则明确规定网址不能超过256字节。我个人建议URL长度控制在100字节以内，100个字符足以显示URL的资源。
　　
　　
　　如上图所示，此网址收录统计参数，可能会造成重复抓取，浪费网站权限。因此，可以不使用参数。如果必须使用参数，也可以保留必要的参数。参数字符实际上是可能的。使用常规连接符，例如“？”和“&”，以避免非主流连接器。
　　2、合理发现链接
　　爬虫从首页开始一层一层的爬取，所以需要做好首页和资源页的URL关系。这个爬虫爬行比较省力。
　　
　　如上图所示，从首页到具体内容的超链接路径关系称为发现链接。目前大部分移动站都不太关注发现链接关系，所以爬虫无法抓取到内容页面。
　　
　　
　　如上图所示，这两个站点是手机网站建站的常用方法。从链接发现的角度来看，这两类网站并不友好。
　　Feed 流推荐：
　　大多数进行流式传输的网站在后端都有大量数据。用户不断刷新时会出现新的内容，但无论刷新多少次，可能只能刷新到1%左右的内容。一个爬虫相当于一个用户。爬虫不可能用这种方式爬取网站的所有内容，所以会导致部分页面被爬取。即使您有 100 万个内容，您也可能只能对其进行抓取。到 1-2 百万。
　　仅搜索条目：
　　如上图所示，首页只有一个搜索框。用户需要输入关键词才能找到对应的内容，但是爬虫不能输入关键词再抓取，所以爬虫只能爬到首页后，没有反向链接，自然爬取和收录会不理想。
　　解决方案：
　　索引页下的内容按发布时间倒序排列。这样做的好处是搜索引擎可以通过索引页抓取你的网站最新资源，并且新发布的资源应该实时在索引页中。同步，很多纯静态网页，内容更新了，但是首页（索引页）不出来。这会导致搜索引擎甚至无法通过索引页面抓取最新的资源。第三点是后链（latest文章的URL）需要在源码中直接暴露出来，方便搜索引擎抓取。最后，索引页不要越多越好。几个高质量的索引页就足够了，比如长城。基本上，只有主页用于索引页面。
　　最后给大家一个更高效的解决方案，就是直接通过百度站长资源平台主动提交资源，让搜索引擎绕过索引页，直接抓取最新的资源。这里有两点需要注意。 .
　　问：提交的资源越多越好吗？
　　A：收录效果的核心始终是内容的质量。如果提交大量低质量、泛滥的资源，将导致惩罚性打击。
　　问：为什么我提交了普通的收录却没有抓到？
　　A：资源提交只能加速资源发现，不能保证短期抓取。当然，百度表示会不断优化算法，让优质内容更快被抓取。
　　3、访问友好
　　抓取器必须与网站进行交互，并且必须保证网站的稳定性，这样抓取器才能正常抓取。那么访问友好性主要包括以下几个方面。
　　访问速度优化：
　　加载时间建议控制在2S以内，所以无论是用户还是爬虫，打开速度更快的网站会更受青睐，其次是避免不必要的跳转。这种情况虽然是一小部分，但是网站里面还是有很多层次的跳转，所以对于爬虫来说，很可能会在多层次跳转的同时断开。一般是把不带www的域名重定向到带WWW的域名，然后带WWW的域名需要重定向到https，最后更换新站。在这种情况下，将有三个或四个级别的重定向。如果有类似网站的修改，建议直接跳转到新域名。查看全部

　　百度抓取器会和网站首页进行友好性优化(图)
　　首先百度的爬虫会和网站的首页进行交互，得到网站首页后，会理解页面，理解收录（类型，值计算），其次，会把@的所有k14@首页的超链接提取出来了。
　　

　　如上图所示，首页上的超链接称为“post-links”。下一轮爬行时，爬虫会继续与这些超链接页面进行交互，并获取页面进行提炼。一层一层的不断抓取，构成了一个抓取循环。
　　一、Grab-Friendly Optimization1、URL 规范
　　任何资源都是通过 URL 获取的。 URL是相对于网站的门牌号，所以URL规划很重要。尤其是在如上图所示的“待抓取网址”环境下，爬虫在首页的时候，不知道网址长什么样子。
　　优秀网址的特点是主流、简单。你可能不想做出一些让人看起来很直观的非主流风格。
　　优秀网址示例：
　　

　　如上图所示，第一个是百度知道的链接。整个链接分为三个部分。第一部分是网站的站点，第二部分是资源类型，第三部分是资源ID。这种网址很简单，爬虫看起来很不错。
　　如上图，第三篇文章比百度多了一段。首先，第一段是网站的站点，第二段是站点的一级目录，第三段是站点的二级目录。最后一段是网站的内容 ID。像这样的网址也是标准的。
　　不友好网址示例：
　　

　　如上图所示，这种链接乍一看很长很复杂。有经验的站长可以看到，这种网址含有字符，而且这个网址中含有文章的标题，导致网址有偏差。与简单的 URL 相比，较长的相对较长的 URL 没有优势。百度站长平台规则明确规定网址不能超过256字节。我个人建议URL长度控制在100字节以内，100个字符足以显示URL的资源。
　　

　　如上图所示，此网址收录统计参数，可能会造成重复抓取，浪费网站权限。因此，可以不使用参数。如果必须使用参数，也可以保留必要的参数。参数字符实际上是可能的。使用常规连接符，例如“？”和“&”，以避免非主流连接器。
　　2、合理发现链接
　　爬虫从首页开始一层一层的爬取，所以需要做好首页和资源页的URL关系。这个爬虫爬行比较省力。
　　

　　如上图所示，从首页到具体内容的超链接路径关系称为发现链接。目前大部分移动站都不太关注发现链接关系，所以爬虫无法抓取到内容页面。
　　

　　如上图所示，这两个站点是手机网站建站的常用方法。从链接发现的角度来看，这两类网站并不友好。
　　Feed 流推荐：
　　大多数进行流式传输的网站在后端都有大量数据。用户不断刷新时会出现新的内容，但无论刷新多少次，可能只能刷新到1%左右的内容。一个爬虫相当于一个用户。爬虫不可能用这种方式爬取网站的所有内容，所以会导致部分页面被爬取。即使您有 100 万个内容，您也可能只能对其进行抓取。到 1-2 百万。
　　仅搜索条目：
　　如上图所示，首页只有一个搜索框。用户需要输入关键词才能找到对应的内容，但是爬虫不能输入关键词再抓取，所以爬虫只能爬到首页后，没有反向链接，自然爬取和收录会不理想。
　　解决方案：
　　索引页下的内容按发布时间倒序排列。这样做的好处是搜索引擎可以通过索引页抓取你的网站最新资源，并且新发布的资源应该实时在索引页中。同步，很多纯静态网页，内容更新了，但是首页（索引页）不出来。这会导致搜索引擎甚至无法通过索引页面抓取最新的资源。第三点是后链（latest文章的URL）需要在源码中直接暴露出来，方便搜索引擎抓取。最后，索引页不要越多越好。几个高质量的索引页就足够了，比如长城。基本上，只有主页用于索引页面。
　　最后给大家一个更高效的解决方案，就是直接通过百度站长资源平台主动提交资源，让搜索引擎绕过索引页，直接抓取最新的资源。这里有两点需要注意。 .
　　问：提交的资源越多越好吗？
　　A：收录效果的核心始终是内容的质量。如果提交大量低质量、泛滥的资源，将导致惩罚性打击。
　　问：为什么我提交了普通的收录却没有抓到？
　　A：资源提交只能加速资源发现，不能保证短期抓取。当然，百度表示会不断优化算法，让优质内容更快被抓取。
　　3、访问友好
　　抓取器必须与网站进行交互，并且必须保证网站的稳定性，这样抓取器才能正常抓取。那么访问友好性主要包括以下几个方面。
　　访问速度优化：
　　加载时间建议控制在2S以内，所以无论是用户还是爬虫，打开速度更快的网站会更受青睐，其次是避免不必要的跳转。这种情况虽然是一小部分，但是网站里面还是有很多层次的跳转，所以对于爬虫来说，很可能会在多层次跳转的同时断开。一般是把不带www的域名重定向到带WWW的域名，然后带WWW的域名需要重定向到https，最后更换新站。在这种情况下，将有三个或四个级别的重定向。如果有类似网站的修改，建议直接跳转到新域名。

腾讯DeepOcean：从互联网上爬取的语料经验分享

网站优化 • 优采云发表了文章 • 0 个评论 • 193 次浏览 • 2021-06-17 02:08 • 来自相关话题

　　
腾讯DeepOcean：从互联网上爬取的语料经验分享
　　用python3教你任何Html主要内容提取功能
　　更新时间：2018-11-05 14:14:41 作者：腾讯深海
　　这个文章主要介绍python3的使用，教大家任意Html主要内容提取功能，主要使用requests、lxml、json等模块。文章一一介绍了这些模块。有需要的朋友可以参考
　　本文将与大家分享一些从互联网上抓取语料的经验。
　　0x1 工具准备
　　工欲善其事，必先利其器。爬取语料库的基础是基于python的。
　　我们基于python3开发，主要使用以下模块：requests, lxml, json。
　　各模块功能简介
　　01｜请求
　　requests 是 Python 第三方库，特别方便处理 URL 资源。它的官方文档上写着一个大大的标语：HTTP for Humans（为人类使用HTTP而生）。对比使用python自带的urllib的体验，笔者认为使用requests的体验比urllib高一个数量级。
　　让我们简单比较一下：
　　网址：
　　
import urllib2
import urllib
URL_GET = "https://api.douban.com/v2/event/list"
#构建请求参数
params = urllib.urlencode({'loc':'108288','day_type':'weekend','type':'exhibition'})
#发送请求
response = urllib2.urlopen('?'.join([URL_GET,'%s'])%params)
#Response Headers
print(response.info())
#Response Code
print(response.getcode())
#Response Body
print(response.read())
　　请求：
　　
import requests
URL_GET = "https://api.douban.com/v2/event/list"
#构建请求参数
params = {'loc':'108288','day_type':'weekend','type':'exhibition'}
#发送请求
response = requests.get(URL_GET,params=params)
#Response Headers
print(response.headers)
#Response Code
print(response.status_code)
#Response Body
print(response.text)
　　我们可以发现这两个库还是有一些区别的：
　　1. 参数构造：urllib需要对参数进行urlencode，比较麻烦；请求不需要额外的编码，非常简洁。
　　2. 请求发送：urllib需要构造额外的url参数，成为符合要求的表单； requests 简洁很多，直接获取对应的链接和参数。
　　3. 连接方法：看返回数据的头信息的“连接”。使用urllib库时，"connection":"close"表示每次请求结束时关闭socket通道，请求库使用urllib3，多次请求复用一个socket，"connection":"keep-alive "，表示多个请求使用一个连接，消耗资源少
　　4.编码方式：requests库的Accept-Encoding编码方式比较完善，这里就不举例了。
　　综上所述，使用requests更加简洁易懂，极大的方便了我们的开发。
　　02｜lxml
　　BeautifulSoup 是一个库，而 XPath 是一种技术。 python中最常用的XPath库是lxml。
　　当我们得到请求返回的页面时，如何得到我们想要的数据？此时，lxml 是一个强大的 HTML/XML 解析工具。 Python从不缺少解析库，那么为什么要在众多库中选择lxml呢？我们选择另一个知名的HTML解析库BeautifulSoup进行对比。
　　让我们简单比较一下：
　　美汤：
　　
from bs4 import BeautifulSoup #导入库
# 假设html是需要被解析的html
#将html传入BeautifulSoup 的构造方法,得到一个文档的对象
soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')
#查找所有的h4标签
links = soup.find_all("h4")
　　lxml:
　　
from lxml import etree
# 假设html是需要被解析的html
#将html传入etree 的构造方法,得到一个文档的对象
root = etree.HTML(html)
#查找所有的h4标签
links = root.xpath("//h4")
　　我们可以发现这两个库还是有一些区别的：
　　1.解析html：BeautifulSoup的解析方法和JQ类似。 API 非常人性化，支持 css 选择器； lxml的语法有一定的学习成本
　　2.性能：BeautifulSoup是基于DOM的，会加载整个文档，解析整个DOM树，所以时间和内存开销会大很多；而lxml只会部分遍历，lxml是c写的，BeautifulSoup是python写的，明显的表现就是lxml>>BeautifulSoup。
　　综上所述，使用BeautifulSoup更加简洁易用。 lxml虽然有一定的学习成本，但也非常简单易懂。最重要的是它是用 C 编写的，而且速度要快得多。这是给作者的。有症状，自然选择lxml。
　　03｜json
　　Python 自带 json 库。对于基本的json处理，自己的库就完全够用了。但是如果你想更懒，可以使用第三方json库，常见的有demjson和simplejson。
　　这两个库，无论是导入模块的速度，还是编解码的速度，simplejson都比较好，simplejson的兼容性也比较好。所以如果要使用square库，可以使用simplejson。
　　0x2 确定语料来源
　　准备好武器后，下一步就是确定爬升的方向。
　　以电竞语料库为例，现在我们要爬取电竞相关语料库。熟悉的电竞平台有企鹅电竞、企鹅电竞和企鹅电竞（眯眼），所以我们以企鹅电竞的直播游戏为数据源进行爬取。
　　我们登录企鹅电竞官网，进入游戏列表页面。我们可以发现页面上有很多游戏。手动编写这些游戏名称的收益显然不高，于是我们开始了我们爬虫的第一步：游戏列表爬取。
　　
　　
import requests
from lxml import etree
# 更新游戏列表
def _updateGameList():
# 发送HTTP请求时的HEAD信息，用于伪装为浏览器
heads = {
'Connection': 'Keep-Alive',
'Accept': 'text/html, application/xhtml+xml, */*',
'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
'Accept-Encoding': 'gzip, deflate',
'User-Agent': 'Mozilla/6.1 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}
# 需要爬取的游戏列表页
url = 'https://egame.qq.com/gamelist'
# 不压缩html，最大链接时间为10妙
res = requests.get(url, headers=heads, verify=False, timeout=10)
# 为防止出错，编码utf-8
res.encoding = 'utf-8'
# 将html构建为Xpath模式
root = etree.HTML(res.content)
# 使用Xpath语法，获取游戏名
gameList = root.xpath("//ul[@class='livelist-mod']//li//p//text()")
# 输出爬到的游戏名
print(gameList)
　　我们拿到这几十款游戏后，下一步就是爬取这几十款游戏。这时候问题来了，这几十款游戏我们要从哪个网站爬取呢tappap呢？多玩？ 17173？对这些网站进行分析后发现，这些网站只有一些热门游戏文章语料，一些冷门或不受欢迎的游戏，比如《灵魂讨价还价》、《奇迹：觉醒》、《死神》来”等，很难在这些网站上找到大量文章语料库，如图：
　　
　　我们可以发现《奇迹：觉醒》和《灵魂讨价还价》的文章语料库非常少，数量不符合我们的要求。那么有没有更通用的资源站点，拥有极其丰富的文章语料库，可以满足我们的需求。
　　其实，冷静下来考虑一下。我们每天都在使用这个资源网站，那就是百度。我们在百度新闻中搜索相关游戏，得到了一个搜索结果列表。几乎所有链接到这些列表的网页都与搜索结果密切相关。这样就可以轻松解决数据源不足的问题。但是这时候出现了一个新问题，又是一个比较难解决的问题——如何抓取任意网页的文章内容？
　　因为不同的网站有不同的页面结构，我们无法预测哪些网站数据会被爬取，而且我们不可能为每个网站写一个爬虫，所以工作量是难以想象的！但是我们不能简单粗暴地抓取页面上的所有文字，使用这样的语料进行训练无疑是一场噩梦！
　　和各种网站斗智勇斗智斗勇，打听资料，思考，终于找到了一个比较大的方案。给大家说说作者的想法。
　　0x3 任何网站的文章语料爬行
　　01｜提取方法
　　1）基于Dom树提取文本
　　2）基于页面分割查找正文块
　　3）基于标记窗口的文本提取
　　4）基于数据挖掘或机器学习
　　5）基于行块分布函数的文本提取
　　02｜提取原理
　　大家看到这些类型都有点懵，究竟是怎么提取出来的？让作者慢慢说。
　　1）基于Dom树的文本提取：
　　这种方法主要是通过更规范的HTML构建一个Dom树，然后基柜遍历Dom，对比识别各种非文本信息，包括广告、链接和非重要节点信息，提取非-text information ，剩下的自然就是短信了。
　　但是这个方法有两个问题
　　① 它特别依赖于 HTML 的良好结构。如果我们抓取的网页不是按照 W3c 规范编写的，这种方法不是很合适。
　　②树的建立和遍历的时间复杂度和空间复杂度都很高，而且由于HTML标签不同，树的遍历方法也不同。
　　2)根据分页查找文本块：
　　此方法使用 HTML 标签中的分割线和一些视觉信息（如文本颜色、字体大小、文本信息等）。
　　这个方法有问题：
　　① 不同的网站HTML 风格差异很大，没有办法统一划分，也不能保证通用性。
　　3)基于标记窗口的文本提取：
　　首先科普的概念——标签窗口，我们把两个标签和里面收录的文字组合成一个标签窗口（比如h1中的“我是h1”就是标签窗口的内容），取出标签窗口的文本。
　　该方法首先取文章标题和HTML中的所有标记窗口，然后对它们进行分词。然后计算标题的序列和标签窗口的文本序列之间的词距L。如果 L 小于阈值，则将标签窗口中的文本视为主要文本。
　　这个方法虽然看起来不错，但实际上是有问题的：
　　① 需要对页面上的所有文字进行分段，效率不高。
　　②词距阈值难以确定，不同的文章阈值不同。
　　4）基于数据挖掘或机器学习
　　使用大数据进行训练，让机器提取正文。
　　这个方法绝对是优秀的，但是需要训练前的html和text数据。我们不会在这里讨论。
　　5）基于行块分布函数的文本提取
　　对于任何网页，其正文和标签总是混合在一起。这种方法的核心有一个亮点：①身体面积的密度； ②线块的长度；一个网页的body区域一定是文本信息分布最密集的区域之一，这个区域可能是最大的（长评论信息和短文本）。因此，同时判断块长。
　　实施思路：
　　①我们先把标签中的HTML去掉，只留下所有的文字，去掉标签后留下所有空白的位置信息，我们称之为Ctext；
　　②为每个Ctext取周围k行(k
　　③从Cblock中去除所有空白字符，文本总长度称为Clen；
　　④ 以Ctext为横坐标，每行的Clen为纵坐标，建立坐标系。
　　以这个网页为例：网页的文本区域从第145行到第182行。
　　
　　从上图可以看出，正确的文本区域都是分布函数图上值最高的连续区域。该区域通常收录一个膨胀点和一个凹陷点。因此，将网页正文的提取问题转化为线块分布函数上的膨胀点和下垂点两个边界点。这两个边界点所收录的区域收录当前网页的最大行块长度并且是连续的。 .
　　经过大量实验证明，该方法对中文网页文本的提取具有较高的准确率。这种算法的优点是行块功能不依赖于HTML代码，与HTML标签无关。实现简单，准确率高。 .
　　主要逻辑代码如下：
　　
# 假设content为已经拿到的html
# Ctext取周围k行(k max_text_len and (not boolstart)):
# Cblock下面3个都不为0，认为是正文
if (Ctext_len[i + 1] != 0 or Ctext_len[i + 2] != 0 or Ctext_len[i + 3] != 0):
boolstart = True
start = i
continue
if (boolstart):
# Cblock下面3个中有0，则结束
if (Ctext_len[i] == 0 or Ctext_len[i + 1] == 0):
end = i
boolend = True
tmp = []
# 判断下面还有没有正文
if(boolend):
for ii in range(start, end + 1):
if(len(lines[ii]) < 5):
continue
tmp.append(lines[ii] + "n")
str = "".join(list(tmp))
# 去掉版权信息
if ("Copyright" in str or "版权所有" in str):
continue
main_text.append(str)
boolstart = boolend = False
# 返回主内容
result = "".join(list(main_text))
　　0x4 结论
　　此时，我们可以获取任何内容的文章语料库，但这只是开始。得到这些语料后，我们需要进行清洗、分词、词性标注等，才能得到一个真正可用的语料。
　　总结
　　以上就是小编给大家介绍的使用python3教大家任何Html主要内容提取功能，希望对大家有所帮助，有问题请给我留言，小编会回复的及时给你。非常感谢您对Script Home网站的支持！查看全部

　　
import requests
from lxml import etree
# 更新游戏列表
def _updateGameList():
# 发送HTTP请求时的HEAD信息，用于伪装为浏览器
heads = {
'Connection': 'Keep-Alive',
'Accept': 'text/html, application/xhtml+xml, */*',
'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
'Accept-Encoding': 'gzip, deflate',
'User-Agent': 'Mozilla/6.1 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}
# 需要爬取的游戏列表页
url = 'https://egame.qq.com/gamelist'
# 不压缩html，最大链接时间为10妙
res = requests.get(url, headers=heads, verify=False, timeout=10)
# 为防止出错，编码utf-8
res.encoding = 'utf-8'
# 将html构建为Xpath模式
root = etree.HTML(res.content)
# 使用Xpath语法，获取游戏名
gameList = root.xpath("//ul[@class='livelist-mod']//li//p//text()")
# 输出爬到的游戏名
print(gameList)
　　我们拿到这几十款游戏后，下一步就是爬取这几十款游戏。这时候问题来了，这几十款游戏我们要从哪个网站爬取呢tappap呢？多玩？ 17173？对这些网站进行分析后发现，这些网站只有一些热门游戏文章语料，一些冷门或不受欢迎的游戏，比如《灵魂讨价还价》、《奇迹：觉醒》、《死神》来”等，很难在这些网站上找到大量文章语料库，如图：
　　

　　我们可以发现《奇迹：觉醒》和《灵魂讨价还价》的文章语料库非常少，数量不符合我们的要求。那么有没有更通用的资源站点，拥有极其丰富的文章语料库，可以满足我们的需求。
　　其实，冷静下来考虑一下。我们每天都在使用这个资源网站，那就是百度。我们在百度新闻中搜索相关游戏，得到了一个搜索结果列表。几乎所有链接到这些列表的网页都与搜索结果密切相关。这样就可以轻松解决数据源不足的问题。但是这时候出现了一个新问题，又是一个比较难解决的问题——如何抓取任意网页的文章内容？
　　因为不同的网站有不同的页面结构，我们无法预测哪些网站数据会被爬取，而且我们不可能为每个网站写一个爬虫，所以工作量是难以想象的！但是我们不能简单粗暴地抓取页面上的所有文字，使用这样的语料进行训练无疑是一场噩梦！
　　和各种网站斗智勇斗智斗勇，打听资料，思考，终于找到了一个比较大的方案。给大家说说作者的想法。
　　0x3 任何网站的文章语料爬行
　　01｜提取方法
　　1）基于Dom树提取文本
　　2）基于页面分割查找正文块
　　3）基于标记窗口的文本提取
　　4）基于数据挖掘或机器学习
　　5）基于行块分布函数的文本提取
　　02｜提取原理
　　大家看到这些类型都有点懵，究竟是怎么提取出来的？让作者慢慢说。
　　1）基于Dom树的文本提取：
　　这种方法主要是通过更规范的HTML构建一个Dom树，然后基柜遍历Dom，对比识别各种非文本信息，包括广告、链接和非重要节点信息，提取非-text information ，剩下的自然就是短信了。
　　但是这个方法有两个问题
　　① 它特别依赖于 HTML 的良好结构。如果我们抓取的网页不是按照 W3c 规范编写的，这种方法不是很合适。
　　②树的建立和遍历的时间复杂度和空间复杂度都很高，而且由于HTML标签不同，树的遍历方法也不同。
　　2)根据分页查找文本块：
　　此方法使用 HTML 标签中的分割线和一些视觉信息（如文本颜色、字体大小、文本信息等）。
　　这个方法有问题：
　　① 不同的网站HTML 风格差异很大，没有办法统一划分，也不能保证通用性。
　　3)基于标记窗口的文本提取：
　　首先科普的概念——标签窗口，我们把两个标签和里面收录的文字组合成一个标签窗口（比如h1中的“我是h1”就是标签窗口的内容），取出标签窗口的文本。
　　该方法首先取文章标题和HTML中的所有标记窗口，然后对它们进行分词。然后计算标题的序列和标签窗口的文本序列之间的词距L。如果 L 小于阈值，则将标签窗口中的文本视为主要文本。
　　这个方法虽然看起来不错，但实际上是有问题的：
　　① 需要对页面上的所有文字进行分段，效率不高。
　　②词距阈值难以确定，不同的文章阈值不同。
　　4）基于数据挖掘或机器学习
　　使用大数据进行训练，让机器提取正文。
　　这个方法绝对是优秀的，但是需要训练前的html和text数据。我们不会在这里讨论。
　　5）基于行块分布函数的文本提取
　　对于任何网页，其正文和标签总是混合在一起。这种方法的核心有一个亮点：①身体面积的密度； ②线块的长度；一个网页的body区域一定是文本信息分布最密集的区域之一，这个区域可能是最大的（长评论信息和短文本）。因此，同时判断块长。
　　实施思路：
　　①我们先把标签中的HTML去掉，只留下所有的文字，去掉标签后留下所有空白的位置信息，我们称之为Ctext；
　　②为每个Ctext取周围k行(k
　　③从Cblock中去除所有空白字符，文本总长度称为Clen；
　　④ 以Ctext为横坐标，每行的Clen为纵坐标，建立坐标系。
　　以这个网页为例：网页的文本区域从第145行到第182行。
　　

　　从上图可以看出，正确的文本区域都是分布函数图上值最高的连续区域。该区域通常收录一个膨胀点和一个凹陷点。因此，将网页正文的提取问题转化为线块分布函数上的膨胀点和下垂点两个边界点。这两个边界点所收录的区域收录当前网页的最大行块长度并且是连续的。 .
　　经过大量实验证明，该方法对中文网页文本的提取具有较高的准确率。这种算法的优点是行块功能不依赖于HTML代码，与HTML标签无关。实现简单，准确率高。 .
　　主要逻辑代码如下：
　　
# 假设content为已经拿到的html
# Ctext取周围k行(k max_text_len and (not boolstart)):
# Cblock下面3个都不为0，认为是正文
if (Ctext_len[i + 1] != 0 or Ctext_len[i + 2] != 0 or Ctext_len[i + 3] != 0):
boolstart = True
start = i
continue
if (boolstart):
# Cblock下面3个中有0，则结束
if (Ctext_len[i] == 0 or Ctext_len[i + 1] == 0):
end = i
boolend = True
tmp = []
# 判断下面还有没有正文
if(boolend):
for ii in range(start, end + 1):
if(len(lines[ii]) < 5):
continue
tmp.append(lines[ii] + "n")
str = "".join(list(tmp))
# 去掉版权信息
if ("Copyright" in str or "版权所有" in str):
continue
main_text.append(str)
boolstart = boolend = False
# 返回主内容
result = "".join(list(main_text))
　　0x4 结论
　　此时，我们可以获取任何内容的文章语料库，但这只是开始。得到这些语料后，我们需要进行清洗、分词、词性标注等，才能得到一个真正可用的语料。
　　总结
　　以上就是小编给大家介绍的使用python3教大家任何Html主要内容提取功能，希望对大家有所帮助，有问题请给我留言，小编会回复的及时给你。非常感谢您对Script Home网站的支持！

SEO（搜索引擎优化）推广中最重要的关键词

网站优化 • 优采云发表了文章 • 0 个评论 • 125 次浏览 • 2021-06-17 02:02 • 来自相关话题

　　SEO（搜索引擎优化）推广中最重要的关键词
　　对于SEO来说，只要搜索引擎多爬取网站页面来提高收录和排名，但是有时候蜘蛛不会主动爬取网站，这个时候就需要人工检查搜索引擎来引导，而然后提升排名和收录，今天小编就给大家分享下8个帮助搜索引擎爬取网站页面的方法。
　　
　　提高网站最重要的关键词，在主要搜索平台的排名，这是SEO（搜索引擎优化）推广中最重要的策略。搜索引擎平台的“搜索机器人蜘蛛”会自动抓取网页内容，所以SEO（搜索引擎优化）的推广策略应该从优化网页开始。
　　1、添加页面标题
　　为每个网页的内容写一个 5-8 个字的描述性标题。标题要简洁，去掉一些繁琐、多余、不重要的词，说明页面和网站最重要的内容是什么。页面的标题会出现在搜索结果页面的链接上，所以可以写得略带挑逗性，以吸引搜索者点击链接。同时，在首页的内容中写上你认为最重要的公司名称和关键词，而不仅仅是公司名称。
　　2、添加描述性元标记
　　元素可以提供有关页面的元信息，例如搜索引擎和更新频率的描述以及关键词。
　　除了页面标题，很多搜索引擎都会找到元标签。这是描述网页主体内容的描述性语句。句子中还应包括关键词、本页使用的短语等。
　　目前带有关键词的meta标签对网站排名帮助不大，但有时meta标签用于付费登录技术。谁知道什么时候，搜索引擎会再次关注它？
　　3、还将您的关键词嵌入网页的粗体文本中（通常为“文章title”）。
　　搜索引擎非常重视粗体文字，会认为这是这个页面上非常重要的内容。因此，请确保将您的关键词写在一两个粗体文本标签中。
　　4、确保关键词出现在文本的第一段
　　搜索引擎希望在第一段能找到你的关键词，但不要太多关键词。谷歌大概认为全文每100字出现“1.5-2个关键词”为最佳关键词密度，可以获得更好的排名。
　　其他可以考虑关键词的地方可以在代码的ALT标签或COMMENT标签中。
　　5、导航设计应该易于被搜索引擎搜索
　　有些人在网页创建中使用框架，但这对搜索引擎来说是一个严重的问题。即使搜索引擎抓取了您的内容页面，也可能会错过关键的导航项，从而无法进一步搜索其他页面。
　　用Java和Flash制作的导航按钮看起来很漂亮很漂亮，但搜索引擎却找不到。补救的办法是在页面底部用一个普通的HTML链接做一个导航栏，保证通过这个导航栏的链接可以进入网站的每一页。您还可以制作网站地图或链接到每个网站页面。此外，一些内容管理系统和电子商务目录使用动态网页。这些页面的 URL 通常有一个问号，后跟一个数字。过度工作的搜索引擎经常停在问号前，停止搜索。这种情况可以通过更改URL（统一资源定位器）、付费登录等方式解决。
　　6、专门为一些特别重要的关键词制作了几个页面
　　SEO（搜索引擎优化）专家不建议搜索引擎使用任何欺骗性的过渡页面，因为这些页面几乎是复制页面，可能会受到搜索引擎的惩罚。但是你可以做几个网页，每个网页收录不同的关键词，短语。例如：您不需要在某个页面上介绍您的所有服务，而是为每个服务制作一个单独的页面。这样，每个页面都有一个对应的关键词，这些页面的内容会增加网站的排名，因为它收录有针对性的关键词而不是一般内容。
　　7、向搜索引擎提交网页
　　找到“添加您的网址”的链接。 (网站login) 在搜索引擎上。搜索机器人（robot）会自动索引您提交的网页。美国最著名的搜索引擎是：Google、Inktomi、Alta Vista 和 Tehoma。
　　这些搜索引擎向其他主要搜索引擎平台和门户网站提供搜索内容。您可以发布到欧洲和其他地区的区域搜索引擎。
　　至于花钱请人帮你提交“成百上千”的搜索引擎，其实是白花钱。不要使用FFA（Free For All pages）网站，即自动将您的网站免费提交给数百个搜索引擎的所谓网站。这种提交不仅效果不好，还会给你带来大量垃圾邮件，还可能导致搜索引擎平台惩罚你的网站。
　　8、调整重要内容页面提升排名
　　对您认为最重要的页面（可能是主页）进行一些调整，以提高其排名。有一些软件可以让你查看你当前的排名，比较与你相同关键词的竞争对手的网页排名，并获得搜索引擎对你网页的首选统计数据，以便你对你的网页进行调整。
　　还有一种提高网站搜索排名的方法，就是部署安装SSL证书。以“https”开头的网站在搜索引擎平台上会有更好的排名效果。百度和谷歌都明确表示会优先考虑收录“https”网站。
　　百度官方表示一直支持“https”，将“https”作为网站影响搜索排名的优质功能之一，为“https站点”提供多维度支持。网站如果要以“https”开头，则必须安装并部署SSL证书。当您的网站安装部署SSL证书时，您将获得“百度蜘蛛”权重倾斜，可以使网站的排名上升并保持稳定。
　　这些是搜索引擎主动抓取我们网站页面的方法。希望南方联合小编的分享对大家有所帮助。南联专业提供香港主机租用、香港服务器租用、服务器托管、云主机租用等服务，详情欢迎咨询客服。查看全部

　　SEO（搜索引擎优化）推广中最重要的关键词
　　对于SEO来说，只要搜索引擎多爬取网站页面来提高收录和排名，但是有时候蜘蛛不会主动爬取网站，这个时候就需要人工检查搜索引擎来引导，而然后提升排名和收录，今天小编就给大家分享下8个帮助搜索引擎爬取网站页面的方法。
　　

　　提高网站最重要的关键词，在主要搜索平台的排名，这是SEO（搜索引擎优化）推广中最重要的策略。搜索引擎平台的“搜索机器人蜘蛛”会自动抓取网页内容，所以SEO（搜索引擎优化）的推广策略应该从优化网页开始。
　　1、添加页面标题
　　为每个网页的内容写一个 5-8 个字的描述性标题。标题要简洁，去掉一些繁琐、多余、不重要的词，说明页面和网站最重要的内容是什么。页面的标题会出现在搜索结果页面的链接上，所以可以写得略带挑逗性，以吸引搜索者点击链接。同时，在首页的内容中写上你认为最重要的公司名称和关键词，而不仅仅是公司名称。
　　2、添加描述性元标记
　　元素可以提供有关页面的元信息，例如搜索引擎和更新频率的描述以及关键词。
　　除了页面标题，很多搜索引擎都会找到元标签。这是描述网页主体内容的描述性语句。句子中还应包括关键词、本页使用的短语等。
　　目前带有关键词的meta标签对网站排名帮助不大，但有时meta标签用于付费登录技术。谁知道什么时候，搜索引擎会再次关注它？
　　3、还将您的关键词嵌入网页的粗体文本中（通常为“文章title”）。
　　搜索引擎非常重视粗体文字，会认为这是这个页面上非常重要的内容。因此，请确保将您的关键词写在一两个粗体文本标签中。
　　4、确保关键词出现在文本的第一段
　　搜索引擎希望在第一段能找到你的关键词，但不要太多关键词。谷歌大概认为全文每100字出现“1.5-2个关键词”为最佳关键词密度，可以获得更好的排名。
　　其他可以考虑关键词的地方可以在代码的ALT标签或COMMENT标签中。
　　5、导航设计应该易于被搜索引擎搜索
　　有些人在网页创建中使用框架，但这对搜索引擎来说是一个严重的问题。即使搜索引擎抓取了您的内容页面，也可能会错过关键的导航项，从而无法进一步搜索其他页面。
　　用Java和Flash制作的导航按钮看起来很漂亮很漂亮，但搜索引擎却找不到。补救的办法是在页面底部用一个普通的HTML链接做一个导航栏，保证通过这个导航栏的链接可以进入网站的每一页。您还可以制作网站地图或链接到每个网站页面。此外，一些内容管理系统和电子商务目录使用动态网页。这些页面的 URL 通常有一个问号，后跟一个数字。过度工作的搜索引擎经常停在问号前，停止搜索。这种情况可以通过更改URL（统一资源定位器）、付费登录等方式解决。
　　6、专门为一些特别重要的关键词制作了几个页面
　　SEO（搜索引擎优化）专家不建议搜索引擎使用任何欺骗性的过渡页面，因为这些页面几乎是复制页面，可能会受到搜索引擎的惩罚。但是你可以做几个网页，每个网页收录不同的关键词，短语。例如：您不需要在某个页面上介绍您的所有服务，而是为每个服务制作一个单独的页面。这样，每个页面都有一个对应的关键词，这些页面的内容会增加网站的排名，因为它收录有针对性的关键词而不是一般内容。
　　7、向搜索引擎提交网页
　　找到“添加您的网址”的链接。 (网站login) 在搜索引擎上。搜索机器人（robot）会自动索引您提交的网页。美国最著名的搜索引擎是：Google、Inktomi、Alta Vista 和 Tehoma。
　　这些搜索引擎向其他主要搜索引擎平台和门户网站提供搜索内容。您可以发布到欧洲和其他地区的区域搜索引擎。
　　至于花钱请人帮你提交“成百上千”的搜索引擎，其实是白花钱。不要使用FFA（Free For All pages）网站，即自动将您的网站免费提交给数百个搜索引擎的所谓网站。这种提交不仅效果不好，还会给你带来大量垃圾邮件，还可能导致搜索引擎平台惩罚你的网站。
　　8、调整重要内容页面提升排名
　　对您认为最重要的页面（可能是主页）进行一些调整，以提高其排名。有一些软件可以让你查看你当前的排名，比较与你相同关键词的竞争对手的网页排名，并获得搜索引擎对你网页的首选统计数据，以便你对你的网页进行调整。
　　还有一种提高网站搜索排名的方法，就是部署安装SSL证书。以“https”开头的网站在搜索引擎平台上会有更好的排名效果。百度和谷歌都明确表示会优先考虑收录“https”网站。
　　百度官方表示一直支持“https”，将“https”作为网站影响搜索排名的优质功能之一，为“https站点”提供多维度支持。网站如果要以“https”开头，则必须安装并部署SSL证书。当您的网站安装部署SSL证书时，您将获得“百度蜘蛛”权重倾斜，可以使网站的排名上升并保持稳定。
　　这些是搜索引擎主动抓取我们网站页面的方法。希望南方联合小编的分享对大家有所帮助。南联专业提供香港主机租用、香港服务器租用、服务器托管、云主机租用等服务，详情欢迎咨询客服。

百度搜索引擎不抓取网站的内容不会有排名的

网站优化 • 优采云发表了文章 • 0 个评论 • 96 次浏览 • 2021-06-17 02:01 • 来自相关话题

　　百度搜索引擎不抓取网站的内容不会有排名的
　　网站在互联网企业的发展中扮演着重要的角色。如果网站能在搜索引擎首页排名，那么看到网站的用户就会很多，网站也会获得更多的流量，转化率也会相应提高。
　　但是有些SEO人员在做企业网站排名优化时，会遇到这样的情况，就是网站正常更新，百度搜索引擎不抓取网站的内容，所以网站不会排名，这是为什么呢？
　　
　　
　　1、网站重重低
　　如果网站的权重很低，会导致百度搜索引擎无法抓取网站的内容。因此，想要百度搜索引擎抓取网站内容，需要提高网站的整体质量和权重，这也有利于网站排名。
　　2、网站server
　　如果网站服务器不稳定，安全性相对较差，百度搜索引擎将无法抓取网站内容。因此，在选择服务器时，一定要选择独立、稳定、安全性高的服务器。只有这样的服务器才有利于网站内容的收录。
　　3、网站被处罚
　　一些SEO人员在做网站优化时，会过度优化网站。这不仅不会提升网站的排名，还会让网站受到搜索引擎的惩罚，导致网站的内容不是收录。如果遇到这种情况，一定要及时调整优化策略，这样网站的内容才能被搜索引擎收录再次搜索到。
　　4、动态页面
　　如果网站页面是动态的，百度搜索引擎很难抓取页面内容。因此需要调整页面静态获取伪静态页面，方便百度搜索引擎抓取网站内容。
　　5、常对网站改版
　　如果SEO人员经常修改网站，也会导致这种情况发生。因此，在确定网站结构后，一定不要轻易修改网站的版本，以免出现这种情况。
　　简而言之，当网站内容无法被百度搜索引擎抓取时，您必须详细检查网站，找出原因，然后解决问题。只有这样网站才能有更好的一个扩展能力。
　　蝙蝠侠 IT
　　为什么百度网站的内容爬不出来？ -蝙蝠侠 IT
　　
　　转载需授权！查看全部

　　1、网站重重低
　　如果网站的权重很低，会导致百度搜索引擎无法抓取网站的内容。因此，想要百度搜索引擎抓取网站内容，需要提高网站的整体质量和权重，这也有利于网站排名。
　　2、网站server
　　如果网站服务器不稳定，安全性相对较差，百度搜索引擎将无法抓取网站内容。因此，在选择服务器时，一定要选择独立、稳定、安全性高的服务器。只有这样的服务器才有利于网站内容的收录。
　　3、网站被处罚
　　一些SEO人员在做网站优化时，会过度优化网站。这不仅不会提升网站的排名，还会让网站受到搜索引擎的惩罚，导致网站的内容不是收录。如果遇到这种情况，一定要及时调整优化策略，这样网站的内容才能被搜索引擎收录再次搜索到。
　　4、动态页面
　　如果网站页面是动态的，百度搜索引擎很难抓取页面内容。因此需要调整页面静态获取伪静态页面，方便百度搜索引擎抓取网站内容。
　　5、常对网站改版
　　如果SEO人员经常修改网站，也会导致这种情况发生。因此，在确定网站结构后，一定不要轻易修改网站的版本，以免出现这种情况。
　　简而言之，当网站内容无法被百度搜索引擎抓取时，您必须详细检查网站，找出原因，然后解决问题。只有这样网站才能有更好的一个扩展能力。
　　蝙蝠侠 IT
　　为什么百度网站的内容爬不出来？ -蝙蝠侠 IT
　　

　　转载需授权！

ASP.NET核心代码：用Stream读取3、网页内容POST

网站优化 • 优采云发表了文章 • 0 个评论 • 145 次浏览 • 2021-06-17 01:42 • 来自相关话题

　　ASP.NET核心代码：用Stream读取3、网页内容POST
　　在ASP.NET中抓取网页内容非常方便，解决了ASP中困扰我们的编码问题。
　　1、抓取一般内容
　　需要三个类：WebRequest、WebResponse、StreamReader
　　必需的命名空间：System.Net、System.IO
　　核心代码：
　　WebRequest类的Create是一个静态方法，参数是要爬取的网页的URL；
　　Encoding 指定编码。编码有ASCII、UTF32、UTF8等通用编码属性，但没有gb2312的编码属性，所以我们使用GetEncoding获取gb2312编码。
　　private string GetGeneralContent(string strUrl)
{
string strMsg = string.Empty;
try
{
WebRequest request = WebRequest.Create(strUrl);
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));
strMsg = reader.ReadToEnd();
reader.Close();
reader.Dispose();
response.Close();
}
catch
{ }
return strMsg;
}
　　2、抓取图片或其他二进制文件（如文件）需要四个类：WebRequest、WebResponse、Stream、FileStream。所需命名空间：System.Net、System.IO 核心代码：Reading with Stream
　　private string GetFileContent(string strUrl)
{
string strMsg = string.Empty;
try
{
WebRequest request = WebRequest.Create(strUrl);
WebResponse response = request.GetResponse();
Stream reader = response.GetResponseStream();

//可根据实际保存为具体文件
FileStream writer = new FileStream("D:\\logo.gif", FileMode.OpenOrCreate, FileAccess.Write);
byte[] buff = new byte[512];
int c = 0; //实际读取的字节数
while ((c=reader.Read(buff, 0, buff.Length)) > 0)
{
writer.Write(buff, 0, c);
}
writer.Close();
writer.Dispose();

reader.Close();
reader.Dispose();
response.Close();
strMsg = "保存成功";
}
catch
{ }
return strMsg;
}
　　3、Grab 网页内容 POST 方式抓取网页时，有时需要通过 Post 的方式向服务器发送一些数据。在网页抓取程序中加入如下代码，实现用户将用户名和密码发布到服务器：
　　private string GetPostContent(string strUrl)
{
string strMsg = string.Empty;
try
{
string data = "userName=admin&passwd=admin888";
byte[] requestBuffer = System.Text.Encoding.GetEncoding("gb2312").GetBytes(data);
WebRequest request = WebRequest.Create(strUrl);
request.Method = "POST";
request.ContentType = "application/x-www-form-urlencoded";
request.ContentLength = requestBuffer.Length;
using (Stream requestStream = request.GetRequestStream())
{
requestStream.Write(requestBuffer, 0, requestBuffer.Length);
requestStream.Close();
}
WebResponse response = request.GetResponse();
using (StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312")))
{
strMsg = reader.ReadToEnd();
reader.Close();
}
}
catch
{ }
return strMsg;
}
　　4、ASP.NET 捕获网页内容-防止重定向。在抓取网页时，在成功登录服务器应用系统后，应用系统可以通过Response.Redirect对网页进行重定向。如果你不需要响应这个重定向Orientation，那么，我们不把reader.ReadToEnd()给Response.Write，就是这样。 5、ASP.NET 抓取网页内容保持登录状态使用Post数据成功登录服务器应用系统后，就可以抓取需要登录的页面了。那么我们可能需要在多个之间保持登录状态要求。首先，我们要使用 HttpWebRequest 而不是 WebRequest。与WebRequest相比，变化的代码是：
　　HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(strUrl);
　　注意：HttpWebRequest.Create返回的类型仍然是WebRequest，需要进行转换。二、使用CookieContainer。
　　System.Net.CookieContainer cc = new System.Net.CookieContainer();
request.CookieContainer = cc;
request2.CookieContainer = cc;
　　这样，request和request2之间使用了同一个Session。如果 request 已登录，则 request2 也已登录。
　　最后，如何在不同页面之间使用相同的CookieContainer。
　　不同页面之间要使用同一个CookieContainer，只需要在Session中添加CookieContainer即可。
　　Session.Add("ccc", cc); //存
CookieContainer cc = (CookieContainer)Session["ccc"]; //取Session
　　6、ASP.NET 抓取网页内容——将当前会话带到 WebRequest 中
　　比如浏览器B1访问服务器端S1，这会产生一个会话，服务器端S2使用WebRequest访问服务器端S1，就会产生一个会话。当前要求WebRequest使用浏览器B1和S1之间的会话，这意味着S1应该认为B1正在访问S1，而不是S2正在访问S1。
　　这就是cookies的使用。先在S1中获取SessionID为B1的Cookie，然后将这个Cookie告诉S2，S2将Cookie写入WebRequest中。
　　WebRequest request = WebRequest.Create("url");
request.Headers.Add(HttpRequestHeader.Cookie, "ASPSESSIONIDSCATBTAD=KNNDKCNBONBOOBIHHHHAOKDM;");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));
Response.Write(reader.ReadToEnd());
reader.Close();
reader.Dispose();
response.Close();
　　我想解释一下：
　　本文不是 Cookie 欺骗，因为 SessionID 是 S1 告诉 S2 的，并没有被 S2 窃取。虽然有点奇怪，但在某些特定的应用系统中可能会有用。
　　S1 必须将 Session 写入 B1，这样 SessionID 将保存在 Cookie 中，SessionID 将保持不变。
　　Request.Cookies 用于在 ASP.NET 中获取 cookie。本文假设已获取 cookie。
　　不同的服务器端语言对Cookie中的SessionID有不同的名称。本文为ASP SessionID。
　　S1 可能不仅依赖 SessionID 来确定当前登录，还可能辅助 Referer、User-Agent 等，具体取决于 S1 终端程序的设计。
　　这篇文章其实是本系列中另一种“保持登录”的方式。
　　7、ASP.NET 抓取网页内容-如何更改源Referer和UserAgent
　　HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create("http://127.0.0.1/index.htm");
request.Referer = "http://www.csdn.net/";
request.UserAgent = "要设置的标头";
//下一步的处理查看全部

　　ASP.NET核心代码：用Stream读取3、网页内容POST
　　在ASP.NET中抓取网页内容非常方便，解决了ASP中困扰我们的编码问题。
　　1、抓取一般内容
　　需要三个类：WebRequest、WebResponse、StreamReader
　　必需的命名空间：System.Net、System.IO
　　核心代码：
　　WebRequest类的Create是一个静态方法，参数是要爬取的网页的URL；
　　Encoding 指定编码。编码有ASCII、UTF32、UTF8等通用编码属性，但没有gb2312的编码属性，所以我们使用GetEncoding获取gb2312编码。
　　private string GetGeneralContent(string strUrl)
{
string strMsg = string.Empty;
try
{
WebRequest request = WebRequest.Create(strUrl);
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));
strMsg = reader.ReadToEnd();
reader.Close();
reader.Dispose();
response.Close();
}
catch
{ }
return strMsg;
}
　　2、抓取图片或其他二进制文件（如文件）需要四个类：WebRequest、WebResponse、Stream、FileStream。所需命名空间：System.Net、System.IO 核心代码：Reading with Stream
　　private string GetFileContent(string strUrl)
{
string strMsg = string.Empty;
try
{
WebRequest request = WebRequest.Create(strUrl);
WebResponse response = request.GetResponse();
Stream reader = response.GetResponseStream();

//可根据实际保存为具体文件
FileStream writer = new FileStream("D:\\logo.gif", FileMode.OpenOrCreate, FileAccess.Write);
byte[] buff = new byte[512];
int c = 0; //实际读取的字节数
while ((c=reader.Read(buff, 0, buff.Length)) > 0)
{
writer.Write(buff, 0, c);
}
writer.Close();
writer.Dispose();

reader.Close();
reader.Dispose();
response.Close();
strMsg = "保存成功";
}
catch
{ }
return strMsg;
}
　　3、Grab 网页内容 POST 方式抓取网页时，有时需要通过 Post 的方式向服务器发送一些数据。在网页抓取程序中加入如下代码，实现用户将用户名和密码发布到服务器：
　　private string GetPostContent(string strUrl)
{
string strMsg = string.Empty;
try
{
string data = "userName=admin&passwd=admin888";
byte[] requestBuffer = System.Text.Encoding.GetEncoding("gb2312").GetBytes(data);
WebRequest request = WebRequest.Create(strUrl);
request.Method = "POST";
request.ContentType = "application/x-www-form-urlencoded";
request.ContentLength = requestBuffer.Length;
using (Stream requestStream = request.GetRequestStream())
{
requestStream.Write(requestBuffer, 0, requestBuffer.Length);
requestStream.Close();
}
WebResponse response = request.GetResponse();
using (StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312")))
{
strMsg = reader.ReadToEnd();
reader.Close();
}
}
catch
{ }
return strMsg;
}
　　4、ASP.NET 捕获网页内容-防止重定向。在抓取网页时，在成功登录服务器应用系统后，应用系统可以通过Response.Redirect对网页进行重定向。如果你不需要响应这个重定向Orientation，那么，我们不把reader.ReadToEnd()给Response.Write，就是这样。 5、ASP.NET 抓取网页内容保持登录状态使用Post数据成功登录服务器应用系统后，就可以抓取需要登录的页面了。那么我们可能需要在多个之间保持登录状态要求。首先，我们要使用 HttpWebRequest 而不是 WebRequest。与WebRequest相比，变化的代码是：
　　HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(strUrl);
　　注意：HttpWebRequest.Create返回的类型仍然是WebRequest，需要进行转换。二、使用CookieContainer。
　　System.Net.CookieContainer cc = new System.Net.CookieContainer();
request.CookieContainer = cc;
request2.CookieContainer = cc;
　　这样，request和request2之间使用了同一个Session。如果 request 已登录，则 request2 也已登录。
　　最后，如何在不同页面之间使用相同的CookieContainer。
　　不同页面之间要使用同一个CookieContainer，只需要在Session中添加CookieContainer即可。
　　Session.Add("ccc", cc); //存
CookieContainer cc = (CookieContainer)Session["ccc"]; //取Session
　　6、ASP.NET 抓取网页内容——将当前会话带到 WebRequest 中
　　比如浏览器B1访问服务器端S1，这会产生一个会话，服务器端S2使用WebRequest访问服务器端S1，就会产生一个会话。当前要求WebRequest使用浏览器B1和S1之间的会话，这意味着S1应该认为B1正在访问S1，而不是S2正在访问S1。
　　这就是cookies的使用。先在S1中获取SessionID为B1的Cookie，然后将这个Cookie告诉S2，S2将Cookie写入WebRequest中。
　　WebRequest request = WebRequest.Create("url");
request.Headers.Add(HttpRequestHeader.Cookie, "ASPSESSIONIDSCATBTAD=KNNDKCNBONBOOBIHHHHAOKDM;");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));
Response.Write(reader.ReadToEnd());
reader.Close();
reader.Dispose();
response.Close();
　　我想解释一下：
　　本文不是 Cookie 欺骗，因为 SessionID 是 S1 告诉 S2 的，并没有被 S2 窃取。虽然有点奇怪，但在某些特定的应用系统中可能会有用。
　　S1 必须将 Session 写入 B1，这样 SessionID 将保存在 Cookie 中，SessionID 将保持不变。
　　Request.Cookies 用于在 ASP.NET 中获取 cookie。本文假设已获取 cookie。
　　不同的服务器端语言对Cookie中的SessionID有不同的名称。本文为ASP SessionID。
　　S1 可能不仅依赖 SessionID 来确定当前登录，还可能辅助 Referer、User-Agent 等，具体取决于 S1 终端程序的设计。
　　这篇文章其实是本系列中另一种“保持登录”的方式。
　　7、ASP.NET 抓取网页内容-如何更改源Referer和UserAgent
　　HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create("http://127.0.0.1/index.htm";);
request.Referer = "http://www.csdn.net/";
request.UserAgent = "要设置的标头";
//下一步的处理

搜索引擎优化对企业和产品都具有重要的意义？

网站优化 • 优采云发表了文章 • 0 个评论 • 102 次浏览 • 2021-06-15 03:48 • 来自相关话题

　　搜索引擎优化对企业和产品都具有重要的意义？
　　在这个互联网时代，很多人在购买新产品之前都会上网查看信息，看看哪些品牌的口碑和评价更好。这时候，好的产品就会有好的优势。调查显示，87%的网民会通过搜索引擎服务找到自己需要的信息，近70%的网民会直接在搜索结果自然排名的第一页找到自己需要的信息。
　　可见，搜索引擎优化对企业和产品的意义重大。下面我来告诉你如何快速爬取网站。
　　
　　我们经常听到关键字，但关键字的具体用途是什么？关键词是搜索引擎优化的核心，也是网站在搜索引擎中排名的重要因素。
　　导入链接也是网站优化的一个非常重要的过程，会间接影响网站在搜索引擎中的权重。目前我们常用的链接有：锚文本链接、超链接、纯文本链接和图片链接。
　　crawler 是一个自动提取网页的程序，比如百度的蜘蛛。如果要收录更多网站的页面，必须先爬取网页。
　　如果你的网站页面更新频繁，爬虫会更频繁地访问页面，高质量的内容是爬虫喜欢爬取的目标，尤其是原创内容。
　　这一定是第一件事。对权势大、年长、威严的蜘蛛，必须采取特殊的手段。这种网站的爬取频率非常高。我们都知道，搜索引擎蜘蛛为了保证高效，不会抓取网站的所有页面。网站的权重越高，爬取深度越高，爬取的页面越多。这样，可以收录更多的页面。
　　网站server 是网站的基石。如果网站服务器长时间打不开，就等于关了你的门谢天谢地。如果蜘蛛想来，他就不能来。百度蜘蛛也是这个网站的访客。如果你的服务器不稳定或者卡住，蜘蛛每次都很难爬行。有时一个页面只能抓取其中的一部分。随着时间的推移，百度蜘蛛的体验越来越差，它在你的网站上的分数也越来越低。当然会影响你的网站爬取，所以选择空间服务器。我们必须放弃。没有好的地基，再好的房子也会过马路。
　　蜘蛛每次爬行时，都会存储页面数据。如果第二次爬取发现页面和第一次的内容完全一样，说明页面没有更新，蜘蛛不需要频繁爬取。如果网页内容更新频繁，蜘蛛会更频繁地访问网页，但蜘蛛不是你自己的，所以不可能蹲在这里等你更新，所以我们应该主动向蜘蛛展示蜘蛛并且定时更新文章，让蜘蛛会按照你的规则有效爬取文章，这样不仅会让你更新的文章更快，而且不会导致蜘蛛经常白跑。
　　高质量的原创内容对百度蜘蛛非常有吸引力。蜘蛛的目的是发现新事物。所以网站更新的文章不要天天采集或者转载。我们需要为蜘蛛提供真正有价值的原创内容。如果蜘蛛能得到它喜欢的东西，它自然会给你的网站留下好印象，经常来找吃的。查看全部

　　我们经常听到关键字，但关键字的具体用途是什么？关键词是搜索引擎优化的核心，也是网站在搜索引擎中排名的重要因素。
　　导入链接也是网站优化的一个非常重要的过程，会间接影响网站在搜索引擎中的权重。目前我们常用的链接有：锚文本链接、超链接、纯文本链接和图片链接。
　　crawler 是一个自动提取网页的程序，比如百度的蜘蛛。如果要收录更多网站的页面，必须先爬取网页。
　　如果你的网站页面更新频繁，爬虫会更频繁地访问页面，高质量的内容是爬虫喜欢爬取的目标，尤其是原创内容。
　　这一定是第一件事。对权势大、年长、威严的蜘蛛，必须采取特殊的手段。这种网站的爬取频率非常高。我们都知道，搜索引擎蜘蛛为了保证高效，不会抓取网站的所有页面。网站的权重越高，爬取深度越高，爬取的页面越多。这样，可以收录更多的页面。
　　网站server 是网站的基石。如果网站服务器长时间打不开，就等于关了你的门谢天谢地。如果蜘蛛想来，他就不能来。百度蜘蛛也是这个网站的访客。如果你的服务器不稳定或者卡住，蜘蛛每次都很难爬行。有时一个页面只能抓取其中的一部分。随着时间的推移，百度蜘蛛的体验越来越差，它在你的网站上的分数也越来越低。当然会影响你的网站爬取，所以选择空间服务器。我们必须放弃。没有好的地基，再好的房子也会过马路。
　　蜘蛛每次爬行时，都会存储页面数据。如果第二次爬取发现页面和第一次的内容完全一样，说明页面没有更新，蜘蛛不需要频繁爬取。如果网页内容更新频繁，蜘蛛会更频繁地访问网页，但蜘蛛不是你自己的，所以不可能蹲在这里等你更新，所以我们应该主动向蜘蛛展示蜘蛛并且定时更新文章，让蜘蛛会按照你的规则有效爬取文章，这样不仅会让你更新的文章更快，而且不会导致蜘蛛经常白跑。
　　高质量的原创内容对百度蜘蛛非常有吸引力。蜘蛛的目的是发现新事物。所以网站更新的文章不要天天采集或者转载。我们需要为蜘蛛提供真正有价值的原创内容。如果蜘蛛能得到它喜欢的东西，它自然会给你的网站留下好印象，经常来找吃的。

网站上线一段时间之后，企业就发会现网站并没有多少的访问量

网站优化 • 优采云发表了文章 • 0 个评论 • 106 次浏览 • 2021-06-10 02:24 • 来自相关话题

　　网站上线一段时间之后，企业就发会现网站并没有多少的访问量
　　网站上线一段时间后，公司发现网站并没有收到多少访问量，无法理解为什么没有客户询问公司或打电话或发送电子邮件！其实很多企业并没有过多关注网站的运营，觉得上线后自然会为企业带来一些客户。如果您是客户，您如何找到网站？ 90%以上的客户搜索关键词找到相关的网站，然后咨询。如果搜索结果中没有公司相关信息，客户自然不会知道有这样的公司。增加网站出现在搜索结果中的概率，就是不断更新网站，被搜索引擎和收录爬取。那么，网站有哪些技巧可以让内容爬得更快？
　　
　　网站有哪些技巧可以让内容爬得更快
　　一、上传质量文章
　　相信做网站的公司都明白每天更新对网站很重要，公司在上传新的文章时一定要注意文章是否优质原创。一般企业选择上传与行业或产品相关的文章。如果上传的文章可能已经发布在网站或博客论坛等其他平台，则内容相似度非常高甚至100%。一直以来，这种文章很难再被搜索引擎抓取。这时候高质量的原创文章就很重要了，因为搜索引擎本身的库存量很大，包罗万象，新的内容一直在爬，如果这些文章已经存在的话它的库，会判断这个文章是抄袭，没有价值，所以拒绝收录。充其量只是给网站添加内容，不被爬取的文章没有搜索意义。因此，企业必须尽可能多地上传高质量的原创文章才能更快地捕捉。
　　二、提交链接
　　做完网站后，内容就会上传，要么等待搜索引擎抓取，要么推送内容到搜索引擎。企业可以去搜索各大搜索引擎提交链接的页面，并采集它们。内容更新时，提交该内容的网页链接，加快内容的收录。同时可以在网站后台添加百度自动推送功能。当某公司发布新的文章或新产品时，可以自动推送链接，第一时间提交到百度站长平台，让本文内容的链接优先百度收录，可以防止内容被他人盗用，抢占先机，落后于他人。无论是手动推送还是自动推送，都是在告诉搜索引擎“这里有新内容，快来捕捉吧”。收录的链接越多，越容易增加搜索引擎的友好度，以后更新会爬得更快。
　　三、简化导航层数
　　搜索引擎在网站中获取内容，主要是通过URL路径，所以简化导航层数是非常重要的。网站的导航层级越少，搜索引擎抓取就越顺畅。级别的数量就像一扇门。您需要打开的关卡越多，您需要打开的门就越多。这很容易消耗搜索引擎的耐心。一旦懒得爬，即使内容丰富精彩，也没有被收录的意义。没有必要为搜索引擎设置这么多的门道。只有降低导航级别，才能更快地抓取内容。查看全部

　　网站有哪些技巧可以让内容爬得更快
　　一、上传质量文章
　　相信做网站的公司都明白每天更新对网站很重要，公司在上传新的文章时一定要注意文章是否优质原创。一般企业选择上传与行业或产品相关的文章。如果上传的文章可能已经发布在网站或博客论坛等其他平台，则内容相似度非常高甚至100%。一直以来，这种文章很难再被搜索引擎抓取。这时候高质量的原创文章就很重要了，因为搜索引擎本身的库存量很大，包罗万象，新的内容一直在爬，如果这些文章已经存在的话它的库，会判断这个文章是抄袭，没有价值，所以拒绝收录。充其量只是给网站添加内容，不被爬取的文章没有搜索意义。因此，企业必须尽可能多地上传高质量的原创文章才能更快地捕捉。
　　二、提交链接
　　做完网站后，内容就会上传，要么等待搜索引擎抓取，要么推送内容到搜索引擎。企业可以去搜索各大搜索引擎提交链接的页面，并采集它们。内容更新时，提交该内容的网页链接，加快内容的收录。同时可以在网站后台添加百度自动推送功能。当某公司发布新的文章或新产品时，可以自动推送链接，第一时间提交到百度站长平台，让本文内容的链接优先百度收录，可以防止内容被他人盗用，抢占先机，落后于他人。无论是手动推送还是自动推送，都是在告诉搜索引擎“这里有新内容，快来捕捉吧”。收录的链接越多，越容易增加搜索引擎的友好度，以后更新会爬得更快。
　　三、简化导航层数
　　搜索引擎在网站中获取内容，主要是通过URL路径，所以简化导航层数是非常重要的。网站的导航层级越少，搜索引擎抓取就越顺畅。级别的数量就像一扇门。您需要打开的关卡越多，您需要打开的门就越多。这很容易消耗搜索引擎的耐心。一旦懒得爬，即使内容丰富精彩，也没有被收录的意义。没有必要为搜索引擎设置这么多的门道。只有降低导航级别，才能更快地抓取内容。

如何让一个网页为主要搜索引擎正确索引及如何进行优化

网站优化 • 优采云发表了文章 • 0 个评论 • 115 次浏览 • 2021-06-10 02:20 • 来自相关话题

　　如何让一个网页为主要搜索引擎正确索引及如何进行优化
　　Google 开始抓取框架的内容。以前很多人都不会相信，但是随着GOOGLE阅读和爬虫技术的深入
　　今天完全可以开发！
　　什么是框架页？
　　使用一个实现调用其他网站/webpages
　　当您浏览收录此内容的页面 A 时，您会看到页面 B
　　关于框架化网页的优化技术
　　从一开始，框架网站甚至成为了专业搜索引擎优化的挑战。是否使用框架技术来设计一个新的网页也成为了一个争论不休的话题。在这个文章中，我们为您提供了一些基本的优化技巧。同时，您还可以学习：如何制作一个使用框架的网页被各大搜索引擎正确收录，以及如何优化。
　　首先我们来看看网站使用框架设计的好处。它的优越性体现在整个网页设计完整性的维护和更新上。这也是为什么相当多的网站设计师倾向于使用框架技术来设计网站的原因。特别是对于那些大的网站（至少500页内容），使用框架结构可以让网站的维护相对容易。
　　什么是框架网页？
　　如果一个网页的左侧导航菜单是固定的，而页面中间的信息可以上下移动，一般可以认为是一个带框的网页。此外，一些框架式网站模板在页面顶部放置了公司的 LOGO 或图片。但这一个也处于固定位置。页面的其余部分可以向上、向下、向左和向右移动。一些框架式站点模板还在其固定区域中放置了链接或导航按钮。另外，在框架网页中，深度页面的域名通常不会反映在URL中（这意味着在浏览器的URL栏中，不会显示您当前正在查看的深度页面，而是主页）。
　　一般结构中网站不存在这种问题。
　　无论是在内容更好的书籍中还是在互联网上，您都可以看到很多关于搜索引擎优化的文章。在这些文章中，基本上认为网站使用框架来设计是极不可取的。这是因为大多数搜索引擎无法识别网页中的框架，或者无法遍历或搜索框架中的内容。
　　这种情况下，可能有人会告诉你网站使用框架永远无法被搜索引擎收录，不可能得到好的优化。这个论点好坏参半。如果框架使用得当，这种说法是站不住脚的。但是对于框架的错误使用，或者网站的设计没有考虑当今搜索引擎技术的方方面面，那么这句话有一定的道理。查看全部

spider抓取过程中涉及到的主要策略类型：抓取友好性

网站优化 • 优采云发表了文章 • 0 个评论 • 123 次浏览 • 2021-06-10 02:12 • 来自相关话题

　　
spider抓取过程中涉及到的主要策略类型：抓取友好性
　　
　　Spider 在爬取过程中面临着复杂的网络环境，为了使系统能够捕获尽可能多的有价值的资源，并在实际环境中保持系统和页面的一致性而不造成网站体验压力，将设计各种复杂的抓取策略。下面简单介绍一下爬取过程中涉及的主要策略类型：
　　1、Grab-friendliness：Grab 压力部署减少对网站的访问压力
　　2、常用抓取返回码提示
　　3、识别多个URL重定向
　　4、Grabbing 优先分配
　　5、重复网址过滤
　　6、Darknet 数据采集
　　7、Grab 反作弊
　　8、提高抓取效率，有效利用带宽
　　1、Grab 友好
　　互联网资源具有巨大的数量级，这就要求抓取系统尽可能高效地使用带宽，在有限的硬件和带宽资源下抓取尽可能多的有价值的资源。这会导致另一个问题。捕获的网站带宽被消耗，造成访问压力。如果度数过大，会直接影响抓到的网站的正常用户访问行为。因此，在爬取过程中，必须控制一定的爬取压力，以达到不影响网站正常用户访问，尽可能多地抓取有价值资源的目的。
　　通常，最基本的是基于ip的压力控制。这是因为如果是基于一个域名，可能会出现一个域名对应多个ip（很多大网站）或者多个域名对应同一个ip（小网站share ip）的问题。在实践中，压力部署控制往往是根据ip和域名的各种情况进行的。同时，站长平台也推出了压力反馈工具。站长可以手动调整他的网站的抓取压力。此时百度蜘蛛会根据站长的要求，优先进行抓取压力控制。
　　对同一个站点的抓取速度控制一般分为两类：一类是一段时间内的抓取频率；二是一段时间内的爬取流量。同一个站点的爬取速度在不同的时间会有所不同。例如，在夜晚安静、月亮暗、风大的时候，爬行速度可能会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问的高峰期，不断调整。对于不同的网站，也需要不同的抓取速度。
　　2、常用抓取返回码提示
　　简单介绍一下百度支持的几种返回码：
　　1）最常见的 404 代表“NOTFOUND”。认为该网页无效，通常会从库中删除。同时，如果蜘蛛在短期内再次找到这个url，则不会被抓取；
　　2）503 代表“ServiceUnavailable”。认为该网页暂时无法访问。通常网站暂时关闭，带宽受限等都会造成这种情况。对于返回503状态码的网页，百度蜘蛛不会直接删除网址，会在短时间内多次访问。如果网页已经恢复，则可以正常抓取；如果继续返回503，URL仍然会被认为是断开的链接并从库中删除。
　　3）403 代表“Forbidden”，认为该网页目前已被禁止。如果是新的url，蜘蛛暂时不会被抓取，短时间内会被多次访问；如果是收录url，不会直接删除，短时间内会被多次访问。如果网页访问正常，就会正常抓取；如果仍然被禁止访问，那么这个 url 也将被视为无效链接并从库中删除。
　　4）301 代表“MovedPermanently”并认为网页被重定向到新的 url。在网站迁移、域名更换、网站改版等情况下，建议使用301返回码和站长平台网站改版工具，减少改版带来的网站流量损失。
　　3、多URL重定向的识别
　　由于各种原因，Internet 上的某些网页具有 URL 重定向状态。为了正常抓取这些资源，需要蜘蛛识别和判断URL重定向，防止作弊。重定向可以分为三类：http30x重定向、metarefresh重定向和js重定向。另外，百度还支持Canonical标签，可以看作是间接重定向的效果。
　　4、Grabbing 优先分配
　　由于互联网资源规模的巨大而快速的变化，搜索引擎几乎不可能全部捕获并合理更新以保持一致性。这就需要爬虫系统设计一套合理的抓包。采取优先部署策略。主要包括：深度优先遍历策略、广度优先遍历策略、pr-first策略、反链策略、社交分享引导策略等，每种策略各有优缺点。在实际情况下，往往会采用多种策略组合使用，以达到最佳捕获效果。
　　5、重复网址过滤
　　爬虫在爬取过程中需要判断一个页面是否被爬过。如果还没有被爬取，那么它会爬取该网页并将其放入已爬取的URL集合中。判断是否被抓取。其中最重要的就是快速搜索和比对，还涉及到url归一化识别。例如，一个url收录大量无效参数，但实际上是同一个页面，将被视为同一个url。 .
　　6、Darknet 数据采集
　　互联网上存在大量搜索引擎暂时无法抓取的数据，称为暗网数据。一方面，网站的大量数据存在于网络数据库中，蜘蛛很难通过抓取网页获取完整的内容；另一方面，由于网络环境，网站本身不符合规范，以及孤岛等，也会导致搜索引擎无法抓取。目前暗网数据获取的主要思路还是采用通过开放平台提交数据的方式，如“百度站长平台”、“百度开放平台”等。
　　7、Grab 反作弊
　　蜘蛛在爬行过程中，经常会遇到所谓的爬行黑洞或者面对大量低质量的页面。这就要求爬虫系统也要设计一个完整的爬虫防作弊系统。例如，分析url特征，分析页面大小和内容，分析与抓取规模对应的站点大小等。
　　本文作者：百度站长平台李，选自百度站长社区论坛，泰坦传媒编辑
　　技术控是百度新闻和钛媒体为技术爱好者打造的专栏。查看全部

　　
spider抓取过程中涉及到的主要策略类型：抓取友好性
　　

　　Spider 在爬取过程中面临着复杂的网络环境，为了使系统能够捕获尽可能多的有价值的资源，并在实际环境中保持系统和页面的一致性而不造成网站体验压力，将设计各种复杂的抓取策略。下面简单介绍一下爬取过程中涉及的主要策略类型：
　　1、Grab-friendliness：Grab 压力部署减少对网站的访问压力
　　2、常用抓取返回码提示
　　3、识别多个URL重定向
　　4、Grabbing 优先分配
　　5、重复网址过滤
　　6、Darknet 数据采集
　　7、Grab 反作弊
　　8、提高抓取效率，有效利用带宽
　　1、Grab 友好
　　互联网资源具有巨大的数量级，这就要求抓取系统尽可能高效地使用带宽，在有限的硬件和带宽资源下抓取尽可能多的有价值的资源。这会导致另一个问题。捕获的网站带宽被消耗，造成访问压力。如果度数过大，会直接影响抓到的网站的正常用户访问行为。因此，在爬取过程中，必须控制一定的爬取压力，以达到不影响网站正常用户访问，尽可能多地抓取有价值资源的目的。
　　通常，最基本的是基于ip的压力控制。这是因为如果是基于一个域名，可能会出现一个域名对应多个ip（很多大网站）或者多个域名对应同一个ip（小网站share ip）的问题。在实践中，压力部署控制往往是根据ip和域名的各种情况进行的。同时，站长平台也推出了压力反馈工具。站长可以手动调整他的网站的抓取压力。此时百度蜘蛛会根据站长的要求，优先进行抓取压力控制。
　　对同一个站点的抓取速度控制一般分为两类：一类是一段时间内的抓取频率；二是一段时间内的爬取流量。同一个站点的爬取速度在不同的时间会有所不同。例如，在夜晚安静、月亮暗、风大的时候，爬行速度可能会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问的高峰期，不断调整。对于不同的网站，也需要不同的抓取速度。
　　2、常用抓取返回码提示
　　简单介绍一下百度支持的几种返回码：
　　1）最常见的 404 代表“NOTFOUND”。认为该网页无效，通常会从库中删除。同时，如果蜘蛛在短期内再次找到这个url，则不会被抓取；
　　2）503 代表“ServiceUnavailable”。认为该网页暂时无法访问。通常网站暂时关闭，带宽受限等都会造成这种情况。对于返回503状态码的网页，百度蜘蛛不会直接删除网址，会在短时间内多次访问。如果网页已经恢复，则可以正常抓取；如果继续返回503，URL仍然会被认为是断开的链接并从库中删除。
　　3）403 代表“Forbidden”，认为该网页目前已被禁止。如果是新的url，蜘蛛暂时不会被抓取，短时间内会被多次访问；如果是收录url，不会直接删除，短时间内会被多次访问。如果网页访问正常，就会正常抓取；如果仍然被禁止访问，那么这个 url 也将被视为无效链接并从库中删除。
　　4）301 代表“MovedPermanently”并认为网页被重定向到新的 url。在网站迁移、域名更换、网站改版等情况下，建议使用301返回码和站长平台网站改版工具，减少改版带来的网站流量损失。
　　3、多URL重定向的识别
　　由于各种原因，Internet 上的某些网页具有 URL 重定向状态。为了正常抓取这些资源，需要蜘蛛识别和判断URL重定向，防止作弊。重定向可以分为三类：http30x重定向、metarefresh重定向和js重定向。另外，百度还支持Canonical标签，可以看作是间接重定向的效果。
　　4、Grabbing 优先分配
　　由于互联网资源规模的巨大而快速的变化，搜索引擎几乎不可能全部捕获并合理更新以保持一致性。这就需要爬虫系统设计一套合理的抓包。采取优先部署策略。主要包括：深度优先遍历策略、广度优先遍历策略、pr-first策略、反链策略、社交分享引导策略等，每种策略各有优缺点。在实际情况下，往往会采用多种策略组合使用，以达到最佳捕获效果。
　　5、重复网址过滤
　　爬虫在爬取过程中需要判断一个页面是否被爬过。如果还没有被爬取，那么它会爬取该网页并将其放入已爬取的URL集合中。判断是否被抓取。其中最重要的就是快速搜索和比对，还涉及到url归一化识别。例如，一个url收录大量无效参数，但实际上是同一个页面，将被视为同一个url。 .
　　6、Darknet 数据采集
　　互联网上存在大量搜索引擎暂时无法抓取的数据，称为暗网数据。一方面，网站的大量数据存在于网络数据库中，蜘蛛很难通过抓取网页获取完整的内容；另一方面，由于网络环境，网站本身不符合规范，以及孤岛等，也会导致搜索引擎无法抓取。目前暗网数据获取的主要思路还是采用通过开放平台提交数据的方式，如“百度站长平台”、“百度开放平台”等。
　　7、Grab 反作弊
　　蜘蛛在爬行过程中，经常会遇到所谓的爬行黑洞或者面对大量低质量的页面。这就要求爬虫系统也要设计一个完整的爬虫防作弊系统。例如，分析url特征，分析页面大小和内容，分析与抓取规模对应的站点大小等。
　　本文作者：百度站长平台李，选自百度站长社区论坛，泰坦传媒编辑
　　技术控是百度新闻和钛媒体为技术爱好者打造的专栏。

该怎么吸引蜘蛛深入网站内容?高端网站建设蒙特人

网站优化 • 优采云发表了文章 • 0 个评论 • 104 次浏览 • 2021-06-09 21:04 • 来自相关话题

　　该怎么吸引蜘蛛深入网站内容?高端网站建设蒙特人
　　如何让蜘蛛爬到高端网站建筑平台网站content？听高端网站建蒙人给大家简单分析一下。蜘蛛来网站是件好事，但是通过蜘蛛访问记录，蒙台梭利发现了一个大问题。蜘蛛经常爬4-5页后来到网站然后离开。你怎么回来？怎么了？相信很多站长都觉得六月事件之后，百度蜘蛛很不稳定吧？蒙特伦的网站也是一样。从六月开始，蜘蛛每次走都来抓几页。，所以网站的收录并没有得到改进。最后蒙人对网站进行了大检查，然后对网站的链接进行了整理，更不用说排序后的网站了，蜘蛛爬取的页面每次都达到20-30个，以下高端网站建蒙人会具体讲讲如何吸引蜘蛛深度爬取网站内容？
　　高端网站建方法一、Reset网站导航链接
　　网站的导航链接是用户的指南，也是搜索引擎蜘蛛的指南。一个好的导航路线可以帮助搜索引擎蜘蛛从网站的首页逐渐渗透到网站的整个页面，这样我们就需要一层一层的设置网站navigation，说说需求用于设置导航链接：
　　Monte 将1、navigation 链接解析为邻近原则。在设置导航链接时，不要把搜索引擎蜘蛛看得太深奥。其实他是一个爬虫工具，什么东西最容易爬？这是最近的事情。因此，我们在使用导航链接时，可以通过导航链接导入下一级栏目链接，下一级栏目链接只能导入内容页面。这是逐层导入的方法。
　　Monte解析2、导入的URL不要太复杂。我觉得网站的URL地址可以设置的更简单一些。只需使用 PHP 程序即可。目录设置更简单。然后蜘蛛会爬啊爬啊。相对容易。
　　高端网站建方法二、死链接必须清理掉，留下就是祸害
　　死链接对网站有很大的阻碍。对死链接稍加注意可能会对网站产生致命的影响。查死链接可以使用chinaz中的工具，但是清理死链接比较困难。现在我使用浏览器FTP中的搜索功能清理网站死链接，先在查询工具中复制死链接地址，然后使用浏览器FTP搜索功能查找它在哪个文件中。完了，我删了。很多站长会说这个方法很麻烦，但是我想说这个方法确实是最有效的方法。我已经使用这些工具来清理死链接。他们中的大多数都是假的，根本做不到。完成清理工作。
　　高端网站施工法三、文章合理布局的内容链接
　　
　　网站的文章内容中，不要忘记链接布局。在做常规文章更新时，我们可以将文章中的关键词作为一个链接指向其他文章content页面或者网站栏目页面，这样搜索引擎爬取这个文章内容后蜘蛛会抓取下一个文章内容，这也间接提高了搜索引擎蜘蛛抓取页面的进度和强度。你可以考虑一下。如果一个中心有无数个点，蜘蛛会不高兴吗？这意味着他可以吃更多的食物，这也是蒙特高端网站建设是文章内容页面链接布局的重点。查看全部

　　网站的文章内容中，不要忘记链接布局。在做常规文章更新时，我们可以将文章中的关键词作为一个链接指向其他文章content页面或者网站栏目页面，这样搜索引擎爬取这个文章内容后蜘蛛会抓取下一个文章内容，这也间接提高了搜索引擎蜘蛛抓取页面的进度和强度。你可以考虑一下。如果一个中心有无数个点，蜘蛛会不高兴吗？这意味着他可以吃更多的食物，这也是蒙特高端网站建设是文章内容页面链接布局的重点。

如何整合网站重复内容优化搜索引擎的抓取和索引处理

网站优化 • 优采云发表了文章 • 0 个评论 • 107 次浏览 • 2021-06-09 21:02 • 来自相关话题

　　
如何整合网站重复内容优化搜索引擎的抓取和索引处理
　　
　　整合网站duplicate 内容，优化搜索引擎的爬取和索引。网站上的重复内容是一项非常艰巨的任务。随着网站的发展，各种功能必须不断的改变或删除。与此同时，不同的网站内容来来去去。一段时间后，很多网站会以多个URL的形式出现系统的垃圾代码。这些 URL 都返回相同的内容。总的来说，除了增加搜索引擎爬取内容和索引内容的难度外，你的网站上存在重复内容并不构成问题。此外，通过导入链接获得的 PageRank 和类似信息可能会在我们尚未识别为重复内容的网页之间传播，从而导致您的首选网页排名下降 Google 步骤处理您的网站内部重复内容识别网站上的重复内容识别你的网站上的重复内容是处理重复内容的第一步也是最重要的一步，使用一个简单的方法就可以达到这个目的，那就是从网页中选择一个唯一的文本代码，然后搜索此文本并使用 Google 的 sitequery 将搜索结果限制在您的网站上的网页。这样，搜索到了具有相同内容的多个结果。这是您需要处理的重复内容。确定您需要的首选 URL URL。在处理重复内容之前，您必须确保您首选的 URL URL 结构。对于这段内容，在选择首选 URL 后，您希望使用哪个 URL URL 来维护网站内部统一请确保在网站中所有可能的位置使用它们，包括您的站点地图文件。必要和可能时使用 301 永久重定向。如果可能，您可以使用 301 代码将重复的 URL 重定向到您选择的 URL。它可以帮助用户和搜索引擎在访问重复 URL 时找到您的首选 URL。如果你的网站有多个域名，你可以选择一个域名，使用301将其他域名重定向到这个域名，同时确保重定向到正确的特定域名。网页不仅仅是域根目录。如果网站同时支持www和非www
　　
　　您可以选择其中一个主机名。使用 Google网站站长工具中的首选域设置，然后执行适当的重定向。如果可能，请在您的网页上使用 relcanonical。如果可能，您可以使用 301 重定向使用 relcanonical 以方便搜索引擎更好地了解您的网站和首选 URL URL。 AskcomBing 和 Yahoo 等主要搜索引擎都支持使用此链接标签。尽可能在Google网站站长工具中使用URL参数处理工具如果部分或全部网站重复内容来自带有查询参数的URL，该工具将帮助您通知我们该URL中重要和不相关的参数。关于此工具的更多信息，请参阅网站管理新的参数处理工具帮助您减少重复内容。如何处理robotstxt文件。使用 robotstxt 文件禁止抓取重复内容不在我们推荐的方法之内。我们建议您不要使用robotstxt文件或其他方式禁止您网站上的访问重复内容，您可以使用relcanonical链接标签URL参数处理工具或301重定向。如果完全阻止对重复内容的访问，搜索引擎必须将这些 URL 视为单独的不同网页，因为它们无法判断这些 URL 是否实际上指向相同的页面。针对不同的内容 URL 的更好解决方案是允许对其进行抓取，并使用我们推荐的方法将这些 URL 明确标记为重复内容。如果您允许我们访问这些网址，Google 抓取机器人将学会通过查看网址来确定它们。无论是重复的内容，都可以很好的避免各种情况下不必要的重复爬取。为了防止重复的内容，它仍然导致我们爬行和搜索过多。网站您也可以调整Google网站站长工具我们希望这些方法可以帮助您控制网站上的重复内容查看全部

　　
如何整合网站重复内容优化搜索引擎的抓取和索引处理
　　

　　整合网站duplicate 内容，优化搜索引擎的爬取和索引。网站上的重复内容是一项非常艰巨的任务。随着网站的发展，各种功能必须不断的改变或删除。与此同时，不同的网站内容来来去去。一段时间后，很多网站会以多个URL的形式出现系统的垃圾代码。这些 URL 都返回相同的内容。总的来说，除了增加搜索引擎爬取内容和索引内容的难度外，你的网站上存在重复内容并不构成问题。此外，通过导入链接获得的 PageRank 和类似信息可能会在我们尚未识别为重复内容的网页之间传播，从而导致您的首选网页排名下降 Google 步骤处理您的网站内部重复内容识别网站上的重复内容识别你的网站上的重复内容是处理重复内容的第一步也是最重要的一步，使用一个简单的方法就可以达到这个目的，那就是从网页中选择一个唯一的文本代码，然后搜索此文本并使用 Google 的 sitequery 将搜索结果限制在您的网站上的网页。这样，搜索到了具有相同内容的多个结果。这是您需要处理的重复内容。确定您需要的首选 URL URL。在处理重复内容之前，您必须确保您首选的 URL URL 结构。对于这段内容，在选择首选 URL 后，您希望使用哪个 URL URL 来维护网站内部统一请确保在网站中所有可能的位置使用它们，包括您的站点地图文件。必要和可能时使用 301 永久重定向。如果可能，您可以使用 301 代码将重复的 URL 重定向到您选择的 URL。它可以帮助用户和搜索引擎在访问重复 URL 时找到您的首选 URL。如果你的网站有多个域名，你可以选择一个域名，使用301将其他域名重定向到这个域名，同时确保重定向到正确的特定域名。网页不仅仅是域根目录。如果网站同时支持www和非www
　　

　　您可以选择其中一个主机名。使用 Google网站站长工具中的首选域设置，然后执行适当的重定向。如果可能，请在您的网页上使用 relcanonical。如果可能，您可以使用 301 重定向使用 relcanonical 以方便搜索引擎更好地了解您的网站和首选 URL URL。 AskcomBing 和 Yahoo 等主要搜索引擎都支持使用此链接标签。尽可能在Google网站站长工具中使用URL参数处理工具如果部分或全部网站重复内容来自带有查询参数的URL，该工具将帮助您通知我们该URL中重要和不相关的参数。关于此工具的更多信息，请参阅网站管理新的参数处理工具帮助您减少重复内容。如何处理robotstxt文件。使用 robotstxt 文件禁止抓取重复内容不在我们推荐的方法之内。我们建议您不要使用robotstxt文件或其他方式禁止您网站上的访问重复内容，您可以使用relcanonical链接标签URL参数处理工具或301重定向。如果完全阻止对重复内容的访问，搜索引擎必须将这些 URL 视为单独的不同网页，因为它们无法判断这些 URL 是否实际上指向相同的页面。针对不同的内容 URL 的更好解决方案是允许对其进行抓取，并使用我们推荐的方法将这些 URL 明确标记为重复内容。如果您允许我们访问这些网址，Google 抓取机器人将学会通过查看网址来确定它们。无论是重复的内容，都可以很好的避免各种情况下不必要的重复爬取。为了防止重复的内容，它仍然导致我们爬行和搜索过多。网站您也可以调整Google网站站长工具我们希望这些方法可以帮助您控制网站上的重复内容

蜘蛛真的会爬取注释里面的内容，从而影响关键词的排名么？

网站优化 • 优采云发表了文章 • 0 个评论 • 107 次浏览 • 2021-06-09 06:31 • 来自相关话题

　　蜘蛛真的会爬取注释里面的内容，从而影响关键词的排名么？
　　大多数时候，我们在查看页面的代码时，会看到一些绿色或灰色的注释代码。这类注释代码在HTML文件中，用户浏览页面时看不到是的，广州网站建设代码中的注释内容不会影响页面内容，部分SEO优化站长认为蜘蛛会抓取这些注解的信息，影响网站的关键词的排名，所以直接在评论中注明了关键词等很多技巧。
　　蜘蛛真的会抓取评论中的内容，从而影响关键词的排名吗？
　　在百度站长白皮书中介绍过，其实这些注解的内容不会被蜘蛛抓取，更何况这些注解的内容会增加关键词的权重，甚至过多的注解也会造成代码冗余。另外会增加页面的加载时间，导致页面加载缓慢，所以可以减少这类注释代码。
　　蜘蛛在爬取过程中会直接识别评论内容，然后直接忽略，所以说评论内容没有被爬取。如果评论内容可以被蜘蛛抓取，那对一些灰色行业来说岂不是天赐之物？这样灰业就可以隐瞒用户的情况，向蜘蛛展示完全合法的内容。试想一下，搜索引擎会让你这样做吗？答案肯定不是！
　　然而，很多程序员习惯性地在某段代码后添加注释，以表明这一段代码的含义。这是在与其他程序员联系时减少工作时间的好习惯。 , 合理的代码注释可以提高工作效率，减少工作时间。
　　所以要做网站优化，还是要脚踏实地去做，而不是钻空子。虽然你可能会在短时间内排名上升，但搜索引擎规格变了，那么你网站排名又是空的。查看全部

SEO优化：FLASH展示不想被收录的内容有哪些

网站优化 • 优采云发表了文章 • 0 个评论 • 102 次浏览 • 2021-06-04 22:20 • 来自相关话题

　　SEO优化：FLASH展示不想被收录的内容有哪些
　　1.在FLASH中显示你不想成为收录的内容
　　众所周知，搜索引擎对FLASH中内容的抓取能力有限，无法完全抓取FLASH中的所有内容。不幸的是，不能保证 FLASH 的所有内容都不会被抓取。因为 Google 和 Adobe 正在努力实现 FLASH 捕获技术。
　　2.使用robos文件
　　这是目前最有效的方法，但它有一个很大的缺点。只是不要发送任何内容或链接。众所周知，在SEO方面，更健康的页面应该进进出出。有来自外部链接的链接，页面也需要有外部网站的链接，所以robots文件控件使得这个页面只能访问，搜索引擎不知道内容是什么。此页面将被归类为低质量页面。重量可能会受到惩罚。这个多用于网站管理页面、测试页面等
　　3.使用nofollow标签来包装你不想成为收录的内容
　　这个方法并不能完全保证你不会被收录，因为这不是一个严格要求遵守的标签。另外，如果有外部网站链接到带有nofollow标签的页面。这很可能会被搜索引擎抓取。
　　4.使用Meta Noindex标签添加关注标签
　　这个方法可以防止收录，也可以传权重。想通过就看网站建筑站长的需求了。这种方法的缺点是也会大大浪费蜘蛛爬行的时间。
　　5.使用robots文件，在页面上使用iframe标签显示需要搜索引擎收录的内容
　　robots 文件可以防止 iframe 标签之外的内容被收录。因此，您可以将您不想要的内容收录放在普通页面标签下。并希望在iframe标签中成为收录内容。查看全部

如何抓取网站的数据：（1）抓取原网页数据

网站优化 • 优采云发表了文章 • 0 个评论 • 128 次浏览 • 2021-06-04 22:14 • 来自相关话题

　　如何抓取网站的数据：（1）抓取原网页数据
　　原文链接：
　　有时由于各种原因，我们需要采集一些网站数据，但由于网站数据不同，显示方式略有不同！
　　本文用Java来告诉你如何抓取网站数据：（1）抓取原创网页数据；（2）抓取网页Javascript返回的数据。
　　一、抓取原创网页。
　　在这个例子中，我们将从上面获取 ip 查询的结果：
　　第一步：打开这个网页，然后输入IP：111.142.55.73，点击查询按钮，可以看到网页显示的结果：
　　
　　第2步：查看网页源代码，我们在源代码中看到这一段：
　　
　　从这里可以看出，重新请求一个网页后，查询的结果显示出来了。
　　查询后看网页地址：
　　
　　也就是说，我们只要访问这样一个网址，就可以得到ip查询的结果。接下来看代码：
　　[java]
　　publicvoidcaptureHtml(Stringip)throwsException{StringstrURL=""+ip;URLurl=newURL(strURL);HttpURLConnectionhttpConn=(HttpURLConnection)url.openConnection();InputStreamReaderinput=newInputStreamReader(httpConn.getInputStream(),"utf-8") ;BufferedReaderbufReader=newBufferedReader(input);Stringline="";StringBuildercontentBuf=newStringBuilder();while((line=bufReader.readLine())!=null){contentBuf.append(line);}Stringbuf=contentBuf.toString() ;intbeginIx=buf.indexOf("查询结果[");intendIx=buf.indexOf("以上四项依次显示");Stringresult=buf.substring(beginIx,endIx);System.out.println(" captureHtml()的结果：\n"+result);}
　　使用HttpURLConnection连接网站，使用bufReader保存网页返回的数据，然后通过自定义解析方式展示结果。
　　这里我只是随便解析了一下。如果你想准确解析它，你需要自己处理。
　　分析结果如下：
　　captureHtml()的结果：
　　查询结果[1]：111.142.55.73 ==>> 1871591241 ==>>福建省漳州市手机
　　二、抓取网页的 JavaScript 返回的结果。
　　有时网站为了保护他的数据，不会直接在网页的源代码中返回数据。而是使用JS异步返回数据，可以防止搜索引擎等工具响应网站数据的爬取。
　　先看这个页面：
　　
　　我用第一种方法查看网页源代码，但是没有找到运单的跟踪信息，因为是通过JS获取的结果。
　　但是有时候我们需要获取JS数据，这个时候该怎么办？
　　这个时候我们需要用到一个工具：HTTP Analyzer，这个工具可以拦截Http的交互内容，我们用这个工具来达到我们的目的。
　　先点击开始按钮后，开始监控网页的交互行为。
　　我们打开网页：，可以看到HTTP Analyzer列出了网页的所有请求数据和结果：
　　
　　为了更方便的查看JS结果，我们先清除这些数据，然后输入快递单号：7，点击查询按钮，然后查看HTTP Analyzer的结果：
　　
　　这是点击查询按钮后HTTP Analyzer的结果。让我们继续检查：
　　
　　
　　从上两图可以看出，HTTP Analyzer可以拦截JS返回的数据，并在Response Content中展示。同时可以看到JS请求的网页地址。
　　这种情况下，我们只需要分析HTTP Analyzer的结果，然后模拟JS的行为来获取数据，即我们只需要访问JS请求的网页地址就可以获取数据。当然，前提是数据没有加密。记下 JS 请求的 URL：
　　然后让程序请求这个页面的结果！
　　代码如下：
　　[java]
　　publicvoidcaptureJavascript(Stringpostid)throwsException{StringstrURL=""+postid+"&channel=&rnd=0";URLurl=newURL(strURL);HttpURLConnectionhttpConn=(HttpURLConnection)url.openConnection();InputStreamReaderinput=newInputStreamReader(httpConn.getInputStream() ,"utf-8");BufferedReaderbufReader=newBufferedReader(input);Stringline="";StringBuildercontentBuf=newStringBuilder();while((line=bufReader.readLine())!=null){contentBuf.append(line);} System.out.println("captureJavascript():\n"+contentBuf.toString()的结果);}
　　看，抓取JS的方式和抓取原创网页的代码完全一样，我们只是做了一个解析JS的过程。
　　以下是程序执行的结果：
　　captureJavascript() 的结果：
　　运单跟踪信息[7]
　　这些数据是JS返回的结果，我们的目的就达到了！
　　希望这篇文章能对有需要的朋友有所帮助。如果您需要程序的源代码，请点击这里下载！查看全部

　　第2步：查看网页源代码，我们在源代码中看到这一段：
　　

　　从这里可以看出，重新请求一个网页后，查询的结果显示出来了。
　　查询后看网页地址：
　　

　　也就是说，我们只要访问这样一个网址，就可以得到ip查询的结果。接下来看代码：
　　[java]
　　publicvoidcaptureHtml(Stringip)throwsException{StringstrURL=""+ip;URLurl=newURL(strURL);HttpURLConnectionhttpConn=(HttpURLConnection)url.openConnection();InputStreamReaderinput=newInputStreamReader(httpConn.getInputStream(),"utf-8") ;BufferedReaderbufReader=newBufferedReader(input);Stringline="";StringBuildercontentBuf=newStringBuilder();while((line=bufReader.readLine())!=null){contentBuf.append(line);}Stringbuf=contentBuf.toString() ;intbeginIx=buf.indexOf("查询结果[");intendIx=buf.indexOf("以上四项依次显示");Stringresult=buf.substring(beginIx,endIx);System.out.println(" captureHtml()的结果：\n"+result);}
　　使用HttpURLConnection连接网站，使用bufReader保存网页返回的数据，然后通过自定义解析方式展示结果。
　　这里我只是随便解析了一下。如果你想准确解析它，你需要自己处理。
　　分析结果如下：
　　captureHtml()的结果：
　　查询结果[1]：111.142.55.73 ==>> 1871591241 ==>>福建省漳州市手机
　　二、抓取网页的 JavaScript 返回的结果。
　　有时网站为了保护他的数据，不会直接在网页的源代码中返回数据。而是使用JS异步返回数据，可以防止搜索引擎等工具响应网站数据的爬取。
　　先看这个页面：
　　

　　我用第一种方法查看网页源代码，但是没有找到运单的跟踪信息，因为是通过JS获取的结果。
　　但是有时候我们需要获取JS数据，这个时候该怎么办？
　　这个时候我们需要用到一个工具：HTTP Analyzer，这个工具可以拦截Http的交互内容，我们用这个工具来达到我们的目的。
　　先点击开始按钮后，开始监控网页的交互行为。
　　我们打开网页：，可以看到HTTP Analyzer列出了网页的所有请求数据和结果：
　　

　　为了更方便的查看JS结果，我们先清除这些数据，然后输入快递单号：7，点击查询按钮，然后查看HTTP Analyzer的结果：
　　

　　这是点击查询按钮后HTTP Analyzer的结果。让我们继续检查：
　　

　　从上两图可以看出，HTTP Analyzer可以拦截JS返回的数据，并在Response Content中展示。同时可以看到JS请求的网页地址。
　　这种情况下，我们只需要分析HTTP Analyzer的结果，然后模拟JS的行为来获取数据，即我们只需要访问JS请求的网页地址就可以获取数据。当然，前提是数据没有加密。记下 JS 请求的 URL：
　　然后让程序请求这个页面的结果！
　　代码如下：
　　[java]
　　publicvoidcaptureJavascript(Stringpostid)throwsException{StringstrURL=""+postid+"&channel=&rnd=0";URLurl=newURL(strURL);HttpURLConnectionhttpConn=(HttpURLConnection)url.openConnection();InputStreamReaderinput=newInputStreamReader(httpConn.getInputStream() ,"utf-8");BufferedReaderbufReader=newBufferedReader(input);Stringline="";StringBuildercontentBuf=newStringBuilder();while((line=bufReader.readLine())!=null){contentBuf.append(line);} System.out.println("captureJavascript():\n"+contentBuf.toString()的结果);}
　　看，抓取JS的方式和抓取原创网页的代码完全一样，我们只是做了一个解析JS的过程。
　　以下是程序执行的结果：
　　captureJavascript() 的结果：
　　运单跟踪信息[7]
　　这些数据是JS返回的结果，我们的目的就达到了！
　　希望这篇文章能对有需要的朋友有所帮助。如果您需要程序的源代码，请点击这里下载！

WebScraper安装过程中的几个注意事项(图)

网站优化 • 优采云发表了文章 • 0 个评论 • 232 次浏览 • 2021-06-03 04:33 • 来自相关话题

　　WebScraper安装过程中的几个注意事项(图)
　　Web Scraper 是一款面向普通用户（无需专业 IT 技术）的免费爬虫工具，通过鼠标和简单的配置，您可以轻松获取您想要的数据。例如知乎答案列表、微博热点、微博评论、电商网站产品信息、博客文章list等
　　环境要求
　　当然，这么简单的工具，环境要求也很简单。它只需要一台可以上网的电脑和一个版本不是很低的Chrome浏览器。具体版本要求大于31，当然越新越好。向上。目前Chrome有60多个，也就是说对这个版本的要求不是很高。
　　安装过程
　　
　　1.png
　　2、然后在弹出的框中点击“添加扩展”
　　
　　2.png
　　3、安装完成后，顶部工具栏会显示Web Scraper图标。
　　
　　3.png
　　
　　4.gif
　　2、安装完成后，顶部工具栏会显示 Web Scraper 图标。
　　
　　3.png
　　第一次接触网络爬虫**打开网络爬虫**
　　开发者可以路过看看后面
　　windows系统下可以使用快捷键F12，部分笔记本机型需要按Fn+F12；
　　Mac系统下可以使用快捷键command+option+i；
　　也可以直接在Chrome界面操作，点击设置—>更多工具—>开发者工具
　　
　　5.png
　　打开后的效果如下，绿框部分是开发者工具的完整界面，红框部分是Web Scraper区域，是我们后面要操作的部分。
　　
　　6.png
　　注意：如果在浏览器右侧区域打开开发者工具，需要将开发者工具的位置调整到浏览器底部。
　　
　　7.gif
　　原理及功能说明
　　我们通常为哪些场景捕获数据？如果只是几条数据或者某条特定的数据，就不值得用工具了。使用工具的原因是批量获取数据，而不是手动方式太费时费力，甚至无法完成。比如抢微博热搜前100条，当然可以一页一页翻，但是太耗能了。比如知乎所有某个问题的答案，一些热门问题有上千个答案。最好手动保存。
　　基于这样的需求，采集这些数据的使用方式一般有两种，一种叫做“我们程序员的方式”，一种叫做“你们普通人的方式”。
　　“我们程序员的方式”是指开发者会根据自己的需求编写爬虫或者使用爬虫框架，盯着屏幕打代码，根据需求的复杂程度，打代码的时间可以从一个或两个小时不需要一两天。当然，如果时间太长，可能是因为要求太复杂了。对于如此复杂的需求，普通人的方法可能行不通。常用爬虫框架Scrapy（Python）、WebMagic（Java）、Crawler4j（Java）。
　　本文主要介绍“你们常人之道”，即Web Scraper工具。由于其界面简洁，操作简单，可导出为Excel格式，不懂开发的同学也能快速上手。而对于一些简单的需求，开发者不需要自己实现爬虫。毕竟，点击几下鼠标比输入半天的代码还要快。
　　数据爬取的思路大致可以概括如下：
　　1、通过一个或多个入口地址获取初始数据。比如文章列表页面，或者有一定规则的页面，比如带分页的列表页面；
　　2、根据入口页面的一些信息，比如链接点，进入下一页获取必要的信息；
　　3、根据上一层的链接继续下一层，获取必要的信息（这一步可以无限循环）；
　　原理大致相同。接下来，让我们正式认识一下Web Scraper工具。来吧，打开开发者工具，点击Web Scraper标签，看到分为三部分：
　　
　　8.png
　　新建站点地图：首先了解站点地图，字面意思是网站Map，这里可以理解为入口地址，可以理解为对应一个网站，对应一个需求，假设你想得到一个问题在知乎上回答，创建一个站点地图，并将这个问题的地址设置为站点地图的起始地址，然后点击“创建站点地图”来创建站点地图。
　　
　　9.png
　　站点地图：站点地图的集合。所有创建的站点地图都会显示在这里，可以在此处输入站点地图进行修改、数据抓取等操作。
　　
　　10.png
　　站点地图：进入某个站点地图，可以进行一系列的操作，如下图：
　　
　　11.png
　　在红框中添加新的选择器是必不可少的一步。什么是选择器，字面意思是：选择器，一个选择器对应网页的一部分，也就是收录我们要采集的数据的部分。
　　我需要解释一下。一个站点地图下可以有多个选择器，每个选择器可以收录子选择器。一个选择器可以只对应一个标题，也可以对应整个区域。该区域可能收录标题、副标题和作者信息、内容等。
　　选择器：查看所有选择器。
　　选择器图：查看当前站点地图的拓扑结构图，根节点是什么，几个选择器，选择器下收录的子选择器。
　　编辑元数据：您可以修改站点地图信息、标题和起始地址。
　　Scrape：开始数据抓取。
　　Export data as CSV：以CSV格式导出捕获的数据。
　　至此，有一个简单的了解就足够了。真知灼见，具体操作案例令人信服。下面举几个例子来说明具体的用法。
　　案例实践简单试水hao123
　　从简单到深入，我们以一个简单的例子作为入口，作为对Web Scraper服务的进一步了解
　　需求背景：见下hao123页面红框部分。我们的要求是统计这部分区域的所有网站名称和链接地址，最后在Excel中生成。因为这部分内容已经足够简单了，当然实际需求可能比这更复杂，而且人工统计这么几条数据的时间也很快。
　　
　　12.png
　　开始
　　1、假设我们已经打开了hao123页面，在这个页面底部打开了开发者工具，并找到了Web Scraper标签栏；
　　2、点击“创建站点地图”；
　　
　　13.png
　　3、后输入sitemap名称和start url，名称只是为了我们标记，所以命名为hao123（注意不支持中文），start url为hao123的url，然后点击create sitemap；
　　
　　14.png
　　4、Web Scraper 自动定位到这个站点地图后，我们添加一个选择器，点击“添加新的选择器”；
　　
　　15.png
　　5、首先给这个选择器分配一个id，是一个容易识别的名字。我把它命名为热这里。因为要获取名称和链接，所以将类型设置为链接。这种类型是专门为网页链接准备的。选择Link type后，会自动提取name和link这两个属性；
　　
　　16.png
　　6、然后点击select，然后我们在网页上移动光标，我们会发现光标的颜色会发生变化，变成绿色，表示这是我们当前选中的区域。我们将光标定位在需求中提到的栏目中的一个链接上，比如第一条头条新闻，点击这里，这部分会变成红色，表示已经被选中，我们的目的是选中有多个，所以选中这个，继续选择第二个，我们会发现这一行的链接都变红了，没错，这就是我们想要的效果。然后点击“完成选择！”，最后别忘了勾选Multiple，表示你要采集multiple数据；
　　
　　17.png
　　7、最后保存，保存选择器。单击元素预览可预览所选区域，单击数据预览可在浏览器中预览捕获的数据。后面的文本框里面的内容对于懂技术的同学来说是很清楚的。这是xpath。我们可以不用鼠标直接手写xpath；
　　完整的操作流程如下：
　　
　　18.gif
　　8、完成上一步后，就可以实际导出了。别着急，看看其他操作。 Sitemap hao123下的Selector图可以看到拓扑图。 _root 是根选择器。创建站点地图时，会自动出现一个_root节点，可以看到它的子选择器，也就是我们创建的热选择器；
　　
　　19.png
　　9、Scrape，开始抓取数据。
　　在10、Sitemap hao123下浏览，可以直接通过浏览器查看爬取的最终结果，需要重新；
　　
　　20.png
　　11、最后使用Export data as CSV导出为CSV格式，其中hot列为标题，hot-href列为链接；
　　
　　21.png
　　怎么样，现在试试
　　获取知乎questions 的所有答案
　　简单介绍结束，我们来试一个有点难度的，抢一个知乎问题的所有答案，包括回答者的昵称、批准数和回答内容。问：为什么炫富的程序员这么少？
　　知乎的特点是只有向下滚动页面才会加载下一个答案
　　1、首先在Chrome中打开此链接，链接地址为：，并调出开发者工具，定位到Web Scraper标签栏；
　　2、新建站点地图，填写站点地图名称和起始网址；
　　
　　22.png
　　3、下一步，开始添加选择器，点击添加新选择器；
　　4、我们先来分析一下知乎问题的结构。如图，一个问题由多个这样的区域组成，一个区域就是一个答案。这个回答区包括昵称、批准号、回答内容和发布时间等。红色框起来的部分就是我们要抓取的内容。所以我们抓取数据的逻辑是这样的：从入口页面进入，获取当前页面已经加载的答案，找到一个答案区域，提取昵称，批准数，以及里面的答案内容，然后依次执行。当加载区域获取完成后，模拟鼠标向下滚动，加载后续部分，循环直到全部加载完成；
　　
　　23.png
　　5、内容结构拓扑图如下，_root的根节点收录若干个回答区域，每个区域收录昵称、审批号、回答内容；
　　
　　24.png
　　6、根据上面的拓扑图，开始创建选择器，选择器id填写为answer（随意填写），Type选择Element向下滚动。说明：Element是针对这种大面积的区域，这个区域也收录子元素，答案区域对应Element，因为我们需要从这个区域获取我们需要的数据，Element向下滚动表示这个区域是向下使用。滚动方式可以加载更多，专为这种下拉加载而设计。
　　
　　25.png
　　7、接下来，点击选择，然后将鼠标移动到页面上，当绿色框包围一个答案区域时点击鼠标，然后移动到下一个答案。同样，当绿色框收录答案区域时，单击鼠标。这时候，除了这两个答案，所有的答案区域都变成了红色的方框，然后点击“完成选择！”。最后别忘了选择Multiple，稍后保存；
　　
　　26.gif
　　8、下一步，点击红色区域进入刚刚创建的答案选择器，创建子选择器；
　　
　　27.png
　　9、创建昵称选择器，设置id为name，Type为Text，Select选择昵称部分。如果您没有经验，第一次可能不会选择正确的名称。如果您发现错误，您可以对其进行调整并保存。 ;
　　
　　28.gif
　　10、创建批准号选择器；
　　
　　29.gif
　　11、创建一个内容选择器。由于内容格式化并且很长，所以有一个技巧。选择以下更方便；
　　
　　30.gif
　　12、执行刮取操作。由于内容较多，可能需要几分钟。如果是测试用的，可以找一个答案少的问题来测试。
　　
　　31.png
　　资源获取
　　获取的sitemap是一段json文本。使用Create new Sitemap下的Import Sitemap，然后输入获取的sitemap json字符串，命名，点击导入按钮。
　　
　　32.png
　　
　　33.png
　　最后有什么问题可以直接在公众号留言或者回复
　　点击查看文章查看全部

　　1.png
　　2、然后在弹出的框中点击“添加扩展”
　　

　　2.png
　　3、安装完成后，顶部工具栏会显示Web Scraper图标。
　　

　　3.png
　　

　　4.gif
　　2、安装完成后，顶部工具栏会显示 Web Scraper 图标。
　　

　　3.png
　　第一次接触网络爬虫**打开网络爬虫**
　　开发者可以路过看看后面
　　windows系统下可以使用快捷键F12，部分笔记本机型需要按Fn+F12；
　　Mac系统下可以使用快捷键command+option+i；
　　也可以直接在Chrome界面操作，点击设置—>更多工具—>开发者工具
　　

　　5.png
　　打开后的效果如下，绿框部分是开发者工具的完整界面，红框部分是Web Scraper区域，是我们后面要操作的部分。
　　

　　6.png
　　注意：如果在浏览器右侧区域打开开发者工具，需要将开发者工具的位置调整到浏览器底部。
　　

　　7.gif
　　原理及功能说明
　　我们通常为哪些场景捕获数据？如果只是几条数据或者某条特定的数据，就不值得用工具了。使用工具的原因是批量获取数据，而不是手动方式太费时费力，甚至无法完成。比如抢微博热搜前100条，当然可以一页一页翻，但是太耗能了。比如知乎所有某个问题的答案，一些热门问题有上千个答案。最好手动保存。
　　基于这样的需求，采集这些数据的使用方式一般有两种，一种叫做“我们程序员的方式”，一种叫做“你们普通人的方式”。
　　“我们程序员的方式”是指开发者会根据自己的需求编写爬虫或者使用爬虫框架，盯着屏幕打代码，根据需求的复杂程度，打代码的时间可以从一个或两个小时不需要一两天。当然，如果时间太长，可能是因为要求太复杂了。对于如此复杂的需求，普通人的方法可能行不通。常用爬虫框架Scrapy（Python）、WebMagic（Java）、Crawler4j（Java）。
　　本文主要介绍“你们常人之道”，即Web Scraper工具。由于其界面简洁，操作简单，可导出为Excel格式，不懂开发的同学也能快速上手。而对于一些简单的需求，开发者不需要自己实现爬虫。毕竟，点击几下鼠标比输入半天的代码还要快。
　　数据爬取的思路大致可以概括如下：
　　1、通过一个或多个入口地址获取初始数据。比如文章列表页面，或者有一定规则的页面，比如带分页的列表页面；
　　2、根据入口页面的一些信息，比如链接点，进入下一页获取必要的信息；
　　3、根据上一层的链接继续下一层，获取必要的信息（这一步可以无限循环）；
　　原理大致相同。接下来，让我们正式认识一下Web Scraper工具。来吧，打开开发者工具，点击Web Scraper标签，看到分为三部分：
　　

　　8.png
　　新建站点地图：首先了解站点地图，字面意思是网站Map，这里可以理解为入口地址，可以理解为对应一个网站，对应一个需求，假设你想得到一个问题在知乎上回答，创建一个站点地图，并将这个问题的地址设置为站点地图的起始地址，然后点击“创建站点地图”来创建站点地图。
　　

　　9.png
　　站点地图：站点地图的集合。所有创建的站点地图都会显示在这里，可以在此处输入站点地图进行修改、数据抓取等操作。
　　

　　10.png
　　站点地图：进入某个站点地图，可以进行一系列的操作，如下图：
　　

　　11.png
　　在红框中添加新的选择器是必不可少的一步。什么是选择器，字面意思是：选择器，一个选择器对应网页的一部分，也就是收录我们要采集的数据的部分。
　　我需要解释一下。一个站点地图下可以有多个选择器，每个选择器可以收录子选择器。一个选择器可以只对应一个标题，也可以对应整个区域。该区域可能收录标题、副标题和作者信息、内容等。
　　选择器：查看所有选择器。
　　选择器图：查看当前站点地图的拓扑结构图，根节点是什么，几个选择器，选择器下收录的子选择器。
　　编辑元数据：您可以修改站点地图信息、标题和起始地址。
　　Scrape：开始数据抓取。
　　Export data as CSV：以CSV格式导出捕获的数据。
　　至此，有一个简单的了解就足够了。真知灼见，具体操作案例令人信服。下面举几个例子来说明具体的用法。
　　案例实践简单试水hao123
　　从简单到深入，我们以一个简单的例子作为入口，作为对Web Scraper服务的进一步了解
　　需求背景：见下hao123页面红框部分。我们的要求是统计这部分区域的所有网站名称和链接地址，最后在Excel中生成。因为这部分内容已经足够简单了，当然实际需求可能比这更复杂，而且人工统计这么几条数据的时间也很快。
　　

　　12.png
　　开始
　　1、假设我们已经打开了hao123页面，在这个页面底部打开了开发者工具，并找到了Web Scraper标签栏；
　　2、点击“创建站点地图”；
　　

　　13.png
　　3、后输入sitemap名称和start url，名称只是为了我们标记，所以命名为hao123（注意不支持中文），start url为hao123的url，然后点击create sitemap；
　　

　　14.png
　　4、Web Scraper 自动定位到这个站点地图后，我们添加一个选择器，点击“添加新的选择器”；
　　

　　15.png
　　5、首先给这个选择器分配一个id，是一个容易识别的名字。我把它命名为热这里。因为要获取名称和链接，所以将类型设置为链接。这种类型是专门为网页链接准备的。选择Link type后，会自动提取name和link这两个属性；
　　

　　16.png
　　6、然后点击select，然后我们在网页上移动光标，我们会发现光标的颜色会发生变化，变成绿色，表示这是我们当前选中的区域。我们将光标定位在需求中提到的栏目中的一个链接上，比如第一条头条新闻，点击这里，这部分会变成红色，表示已经被选中，我们的目的是选中有多个，所以选中这个，继续选择第二个，我们会发现这一行的链接都变红了，没错，这就是我们想要的效果。然后点击“完成选择！”，最后别忘了勾选Multiple，表示你要采集multiple数据；
　　

　　17.png
　　7、最后保存，保存选择器。单击元素预览可预览所选区域，单击数据预览可在浏览器中预览捕获的数据。后面的文本框里面的内容对于懂技术的同学来说是很清楚的。这是xpath。我们可以不用鼠标直接手写xpath；
　　完整的操作流程如下：
　　

　　18.gif
　　8、完成上一步后，就可以实际导出了。别着急，看看其他操作。 Sitemap hao123下的Selector图可以看到拓扑图。 _root 是根选择器。创建站点地图时，会自动出现一个_root节点，可以看到它的子选择器，也就是我们创建的热选择器；
　　

　　19.png
　　9、Scrape，开始抓取数据。
　　在10、Sitemap hao123下浏览，可以直接通过浏览器查看爬取的最终结果，需要重新；
　　

　　20.png
　　11、最后使用Export data as CSV导出为CSV格式，其中hot列为标题，hot-href列为链接；
　　

　　21.png
　　怎么样，现在试试
　　获取知乎questions 的所有答案
　　简单介绍结束，我们来试一个有点难度的，抢一个知乎问题的所有答案，包括回答者的昵称、批准数和回答内容。问：为什么炫富的程序员这么少？
　　知乎的特点是只有向下滚动页面才会加载下一个答案
　　1、首先在Chrome中打开此链接，链接地址为：，并调出开发者工具，定位到Web Scraper标签栏；
　　2、新建站点地图，填写站点地图名称和起始网址；
　　

　　22.png
　　3、下一步，开始添加选择器，点击添加新选择器；
　　4、我们先来分析一下知乎问题的结构。如图，一个问题由多个这样的区域组成，一个区域就是一个答案。这个回答区包括昵称、批准号、回答内容和发布时间等。红色框起来的部分就是我们要抓取的内容。所以我们抓取数据的逻辑是这样的：从入口页面进入，获取当前页面已经加载的答案，找到一个答案区域，提取昵称，批准数，以及里面的答案内容，然后依次执行。当加载区域获取完成后，模拟鼠标向下滚动，加载后续部分，循环直到全部加载完成；
　　

　　23.png
　　5、内容结构拓扑图如下，_root的根节点收录若干个回答区域，每个区域收录昵称、审批号、回答内容；
　　

　　24.png
　　6、根据上面的拓扑图，开始创建选择器，选择器id填写为answer（随意填写），Type选择Element向下滚动。说明：Element是针对这种大面积的区域，这个区域也收录子元素，答案区域对应Element，因为我们需要从这个区域获取我们需要的数据，Element向下滚动表示这个区域是向下使用。滚动方式可以加载更多，专为这种下拉加载而设计。
　　

　　25.png
　　7、接下来，点击选择，然后将鼠标移动到页面上，当绿色框包围一个答案区域时点击鼠标，然后移动到下一个答案。同样，当绿色框收录答案区域时，单击鼠标。这时候，除了这两个答案，所有的答案区域都变成了红色的方框，然后点击“完成选择！”。最后别忘了选择Multiple，稍后保存；
　　

　　26.gif
　　8、下一步，点击红色区域进入刚刚创建的答案选择器，创建子选择器；
　　

　　27.png
　　9、创建昵称选择器，设置id为name，Type为Text，Select选择昵称部分。如果您没有经验，第一次可能不会选择正确的名称。如果您发现错误，您可以对其进行调整并保存。 ;
　　

　　28.gif
　　10、创建批准号选择器；
　　

　　29.gif
　　11、创建一个内容选择器。由于内容格式化并且很长，所以有一个技巧。选择以下更方便；
　　

　　30.gif
　　12、执行刮取操作。由于内容较多，可能需要几分钟。如果是测试用的，可以找一个答案少的问题来测试。
　　

　　31.png
　　资源获取
　　获取的sitemap是一段json文本。使用Create new Sitemap下的Import Sitemap，然后输入获取的sitemap json字符串，命名，点击导入按钮。
　　

　　32.png
　　

　　33.png
　　最后有什么问题可以直接在公众号留言或者回复
　　点击查看文章

告诉你什么原因导致蜘蛛不抓取你网站的内容

网站优化 • 优采云发表了文章 • 0 个评论 • 123 次浏览 • 2021-06-02 01:01 • 来自相关话题

　　告诉你什么原因导致蜘蛛不抓取你网站的内容
　　相信大多数人都遇到过这样的情况。网站努力优化，觉得很完美。然而，蜘蛛对此并不感冒，很少爬取网站的内容。这是很着急，蜘蛛不爬你的网站内容是什么原因？下面小编告诉你！
　　1、flash 图片太多
　　蜘蛛只是一个虚拟工具。它只能区分简单的文本和脚本内容。它根本无法识别图片和动画。然而，许多没有经验的人经常使用网站来丰富内容并吸引蜘蛛的爱。 k14中嵌入了大量的flash图片]。殊不知，你的网站内容再美，蜘蛛也分辨不出来。在这种情况下，它只会绕道而行，根本不会抢到你的网站。内容。
　　2、文章不定期发布
　　很多人不定期更新文章。如果他们今天心情好，他们会再更新两篇文章；如果他们心情不好，他们会再更新两篇文章甚至不更新。或者上午没时间下午更新等等。这些不规律的更新会让蜘蛛以为你在逗它，对你的印象会大大降低，更别说爬行了，所以一定要坚持定期更新文章。
　　3、导出的链接太多
　　网站导出的链接越多，网站的权重越容易分散，这对蜘蛛的停留影响很大，因为蜘蛛爬行是从头到尾爬行，分为广度爬行和深度爬行。爬行，如果是广度爬行，爬到最后，或者拒绝进入内页，这时候你给它导入一个链接，这样蜘蛛只会沿着你的链接爬出来，不会抓取任何内容。所以网站一定不能导出太多链接。
　　4、死链泛滥
　　其实蜘蛛和人一样。如果你网站死链接太多，蜘蛛来抓取内容的时候，发现很多连接打不开。这会发生一次或两次。显然，它会气馁。我相信我以后不会再访问你的网站了，甚至无法抓取网站的内容，所以必须及时删除死链接。查看全部

百度快照出现描述错误的原因有哪些？怎么解决？

网站优化 • 优采云发表了文章 • 0 个评论 • 410 次浏览 • 2021-06-01 03:21 • 来自相关话题

　　百度快照出现描述错误的原因有哪些？怎么解决？
　　百度蜘蛛爬行网站描述有什么问题？这段时间有很多网友问我这个问题，虽然我已经回答过很多次了，但还是有新人来问这个问题。今天就给大家详细介绍一下这个问题，希望能减少大家的疑惑。
　　大家都知道网站的三大标签很重要，做优化的人更关注这三大标签。如果网站的 tdk 出现问题，SEOer 通常会感到紧张。那么，百度快照描述错误的原因有哪些呢？我为大家简单总结了以下几点：
　　1、使用site命令查看网站的数据，网站的描述中有错误。
　　使用site命令查看网站数据，显示描述不正确，这种情况很常见。这个问题大家很早就发现了，所以如果你使用site命令查找描述错误，不要太担心。
　　2、新站。
　　如果您的网站是一个新站点，则网站的描述很可能与站点所有者期望的描述不符。由于新站点权重低，信任度低，百度爬取时，极有可能抓取网站的某一部分作为描述。在这种情况下，站长不必担心。百度自然会在发布后发布对网站的描述。
　　3、受搜索关键词影响。
　　如果搜索网站 core 关键词，一般会显示站长写的描述。如果搜索的是一些长尾词，很可能会出现描述网站文章上某篇文章的某段文字。这种情况主要受搜索引擎查询结果的相关性影响。当搜索长尾单词时，搜索引擎会认为文章中的某个段落与该单词高度相关，并会在说明中以红色显示该段落。
　　
　　4、搜索引擎自动获取描述。
　　如果网站的描述中有大量关键词的积累，搜索引擎很可能会认为你在用描述作弊。因此，不是爬取描述，而是从站点中发现它与网站的主题相关。如网站的描述。
　　5、网站具有不合理的结构。
　　网站的结构和布局会影响蜘蛛的爬行效率。如果网站的结构布局不好，可能会导致蜘蛛爬取描述错误或不爬取描述。
　　6、对 tdk 进行了更改。
　　如果修改了网站tdk，需要一段时间的调查。检修期间网站的描述可能仍为原创描述，正常维护网站，检修期结束后发布网站的描述。
　　百度蜘蛛爬行网站描述有什么问题？以上就是对这个问题的简单介绍，希望对广大网友有所帮助。网站外观描述与站长想要的描述不符。你应该根据你之前的操作检查网站的操作，找出针对性修改的原因。如果是新站点或修改网站，不用太担心描述错误。返回搜狐查看更多查看全部

　　4、搜索引擎自动获取描述。
　　如果网站的描述中有大量关键词的积累，搜索引擎很可能会认为你在用描述作弊。因此，不是爬取描述，而是从站点中发现它与网站的主题相关。如网站的描述。
　　5、网站具有不合理的结构。
　　网站的结构和布局会影响蜘蛛的爬行效率。如果网站的结构布局不好，可能会导致蜘蛛爬取描述错误或不爬取描述。
　　6、对 tdk 进行了更改。
　　如果修改了网站tdk，需要一段时间的调查。检修期间网站的描述可能仍为原创描述，正常维护网站，检修期结束后发布网站的描述。
　　百度蜘蛛爬行网站描述有什么问题？以上就是对这个问题的简单介绍，希望对广大网友有所帮助。网站外观描述与站长想要的描述不符。你应该根据你之前的操作检查网站的操作，找出针对性修改的原因。如果是新站点或修改网站，不用太担心描述错误。返回搜狐查看更多

西安网站链接地址如何收录的网站维护系统

网站优化 • 优采云发表了文章 • 0 个评论 • 110 次浏览 • 2021-05-28 22:35 • 来自相关话题

　　西安网站链接地址如何收录的网站维护系统
　　说到网站排名，我必须说网站的内容必须首先由搜索引擎收录进行搜索，然后如何收录西安网站维护编辑器将介绍什么是一个爬虫，本文将介绍您之后，您将知道该爬虫过程是什么样的！
　　*首先，请从Internet页面中仔细选择一部分网页，使用这些网页的链接地址作为种子URL，然后将这些种子URL放入要抓取的URL队列中。采集器从URL队列中读取要依次搜寻的URL，并通过DNS解析URL，并将链接地址转换为与网站服务器相对应的IP地址。然后将其和网页的相对路径名交给负责下载页面内容的网页下载器。
　　对于本地下载的网页，一方面，将其存储在页面库中，并等待后续处理，例如建立索引；另一方面，将下载的网页的URL放入爬网的URL队列中，该队列记录已下载的网页的采集器系统URL，以避免重复爬网。对于新下载的网页，请提取其中收录的所有链接信息，然后在爬网的URL队列中进行检查。如果发现未对链接进行爬网，则将该URL放在要爬网的URL队列的末尾，然后将在爬网计划中下载与此URL对应的网页。
　　以这种方式形成循环，直到要爬网的URL队列为空为止，这意味着爬网器系统已经爬网了所有可以爬网的网页，并在此时完成了完整的爬网过程
　　这是完整的爬网过程。西安网站的编辑分享的这篇文章希望对大家有所帮助查看全部

如何让网站原创内容显示不断利用谷歌搜索关键词

网站优化 • 优采云发表了文章 • 0 个评论 • 115 次浏览 • 2021-05-28 22:06 • 来自相关话题

　　如何让网站原创内容显示不断利用谷歌搜索关键词
　　网站内容抓取。简单的说就是把网站上的有价值的信息，比如有价值的个人信息，网站链接，网站内容等搬到网站。然后通过网站的seoer推荐，把这些信息给其他用户。无论是互联网哪一类网站，本质上都属于通过搜索引擎搜索自己的有价值信息来提高网站自身的曝光率和用户访问数量的行为。而基于这样一种有价值信息产生的广告，就会是网站上广告最主要的来源。
　　请参考:site-selling.aspx
　　我个人认为，主要靠链接，所以你关注你感兴趣的内容，不断利用谷歌搜索关键词，实现个人站长。其实很多内容站主页上都有出现；定期做点“水军”，增加关注度，这是关键。网站上的实时内容，你可以关注合适的博客转载。如何让网站原创内容显示，不要copy&paste原创内容，主要是做好优化，如果你的网站是新网站，可以着重做seo。所以，如果你要新网站，在站长平台上一般都有提供上传新网站的服务。
　　抄，不断抄，抄的程度越大，越好。抄，抄全别人网站，尤其是seo比较好的网站，这是唯一出路。
　　自己写的那部分只做自己感兴趣的东西，你想要做的但是搜索引擎不想让你做的东西。
　　用有价值的链接内容来解决对你网站的印象，深入挖掘它，尽量让用户更容易找到。
　　网站内容就是一个个大网，蜘蛛去抓取每个网页。网站蜘蛛抓取到的用户感兴趣的东西，分拣出来，给广告主；网站广告主，给n多用户：想要的东西。所以网站内容相互衔接，就是给用户想要的东西。把广告主想要的东西提供给用户，就赚钱了。你想要的东西，搜索引擎蜘蛛不给你，自然不赚钱，而且搜索引擎也不可能给你你想要的东西。你的网站，网站不赚钱，不在于你网站有没有内容，而在于你有没有懂得拿内容做噱头，营销。查看全部

　　如何让网站原创内容显示不断利用谷歌搜索关键词
　　网站内容抓取。简单的说就是把网站上的有价值的信息，比如有价值的个人信息，网站链接，网站内容等搬到网站。然后通过网站的seoer推荐，把这些信息给其他用户。无论是互联网哪一类网站，本质上都属于通过搜索引擎搜索自己的有价值信息来提高网站自身的曝光率和用户访问数量的行为。而基于这样一种有价值信息产生的广告，就会是网站上广告最主要的来源。
　　请参考:site-selling.aspx
　　我个人认为，主要靠链接，所以你关注你感兴趣的内容，不断利用谷歌搜索关键词，实现个人站长。其实很多内容站主页上都有出现；定期做点“水军”，增加关注度，这是关键。网站上的实时内容，你可以关注合适的博客转载。如何让网站原创内容显示，不要copy&paste原创内容，主要是做好优化，如果你的网站是新网站，可以着重做seo。所以，如果你要新网站，在站长平台上一般都有提供上传新网站的服务。
　　抄，不断抄，抄的程度越大，越好。抄，抄全别人网站，尤其是seo比较好的网站，这是唯一出路。
　　自己写的那部分只做自己感兴趣的东西，你想要做的但是搜索引擎不想让你做的东西。
　　用有价值的链接内容来解决对你网站的印象，深入挖掘它，尽量让用户更容易找到。
　　网站内容就是一个个大网，蜘蛛去抓取每个网页。网站蜘蛛抓取到的用户感兴趣的东西，分拣出来，给广告主；网站广告主，给n多用户：想要的东西。所以网站内容相互衔接，就是给用户想要的东西。把广告主想要的东西提供给用户，就赚钱了。你想要的东西，搜索引擎蜘蛛不给你，自然不赚钱，而且搜索引擎也不可能给你你想要的东西。你的网站，网站不赚钱，不在于你网站有没有内容，而在于你有没有懂得拿内容做噱头，营销。

广东SEO顾问：什么样的内容百度蜘蛛才会喜欢？

网站优化 • 优采云发表了文章 • 0 个评论 • 127 次浏览 • 2021-05-28 03:25 • 来自相关话题

　　广东SEO顾问：什么样的内容百度蜘蛛才会喜欢？
　　网站文章内容在优化过程中占据着非常重要的部分。那么，百度蜘蛛希望抓取什么样的内容？接下来，广东搜索引擎优化顾问的编辑将与您分享百度蜘蛛喜欢抓取的内容，让我们来看一下！
　　
　　1、文章提议的标题方法；
　　文章的标题等同于文章的主题。绘制后，下面写的文章必须围绕该主题编写，以改善用户体验，否则用户体验会非常低。
　　2、文章关键词优化布局；
　　文章关键词在布局过程中非常重要。关键词的布局应自然，不堆积，不刻意和不影响客户的阅读。甚至第一段中出现的关键词都应遵循自然原则。
　　3、文章必须高度相关；
　　在编写文章标题，关键词和内容时，必须避免出现头部不正确的现象。您不能说标题是南，关键词是北，但内容是西，相信我不喜欢的人。
　　4、多段，避免冗长的文章；
　　文章应尽量避免在写作过程中进行冗长的讨论，而只写文章内容的很少部分，以使条件更加清晰，使人们阅读起来更加清晰。
　　5、翻译外来语原创文章;
　　翻译外国高质量的原创文章也是一种编写内容的方法。对于搜索引擎，搜索引擎用不同的文本编写文章是不同的。这是写原创文章的方法，不一定对人们有用。
　　6、网站文章更新频率必须固定；
　　网站文章应该在编写过程中掌握规律性，以便蜘蛛可以定期抓取到您的网站，这可以更轻松地提高网站的质量。
　　以上是百度蜘蛛喜欢抓取的内容，广东SEO顾问编辑希望与您分享。希望它能对您有所帮助。有关更多相关内容，请继续关注广东SEO顾问。查看全部

　　广东SEO顾问：什么样的内容百度蜘蛛才会喜欢？
　　网站文章内容在优化过程中占据着非常重要的部分。那么，百度蜘蛛希望抓取什么样的内容？接下来，广东搜索引擎优化顾问的编辑将与您分享百度蜘蛛喜欢抓取的内容，让我们来看一下！
　　

　　1、文章提议的标题方法；
　　文章的标题等同于文章的主题。绘制后，下面写的文章必须围绕该主题编写，以改善用户体验，否则用户体验会非常低。
　　2、文章关键词优化布局；
　　文章关键词在布局过程中非常重要。关键词的布局应自然，不堆积，不刻意和不影响客户的阅读。甚至第一段中出现的关键词都应遵循自然原则。
　　3、文章必须高度相关；
　　在编写文章标题，关键词和内容时，必须避免出现头部不正确的现象。您不能说标题是南，关键词是北，但内容是西，相信我不喜欢的人。
　　4、多段，避免冗长的文章；
　　文章应尽量避免在写作过程中进行冗长的讨论，而只写文章内容的很少部分，以使条件更加清晰，使人们阅读起来更加清晰。
　　5、翻译外来语原创文章;
　　翻译外国高质量的原创文章也是一种编写内容的方法。对于搜索引擎，搜索引擎用不同的文本编写文章是不同的。这是写原创文章的方法，不一定对人们有用。
　　6、网站文章更新频率必须固定；
　　网站文章应该在编写过程中掌握规律性，以便蜘蛛可以定期抓取到您的网站，这可以更轻松地提高网站的质量。
　　以上是百度蜘蛛喜欢抓取的内容，广东SEO顾问编辑希望与您分享。希望它能对您有所帮助。有关更多相关内容，请继续关注广东SEO顾问。

百度抓取器会和网站首页进行友好性优化(图)

网站优化 • 优采云发表了文章 • 0 个评论 • 112 次浏览 • 2021-06-17 04:08 • 来自相关话题

　　如上图所示，从首页到具体内容的超链接路径关系称为发现链接。目前大部分移动站都不太关注发现链接关系，所以爬虫无法抓取到内容页面。
　　

腾讯DeepOcean：从互联网上爬取的语料经验分享

网站优化 • 优采云发表了文章 • 0 个评论 • 193 次浏览 • 2021-06-17 02:08 • 来自相关话题

SEO（搜索引擎优化）推广中最重要的关键词

网站优化 • 优采云发表了文章 • 0 个评论 • 125 次浏览 • 2021-06-17 02:02 • 来自相关话题

百度搜索引擎不抓取网站的内容不会有排名的

网站优化 • 优采云发表了文章 • 0 个评论 • 96 次浏览 • 2021-06-17 02:01 • 来自相关话题

　　转载需授权！

ASP.NET核心代码：用Stream读取3、网页内容POST

网站优化 • 优采云发表了文章 • 0 个评论 • 145 次浏览 • 2021-06-17 01:42 • 来自相关话题

　　ASP.NET核心代码：用Stream读取3、网页内容POST
　　在ASP.NET中抓取网页内容非常方便，解决了ASP中困扰我们的编码问题。
　　1、抓取一般内容
　　需要三个类：WebRequest、WebResponse、StreamReader
　　必需的命名空间：System.Net、System.IO
　　核心代码：
　　WebRequest类的Create是一个静态方法，参数是要爬取的网页的URL；
　　Encoding 指定编码。编码有ASCII、UTF32、UTF8等通用编码属性，但没有gb2312的编码属性，所以我们使用GetEncoding获取gb2312编码。
　　private string GetGeneralContent(string strUrl)
{
string strMsg = string.Empty;
try
{
WebRequest request = WebRequest.Create(strUrl);
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312"));
strMsg = reader.ReadToEnd();
reader.Close();
reader.Dispose();
response.Close();
}
catch
{ }
return strMsg;
}
　　2、抓取图片或其他二进制文件（如文件）需要四个类：WebRequest、WebResponse、Stream、FileStream。所需命名空间：System.Net、System.IO 核心代码：Reading with Stream
　　private string GetFileContent(string strUrl)
{
string strMsg = string.Empty;
try
{
WebRequest request = WebRequest.Create(strUrl);
WebResponse response = request.GetResponse();
Stream reader = response.GetResponseStream();

//可根据实际保存为具体文件
FileStream writer = new FileStream("D:\\logo.gif", FileMode.OpenOrCreate, FileAccess.Write);
byte[] buff = new byte[512];
int c = 0; //实际读取的字节数
while ((c=reader.Read(buff, 0, buff.Length)) > 0)
{
writer.Write(buff, 0, c);
}
writer.Close();
writer.Dispose();

reader.Close();
reader.Dispose();
response.Close();
strMsg = "保存成功";
}
catch
{ }
return strMsg;
}
　　3、Grab 网页内容 POST 方式抓取网页时，有时需要通过 Post 的方式向服务器发送一些数据。在网页抓取程序中加入如下代码，实现用户将用户名和密码发布到服务器：
　　private string GetPostContent(string strUrl)
{
string strMsg = string.Empty;
try
{
string data = "userName=admin&passwd=admin888";
byte[] requestBuffer = System.Text.Encoding.GetEncoding("gb2312").GetBytes(data);
WebRequest request = WebRequest.Create(strUrl);
request.Method = "POST";
request.ContentType = "application/x-www-form-urlencoded";
request.ContentLength = requestBuffer.Length;
using (Stream requestStream = request.GetRequestStream())
{
requestStream.Write(requestBuffer, 0, requestBuffer.Length);
requestStream.Close();
}
WebResponse response = request.GetResponse();
using (StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("gb2312")))
{
strMsg = reader.ReadToEnd();
reader.Close();
}
}
catch
{ }
return strMsg;
}
　　4、ASP.NET 捕获网页内容-防止重定向。在抓取网页时，在成功登录服务器应用系统后，应用系统可以通过Response.Redirect对网页进行重定向。如果你不需要响应这个重定向Orientation，那么，我们不把reader.ReadToEnd()给Response.Write，就是这样。 5、ASP.NET 抓取网页内容保持登录状态使用Post数据成功登录服务器应用系统后，就可以抓取需要登录的页面了。那么我们可能需要在多个之间保持登录状态要求。首先，我们要使用 HttpWebRequest 而不是 WebRequest。与WebRequest相比，变化的代码是：
　　HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(strUrl);
　　注意：HttpWebRequest.Create返回的类型仍然是WebRequest，需要进行转换。二、使用CookieContainer。
　　System.Net.CookieContainer cc = new System.Net.CookieContainer();
request.CookieContainer = cc;
request2.CookieContainer = cc;
　　这样，request和request2之间使用了同一个Session。如果 request 已登录，则 request2 也已登录。
　　最后，如何在不同页面之间使用相同的CookieContainer。
　　不同页面之间要使用同一个CookieContainer，只需要在Session中添加CookieContainer即可。
　　Session.Add("ccc", cc); //存
CookieContainer cc = (CookieContainer)Session["ccc"]; //取Session
　　6、ASP.NET 抓取网页内容——将当前会话带到 WebRequest 中
　　比如浏览器B1访问服务器端S1，这会产生一个会话，服务器端S2使用WebRequest访问服务器端S1，就会产生一个会话。当前要求WebRequest使用浏览器B1和S1之间的会话，这意味着S1应该认为B1正在访问S1，而不是S2正在访问S1。
　　这就是cookies的使用。先在S1中获取SessionID为B1的Cookie，然后将这个Cookie告诉S2，S2将Cookie写入WebRequest中。
　　WebRequest request = WebRequest.Create("url");
request.Headers.Add(HttpRequestHeader.Cookie, "ASPSESSIONIDSCATBTAD=KNNDKCNBONBOOBIHHHHAOKDM;");
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));
Response.Write(reader.ReadToEnd());
reader.Close();
reader.Dispose();
response.Close();
　　我想解释一下：
　　本文不是 Cookie 欺骗，因为 SessionID 是 S1 告诉 S2 的，并没有被 S2 窃取。虽然有点奇怪，但在某些特定的应用系统中可能会有用。
　　S1 必须将 Session 写入 B1，这样 SessionID 将保存在 Cookie 中，SessionID 将保持不变。
　　Request.Cookies 用于在 ASP.NET 中获取 cookie。本文假设已获取 cookie。
　　不同的服务器端语言对Cookie中的SessionID有不同的名称。本文为ASP SessionID。
　　S1 可能不仅依赖 SessionID 来确定当前登录，还可能辅助 Referer、User-Agent 等，具体取决于 S1 终端程序的设计。
　　这篇文章其实是本系列中另一种“保持登录”的方式。
　　7、ASP.NET 抓取网页内容-如何更改源Referer和UserAgent
　　HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create("http://127.0.0.1/index.htm";);
request.Referer = "http://www.csdn.net/";
request.UserAgent = "要设置的标头";
//下一步的处理