php抓取网页匹配url(谷歌搜索url的搜索指令和相互之间的逻辑关系是什么?)

优采云 发布时间: 2021-12-04 03:14

  php抓取网页匹配url(谷歌搜索url的搜索指令和相互之间的逻辑关系是什么?)

  一般我们在谷歌搜索时,只输入中文。这通常称为泛搜索。如果输入英文,英文的大小写不会影响搜索结果,搜索结果是一样的。使用泛搜索的人不知道如何使用Google。要真正使用Google的搜索功能,需要了解GOOGLE的搜索指令以及它们之间的逻辑关系。

  什么情况下适合使用谷歌?

  目前全球主流的搜索引擎有谷歌、雅虎、美国的BING等。当然,有些国家有自己的浏览器或自定义搜索方法。比如中国习惯百度,日本喜欢雅虎雅虎,美国的AOL,*敏*感*词*的YANDEX等等。基本上大部分东西还是可以在GOOGLE上搜索到的,除非你想搜索一些其他国家当地语言的当地材料。

  当你想开发全球外贸客户时,使用GOOGLE Chrome浏览器是最合适的,但是GOOGLE浏览器是分不同国家的站点,你想要准确的搜索结果,而不是随便打开GOOGLE随便搜索。只要各个国家的用户使用谷歌搜索,大部分都是使用当地的谷歌网站进行搜索。在做区域外贸网站优化时,应该使用当地的谷歌查看网站排名,有效准确。

  您需要输入不同的GOOGLE国家网站进行搜索。不知道是什么网站,可以通过本站黑科技娃娃导航进入搜索

  GOOGLE 搜索的两种方式之一是高级搜索。你可以直接访问谷歌高级搜索,然后通过一些过滤条件,就可以得到你需要的谷歌搜索结果。

  如果觉得麻烦,可以直接通过网址链接设置搜索参数。选择两者之一。这种方法一般用于选择所在国家的站点,并设置一些简单的搜索命令。一种是使用特定的搜索命令来搜索特定的内容。有时必须使用 GOOGLE 搜索框命令完成多个复杂的查询。谷歌搜索url常用参数设置

  

  比如GOOGLE主站的URL参数:

  https://www.google.com/search?hl=en&newwindow=1&lr=lang_en&cr=countryUS&q=brands

  注意:URL 参数一般为英文。对于中文搜索引擎优化,很少使用中文网址。一方面看起来有点奇怪,但另一方面,搜索引擎识别和抓取容易出现问题。

  1. num 参数:num 的取值范围为 1 到 100,Google 搜索页面默认显示 10 个搜索结果。我可以通过设置 URL 参数来调整显示的结果。最后的 num=1 表示一个页面只显示 1 个搜索结果。

  2.lr 参数:指的是语言限制(语言限制),将搜索限制在某种语言的网页上。如果 lr 参数为空,则表示搜索所有网页。例如,lr=lang_zh-CN|lang_zh-TW 搜索所有中文网页。如果你想限制某种语言,但不知道具体的语言代码是什么,可以参考谷歌提供的语言文档。

  3.cr参数:表示国家限制(​​countryrestriction),country后面的两个字符需要大写。具体国家代码请查看GOOGLE提供的国家代码文档。

  4. hl 参数:表示宿主语言(界面语言),谷歌一般会根据你的地理位置帮你确定界面语言。例如,如果您使用日语代理服务器,Google 将显示日语。如果看不懂日文,希望如果改成英文或者中文,可以添加HL参数/search?q=vimperator&lr=lang_ja&cr=countryJP&hl=zh-CN

  如果你不知道你的语言对应的代码,请参考谷歌提供的hl参数语言代码文档。

  5. as_qdr 参数:as 表示高级搜索,qdr 表示查询日期范围,您可以在谷歌搜索中提供时间限制功能,例如“过去1周”,甚至自定义日期。

  例如as_qdr=m2表示过去两个月,as_qdr=y2表示过去两年,as_qdr=d2表示过去两天,w表示一周,s表示秒,n表示分钟,h表示小时。

  谷歌搜索框指令集

  GOOGLE 搜索命令具有三个基本逻辑运算:and、or、and not。所有命令和符号均为英文,冒号后不应有空格。

  和:

  表示同时收录两个关键词,缩写的AND命令一般用空格代替,写的不是很清楚。另外,AND指令也可以用+代替

  ——例如:A AND B(中间有空格)

  OR (OR):表示既可以又可以,或两者兼而有之。OR 速记指令可以替换为 |。

  ——例如:A OR B(中间有空格)

  逻辑否定:-表示排除减号后的内容。减号命令可以连续使用。谷歌和百度都支持这个命令。(注意减号是英文输入的,后面直接加上需要排除的关键词,不能有空格)

  注意:

  通配符:*?

  星号 (*) 或 (?) 作为占位符,如果与引号 (") 一起使用,您可以搜索确切短语的不同变体,或下一个短语中间的单词。

  “*”代表一系列字符,称为占位符。添加*百度不支持*搜索说明,您要在单词或短语中放置占位符。

  ——例如:世界上最大的*

  “?” 代表单个字符。

  ——比如:progr?m(不要指望google可以通过progr?m来搜索program,因为progr和m被当成单独的词对待,两个词之间允许一个字符,仅此而已。)

  搜索数值范围的同义词

  ~ 结果收录查询词组及其同义词

  ——例如:~手机

  双引号精确匹配精确搜索

  用英文""中的双引号表示关键词的精确匹配,即搜索引擎将双引号中的关键词视为一个词,顺序不变。此选项可用于搜索文学作品中的歌词或一段文字。泛搜索分散。百度和谷歌都支持这个命令。

  ——比如:《你死了一定要爱》(注:匹配双引号关键词的结果不仅出现在标题中,也可能出现在描述或网址中。)

  IN指令

  您可以指定查询的位置关键词 进行更精确的查询,例如关键词 只出现在标题中,或者只出现在URL 或描述正文中。

  标题:

  在页面标题中找到它。这通常对讨论较多的热门话题有用,也适用于了解竞争对手。如果关键词只出现在页面的可见文本中,而没有出现在标题中,那么在大多数情况下它并不是针对关键词优化的,所以它不是一个强有力的竞争者。谷歌和百度都支持 intitle 命令。

  ——例如:[cooltech doll intitle:help],谷歌将返回网页标题中收录查询关键字“help”以及其他网页上任意位置收录查询关键字“cooltech”和“doll”的网页。(标题:后面不能有空格)

  标题:

  搜索返回页面标题中收录多组 关键词 的网页。该命令属于 intitle 独占命令。

  ——例如:allintitle:fabric test 等价于:intitle:fabric intitle:test(返回的是标题中同时收录“fabric”和“test”的页面。如果空格很长关键词,则按顺序为了准确,查询键可以加双引号)

  网址:

  Google 将返回在 URL(网址)中收录查询 关键词 的网页。由于url中关键词的出现对排名有一定的影响,所以这个命令可以更准确的找到竞争对手。注意链接的查询词要连续,不能断

  很多SEO人员认为GOV和学校网站的权重比较高。找到相关的GOV和学校网站,找到最好的链接资源。inurl 命令支持中文和英文。百度和谷歌都支持 inurl 命令。注意网址中的中文容易出错,最好使用英文。

  ——例如:inurl:gov to loss weight,返回url中收录gov,页面中收录“weight loss”字样的页面。

  ——例如:inurl:.EducationNet register,可以找到学校论坛的注册页面。找到这些论坛也会找到在高权重域名上留下签名的机会。

  ——比如:inurl:.education 网交换链接或者减肥inurl:links。很多站长将交换链接页面命名为links.html等,因此该命令返回与减肥主题相关的交换链接页面。

  ——例如:inurl:bbs(讨论区/论坛)

  高级用法[inurl:sale (or Promotion) site:],提交此查询,Google 将在网站 下的URL 中查找收录查询关键词"forum" 的网页。

  网址:

  搜索返回在 url 中收录多组 关键词 的网页。该指令属于inurl独占指令,与allintitle相同,不再赘述。

  ——例如:allinurl:links 该命令返回url中收录链接和链接的页面,即GOV域名上的交换链接页面

  锚点:

  指令返回的结果是导入所有在链接的锚文本中收录搜索词的内部和外部页面。external用于在指向url地址的文本中查找。可以用来寻找关键词的竞争对手。如果你研究竞争对手页面上的外部链接,你可以找到很多链接资源。百度不支持这个命令。

  ——例如:inanchor:点击这里,返回的结果页面本身不一定收录“点击这里”四个字,但是这些页面链接的锚文本中会出现“点击这里”四个字。

  大蒜素:

  搜索会返回锚文本中收录多组 关键词 的网页。本指令为独占指令。与 allintitle 相同,不再详述

  intext:查询正文中出现的查询关键词的所有网页,一般采用组合搜索。allintext:intext 的独占指令。主题:

  例如,当SITE命令结合使用时,Google只会显示网站主题中收录查询关键词的网页。

  信息:域名

  可以获得网站的一些信息

  link to 网站/link:网站(指向网站的外部链接,此指令只对网站的一小部分有效

  此命令将使所有其他 网站 链接到搜索到的 网站。最重要的用途是判断一个网页的“热度”。(链接是单独的语法,只能单独使用,不能跟查询关键词,只能带URL),通过这个可以看到做了哪些外链,甚至可以看到你的文章谁被转载,谁采集

  搜索某个网站或特定域内的所有页面,查询网站的入站链接

  “您的域”-站点:

  这个搜索命令代表一个网站“其他网站链接的数量”,而“出站链接”也是指向其他网站的网站链接的数量。

  搜索相关的网站,一般认为是引用网站的常用外链。只能单独使用,组合无效。查看网站 filetype的Google缓存版本:搜索某类文件,Google和百度都支持。组合查询:熟练使用以上命令,并使用组合命令开始精确查询

  例如:

  找同事网站:intitle:co.,ltd inurl:产品名称(链接)

  intitle:doll 站点:de intext:mail

  

  谷歌搜索提示

  计算:输入数学公式(例如,3*9、5+2)。

  释义:在任何词前加上define,然后得到该词的释义

  计算器:输入计算器(或计算器)。

  颜色选择器:输入颜色选择器(或颜色选择器)。

  搜索社交媒体:在用于搜索社交媒体的词前添加@ 示例:@twitter

  author:当我们使用author查询时,可以配合特定的URL命令,显示特定作者在论坛中的新闻文章。但您也可以单独输入作者姓名。作者的姓名可以是全名,也可以是部分或电子邮件地址。添加一名作者

  store: 示例[polo shirt store:esty],提交此查询只会搜索store esty,以及与关键词"polo" "shirt" 相关的结果。(只支持英文谷歌),这个命令感觉不是很准确。

  hostname: 的用法与“site”和“domain”相同,只是当使用“hostname:”时,只返回当前域名下的网页,不返回其子域中的网页。

  天气:在末尾添加地区查询词,谷歌将返回该地区或城市的当前天气情况。

  股票:添加股票名称后,谷歌会返回查询关键词相关的股票信息,一般来自其他一些金融专业网站。

  电影:谷歌将返回与查询关键词相关的电影信息。(目前只支持英文谷歌)

  phonebook:查询词需要指定详细的州名和地名,谷歌会返回查询相关的本地电话信息关键词。例如[电话簿:人名china]

  bphonebook:使用bphonebook查询时,返回的结果是那些业务电话信息。

  rphonebook:该查询用于在美国搜索与查询关键词相关的住宅电话信息。

  安全搜索:Google 会对您的搜索结果进行过滤,过滤后的内容可能包括一些情绪化、暴力、*敏*感*词*、感染病毒的网页。但它并不完全安全。

  来源:谷歌查询只是我们指定的新闻来源的网址。例如,[选举来源:new_york_times],Google 会显示纽约时报收录查询关键词“选举”相关的文章。(我们也可以通过谷歌新闻高级搜索完成查询)

  工具的替代品:选择替代品。当你想看到其他可行的替代方案时,你可以使用替代方案查询关键词次来找出。

  类似于域名:查询类似于网站

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线