dedecms自动采集更新伪原创插件高级版57(对话专家,HMSCore6创新能力解读(图)只出现部分网页代码,之后各种换工具,)

优采云 发布时间: 2021-11-24 16:07

  dedecms自动采集更新伪原创插件高级版57(对话专家,HMSCore6创新能力解读(图)只出现部分网页代码,之后各种换工具,)

  对话专家,解读HMS Core 6创新能力>>>

  

  今天爬到贴吧信息的时候,只出现了部分网页代码。换了各种工具后,只显示了原代码的一部分。

   1 from urllib import parse, request

2 from bs4 import BeautifulSoup

3

4 class Spider:

5

6 def __init__(self, keyword, begin, end):

7 self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221"}

8 #self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}

9 self.keyword = keyword

10 self.begin = begin

11 self.end = end+1

12

13 self.visitTieba()

14

15 def visitTieba(self):

16 for page in range(self.begin, self.end):

17 print("正在读取第" + str(page) + "页")

18 pn = 50 * (page - 1)

19 url = "http://tieba.baidu.com/f?" + self.keyword + "&pn=" + str(pn)

20 req = request.Request(url, headers=self.headers)

21 html = request.urlopen(req).read()

22

23 bs = BeautifulSoup(html)

24

25 a_list = bs.select('a')

26 print("匹配a标签的数量为:", len(a_list))

27 for content in a_list:

28 print(content)

29

30

31 def main():

32 # keyword = input("请输入要查询的关键字")

33 # begin = int(input("请输入起始页"))

34 # end = int(input("请输入结束页"))

35 keyword = "python"

36 keyword = parse.urlencode({"kw":keyword})

37 begin = 1

38 end = 1

39

40 spider = Spider(keyword, begin, end)

41

42 if __name__ == "__main__":

43 main()

  结果如下:

  

  但是,如果您更改为另一个用户代理,即注释掉的那个,则会有不同的结果。

  

  匹配结果有400多个,就不一一列举了。总之*敏*感*词*可以屏蔽header中的一些信息,返回的网页源代码大部分都被注释掉了,所以匹配不是To everything。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线