php用正则表达抓取网页中文章方法特别简单(组图)

优采云 发布时间: 2022-07-26 00:02

  php用正则表达抓取网页中文章方法特别简单(组图)

  php用正则表达抓取网页中文章方法特别简单,很多比较大型的网站都是用的php来抓取网页中文章。scrapy是现在很多互联网公司使用的爬虫框架,封装出来一套比较完善的爬虫组件,适合特定领域快速抓取一些网站的中文段子。今天我们就来学习如何用php来抓取github中搜索结果的中文段子!首先我们可以打开开发者工具,在github搜索页面搜索“哔哩哔哩”,就能看到很多跟“哔哩哔哩”有关的结果。

  

  由于我们都不知道搜索引擎的规则,就只能自己写了。首先我们要写一个重定向网址的函数,例如将其他网站的url重定向到该网址的页面,然后用js或cookie加载页面,再用正则表达抓取搜索结果到本地。本实战参考了codeforces的代码,codeforces使用scrapy-galleryjs()框架为使用方便,我们不使用jquery等框架。

  

  //正则表达抓取下面的结果url:/[0-9](-hwh-zee)[0-9](__abbucket)[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]user-agent:'mozilla/5.0(windowsnt6.1;wow64)applewebkit/537.36(khtml,likegecko)chrome/74.0.3350.110safari/537.36'encoding:utf-8'/#我们就是定位好了页面url及结果url然后用正则来抓取搜索结果使用:;code=&site=site-page&query=一共就那几行代码,即可抓取github中所有的中文结果。

  代码开源在github上::,欢迎关注我的微信公众号:zouzhezhejiuying如果觉得有用,点个赞吧!。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线