php抓取网页标签(开发一个简单爬虫的经过与遇到的问题 )

优采云发布时间: 2022-03-27 19:00

　　php抓取网页标签(开发一个简单爬虫的经过与遇到的问题

)

　　有时因为我们的工作和自己的需要，我们会浏览不同的网站来获取我们需要的数据，于是爬虫就应运而生了。下面是一个简单爬虫的开发过程和遇到的问题。要开发爬虫，首先要知道你的爬虫要做什么。我将使用文章转到不同的网站以查找特定关键字并获得指向它的链接，以便我可以快速阅读。

　　根据我的个人习惯，我首先要写一个界面来理清思路。

　　1、与众不同网站。然后我们需要一个url输入框。

　　2、查找文章的特定关键字。然后我们需要一个文章标题输入框。

　　3、获取文章链接。然后我们需要一个用于搜索结果的显示容器。[xhtml] 查看纯副本

　　文章网址抓取

　　文章标题

　　网站网址

　　抓住

　　文章网址

　　直接放代码，然后添加一些自己的样式调整，界面就完成了：

　　那么接下来就是功能的实现了。我用 PHP 编写它。第一步，获取网站的html代码。获取html代码的方法有很多。我就不一一介绍了。我在这里使用 curl。要获取它，请传入网站url 以获取 html 代码： [xhtml] 查看纯副本

　　私有函数 get_html($url){

　　$ch = curl_init();

　　$超时= 10；

　　curl_setopt($ch, CURLOPT_URL, $url);

　　curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

　　curl_setopt($ch, CURLOPT_ENCODING, 'gzip');

　　curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/3 4.0.1847.131 Safari/537.36');

　　curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

　　$html = curl_exec($ch);

　　返回 $html;

　　}

　　虽然拿到了html代码，但是很快就会遇到一个问题，就是编码问题，可能会导致你下一次匹配不成功。这里我们将获取到的html内容统一转换为utf8编码： [php] view plain copy

　　$coding = mb_detect_encoding($html);

　　if ($coding != "UTF-8" || !mb_check_encoding($html, "UTF-8"))

　　$html = mb_convert_encoding($html, 'utf-8', 'GBK,UTF-8,ASCII');

　　获取网站的html，获取文章的url，接下来就是匹配网页下所有的a标签，需要使用正则表达式，经过多次测试，终于得到一个更可靠的谱的正则表达式，不管a标签的结构多么复杂，只要是a标签：（最关键的一步）[php]查看纯副本

　　$pattern = '|]*>(.*)|isU';

　　preg_match_all($pattern, $html, $matches);

　　匹配的结果在$matches中，大概就是这样的多维组；[js] 查看纯副本

　　数组（2) {

　　[0]=>

　　大批（*） {

　　[0]=>

　　string(*) "完成一个标签"

　　.

　　}

　　[1]=>

　　大批（*） {

　　[0]=>

　　string(*) "上面下标对应的a标签的内容"

　　}

　　只要能拿到这个数据，其他的都可以操作。你可以遍历素数组，找到你想要的a标签，然后得到a标签的对应属性。更方便操作一个标签：[php]查看纯副本

　　$dom = 新的 DOMDocument();

　　@$dom->loadHTML($a);//$a是上面得到的一些a标签

　　$url = 新 DOMXPath($dom);

　　$hrefs = $url->evaluate('//a');

　　for ($i = 0; $i 长度; $i++) {

　　$href = $hrefs->item($i);

　　$url = $href->getAttribute('href'); //这里获取a标签的href属性

　　}

　　当然，这只是一种方式，你也可以使用正则表达式来匹配你想要的信息与数据玩新花样。

　　获取并匹配以获得您想要的结果。下一步当然是发回前端显示，编写界面，然后在前端使用js获取数据，并使用jquery动态添加内容显示：[php]view plain复制

　　var website_url = '你的接口地址';

　　$.getJSON(website_url, 函数(数据){

　　如果（数据）{

　　如果（数据。文本 == ''）{

　　$('#article_url').html('

　　没有这样的文章链接

　　');

　　返回;

　　}

　　变量字符串 = '';

　　变种列表=数据.文本；

　　for (var j in list) {

　　var 内容 = 列表 [j].url_content;

　　for (var i in content) {

　　if (content[i].title != '') {

　　字符串 += '

　　' +

　　'[' + 列表[j].website.web_name + ']' +

　　'' +

　　'

　　';

　　}

　　$('#article_url').html(string);

　　});

　　在最终效果图上：

0

2022-03-27

php抓取网页标签

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页标签(开发一个简单爬虫的经过与遇到的问题 )

0 个评论

发起人

AI时代内容工厂

php抓取网页标签(开发一个简单爬虫的经过与遇到的问题 )

0 个评论

发起人

相关问题