php抓取网页标签(开发一个简单爬虫的经过与遇到的问题 )
优采云 发布时间: 2022-03-27 19:00php抓取网页标签(开发一个简单爬虫的经过与遇到的问题
)
有时因为我们的工作和自己的需要,我们会浏览不同的网站来获取我们需要的数据,于是爬虫就应运而生了。下面是一个简单爬虫的开发过程和遇到的问题。要开发爬虫,首先要知道你的爬虫要做什么。我将使用 文章 转到不同的 网站 以查找特定关键字并获得指向它的链接,以便我可以快速阅读。
根据我的个人习惯,我首先要写一个界面来理清思路。
1、与众不同网站。然后我们需要一个url输入框。
2、查找 文章 的特定关键字。然后我们需要一个文章标题输入框。
3、获取 文章 链接。然后我们需要一个用于搜索结果的显示容器。[xhtml] 查看纯副本
文章网址抓取
文章标题
网站网址
抓住
文章网址
直接放代码,然后添加一些自己的样式调整,界面就完成了:
那么接下来就是功能的实现了。我用 PHP 编写它。第一步,获取网站的html代码。获取html代码的方法有很多。我就不一一介绍了。我在这里使用 curl。要获取它,请传入 网站url 以获取 html 代码: [xhtml] 查看纯副本
私有函数 get_html($url){
$ch = curl_init();
$超时= 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip');
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/3 4.0.1847.131 Safari/537.36');
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$html = curl_exec($ch);
返回 $html;
}
虽然拿到了html代码,但是很快就会遇到一个问题,就是编码问题,可能会导致你下一次匹配不成功。这里我们将获取到的html内容统一转换为utf8编码: [php] view plain copy
$coding = mb_detect_encoding($html);
if ($coding != "UTF-8" || !mb_check_encoding($html, "UTF-8"))
$html = mb_convert_encoding($html, 'utf-8', 'GBK,UTF-8,ASCII');
获取网站的html,获取文章的url,接下来就是匹配网页下所有的a标签,需要使用正则表达式,经过多次测试,终于得到一个更可靠的谱的正则表达式,不管a标签的结构多么复杂,只要是a标签:(最关键的一步)[php]查看纯副本
$pattern = '|]*>(.*)|isU';
preg_match_all($pattern, $html, $matches);
匹配的结果在$matches中,大概就是这样的多维组;[js] 查看纯副本
数组(2) {
[0]=>
大批(*) {
[0]=>
string(*) "完成一个标签"
.
.
.
}
[1]=>
大批(*) {
[0]=>
string(*) "上面下标对应的a标签的内容"
}
}
只要能拿到这个数据,其他的都可以操作。你可以遍历素数组,找到你想要的a标签,然后得到a标签的对应属性。更方便操作一个标签:[php]查看纯副本
$dom = 新的 DOMDocument();
@$dom->loadHTML($a);//$a是上面得到的一些a标签
$url = 新 DOMXPath($dom);
$hrefs = $url->evaluate('//a');
for ($i = 0; $i 长度; $i++) {
$href = $hrefs->item($i);
$url = $href->getAttribute('href'); //这里获取a标签的href属性
}
当然,这只是一种方式,你也可以使用正则表达式来匹配你想要的信息与数据玩新花样。
获取并匹配以获得您想要的结果。下一步当然是发回前端显示,编写界面,然后在前端使用js获取数据,并使用jquery动态添加内容显示:[php]view plain复制
var website_url = '你的接口地址';
$.getJSON(website_url, 函数(数据){
如果(数据){
如果(数据。文本 == ''){
$('#article_url').html('
没有这样的 文章 链接
');
返回;
}
变量字符串 = '';
变种列表=数据.文本;
for (var j in list) {
var 内容 = 列表 [j].url_content;
for (var i in content) {
if (content[i].title != '') {
字符串 += '
' +
'[' + 列表[j].website.web_name + ']' +
'' +
'
';
}
}
}
$('#article_url').html(string);
});
在最终效果图上: