php用正则表达抓取网页中文章(前端技术营-前端学习者尽可能前端介绍)
优采云 发布时间: 2022-01-10 14:06php用正则表达抓取网页中文章(前端技术营-前端学习者尽可能前端介绍)
欢迎来到前端技术营!如果你也是前端学习者或者有学习前端的想法,那就跟着我从零开始攻击前端吧。
我致力于尽可能详细简洁地介绍前端知识和自己的捷径,同时也是一个学习路上的记录。欢迎讨论
文章目录
JavaScript 高级正则表达式1.正则表达式概述1.1 什么是正则表达式
正则表达式 (Regular Expression) 是一种用于匹配字符串中字符组合的模式。在 JavaScript 中,正则表达式也是对象。
正则表通常用于检索和替换符合某种模式(规则)的文本,例如验证表单:用户名表单只能输入英文字母、数字或下划线,昵称输入框可以输入中文(匹配)。另外,正则表达式常用于过滤掉页面内容中的一些敏感词(替换),或者从字符串中获取我们想要的特定部分(提取)等。
其他语言也使用正则表达式。在这个阶段,我们主要使用 JavaScript 正则表达式来完成表单验证。
1.2 正则表达式非常灵活、合乎逻辑且功能强大。可以以非常简单的方式快速实现对字符串的复杂控制。对于刚接触它的人来说,它相当晦涩难懂。例如:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ 在实际开发中,通常是直接复制并编写好的正则表达式。但需要使用正则表达式,根据实际情况修改正则表达式。例如用户名:/^[a-z0-9_-]{3,16}$/ 2.正则表达式 js中公式的使用 2.1 正则表达式的创建
在 JavaScript 中,可以通过两种方式创建正则表达式。
方法一:调用RegExp对象的构造函数创建
var regexp = new RegExp(/123/);
console.log(regexp);
方法二:使用字面量创建正则表达式
var rg = /123/;
2.2 测试正则表达式
test() 正则对象方法,用于检查字符串是否符合规则,对象会返回真或假,其参数为测试字符串。
var rg = /123/;
console.log(rg.test(123));//匹配字符中是否出现123 出现结果为true
console.log(rg.test('abc'));//匹配字符中是否出现123 未出现结果为false
【外链图片传输失败,源站可能有防盗链机制,建议保存图片直接上传(img-gN4RwCa1-90)(images/img4.png )]
3.正则表达式中的特殊字符3.1正则表达式的组成
正则表达式可以由简单字符组成,例如 /abc/,也可以由简单字符和特殊字符的组合组成,例如 /ab*c/。其中,特殊字符也称为元字符,是正则表达式中具有特殊含义的特殊符号,如^、$、+等。
有很多特殊字符,可以参考:
jQuery 手册:正则表达式部分
[常规测试工具]( 3.2 分隔符
正则表达式中的边界字符(位置字符)用来表示字符的位置,主要有两个字符
边界字符描述
^
表示与行首匹配的文本(以谁开头)
$
指示与行尾匹配的文本(以谁结尾)
如果 ^ 和 $ 在一起,它必须是完全匹配的。
var rg = /abc/; // 正则表达式里面不需要加引号 不管是数字型还是字符串型
// /abc/ 只要包含有abc这个字符串返回的都是true
console.log(rg.test('abc'));
console.log(rg.test('abcd'));
console.log(rg.test('aabcd'));
console.log('---------------------------');
var reg = /^abc/;
console.log(reg.test('abc')); // true
console.log(reg.test('abcd')); // true
console.log(reg.test('aabcd')); // false
console.log('---------------------------');
var reg1 = /^abc$/; // 精确匹配 要求必须是 abc字符串才符合规范
console.log(reg1.test('abc')); // true
console.log(reg1.test('abcd')); // false
console.log(reg1.test('aabcd')); // false
console.log(reg1.test('abcabc')); // false
3.3 个字符类
字符类表示有一系列字符可供选择,只需匹配其中一个即可。所有可选字符都括在方括号中。
3.3.1 [] 方括号
表示有一系列字符可供选择,匹配其中一个即可
var rg = /[abc]/; // 只要包含有a 或者 包含有b 或者包含有c 都返回为true
console.log(rg.test('andy'));//true
console.log(rg.test('baby'));//true
console.log(rg.test('color'));//true
console.log(rg.test('red'));//false
var rg1 = /^[abc]$/; // 三选一 只有是a 或者是 b 或者是c 这三个字母才返回 true
console.log(rg1.test('aa'));//false
console.log(rg1.test('a'));//true
console.log(rg1.test('b'));//true
console.log(rg1.test('c'));//true
console.log(rg1.test('abc'));//true
----------------------------------------------------------------------------------
var reg = /^[a-z]$/ //26个英文字母任何一个字母返回 true - 表示的是a 到z 的范围
console.log(reg.test('a'));//true
console.log(reg.test('z'));//true
console.log(reg.test('A'));//false
-----------------------------------------------------------------------------------
//字符组合
var reg1 = /^[a-zA-Z0-9]$/; // 26个英文字母(大写和小写都可以)任何一个字母返回 true
------------------------------------------------------------------------------------
//取反 方括号内部加上 ^ 表示取反,只要包含方括号内的字符,都返回 false 。
var reg2 = /^[^a-zA-Z0-9]$/;
console.log(reg2.test('a'));//false
console.log(reg2.test('B'));//false
console.log(reg2.test(8));//false
console.log(reg2.test('!'));//true
3.3.2 个量词
量词用于设置模式出现的次数。
量词说明
*
重复 0 次或多次
+
重复 1 次或多次
重复 0 或 1 次
{n}
重复n次
{n,}
重复n次或多次
{n,m}
重复 n 到 m 次
3.3.3用户名表单认证
功能要求:
如果用户名输入合法,提示信息如下:用户名合法,颜色为绿色 如果用户名输入非法,提示信息如下:用户名不符合规范,颜色是红色
【外链图片传输失败,源站可能有防盗链机制,建议保存图片直接上传(img-sqr3LmaA-93)(images/img2.png )]
【外链图片传输失败,源站可能有防盗链机制,建议保存图片直接上传(img-CimQuzYK-94)(images/img1.png )]
分析:
用户名只能由英文字母、数字、下划线或破折号组成,用户名长度为6~16个字符。首先准备这个正则表达式模式 /$[a-zA-Z0-9-_]{ 6,16}^/ 当表单失去焦点时开始验证。如果它符合常规规范,请将正确的类添加到以下 span 标记中。如果不符合常规规范,则将错误的类添加到后续的 span 标记中。
请输入用户名
// 量词是设定某个模式出现的次数
var reg = /^[a-zA-Z0-9_-]{6,16}$/; // 这个模式用户只能输入英文字母 数字 下划线 中划线
var uname = document.querySelector('.uname');
var span = document.querySelector('span');
uname.onblur = function() {
if (reg.test(this.value)) {
console.log('正确的');
span.className = 'right';
span.innerHTML = '用户名格式输入正确';
} else {
console.log('错误的');
span.className = 'wrong';
span.innerHTML = '用户名格式输入不正确';
}
}
3.3.4 括号内的摘要
1.大括号量词。表示重复次数
2.括号字符集。匹配方括号中的任何字符。
3.括号表示优先级
正则表达式在线测试
3.4 个预定义类
预定义类是指一些常见模式的简写。
【外链图片传输失败,源站可能有防盗链机制,建议保存图片直接上传(img-cETagwqf-96)(images/img3.png )]
案例:验证座机号码
var reg = /^\d{3}-\d{8}|\d{4}-\d{7}$/;
var reg = /^\d{3,4}-\d{7,8}$/;
表单验证案例
//手机号验证:/^1[3|4|5|7|8][0-9]{9}$/;
//验证通过与不通过更换元素的类名与元素中的内容
if (reg.test(this.value)) {
// console.log('正确的');
this.nextElementSibling.className = 'success';
this.nextElementSibling.innerHTML = ' 恭喜您输入正确';
} else {
// console.log('不正确');
this.nextElementSibling.className = 'error';
this.nextElementSibling.innerHTML = '格式不正确,请从新输入 ';
}
//QQ号验证: /^[1-9]\d{4,}$/;
//昵称验证:/^[\u4e00-\u9fa5]{2,8}$/
//验证通过与不通过更换元素的类名与元素中的内容 ,将上一步的匹配代码进行封装,多次调用即可
function regexp(ele, reg) {
ele.onblur = function() {
if (reg.test(this.value)) {
// console.log('正确的');
this.nextElementSibling.className = 'success';
this.nextElementSibling.innerHTML = ' 恭喜您输入正确';
} else {
// console.log('不正确');
this.nextElementSibling.className = 'error';
this.nextElementSibling.innerHTML = ' 格式不正确,请从新输入 ';
}
}
};
//密码验证:/^[a-zA-Z0-9_-]{6,16}$/
//再次输入密码只需匹配与上次输入的密码值 是否一致
3.5 常规替换替换
replace() 方法可以实现替换字符串的操作,用于替换的参数可以是字符串,也可以是正则表达式。
var str = 'andy和red';
var newStr = str.replace('andy', 'baby');
console.log(newStr)//baby和red
//等同于 此处的andy可以写在正则表达式内
var newStr2 = str.replace(/andy/, 'baby');
console.log(newStr2)//baby和red
//全部替换
var str = 'abcabc'
var nStr = str.replace(/a/,'哈哈')
console.log(nStr) //哈哈bcabc
//全部替换g
var nStr = str.replace(/a/a,'哈哈')
console.log(nStr) //哈哈bc哈哈bc
//忽略大小写i
var str = 'aAbcAba';
var newStr = str.replace(/a/gi,'哈哈')//"哈哈哈哈bc哈哈b哈哈"
案例:过滤敏感词
提交
var text = document.querySelector('textarea');
var btn = document.querySelector('button');
var div = document.querySelector('div');
btn.onclick = function() {
div.innerHTML = text.value.replace(/*敏*感*词*|gay/g, '**');
}
4.面试题一、如何让事件冒泡然后捕捉
在原创事件流中,它首先被捕获然后冒泡。
对于目标元素,如果DOM节点通过addEventListener同时绑定了两个事件*敏*感*词*函数,一个用于捕获,一个用于冒泡,那么这两个事件的执行顺序是按照添加代码的顺序执行的。所以先绑定冒泡函数,再绑定捕获的函数来实现。
对于非目标元素,您可以将计时器添加到捕获事件的处理程序,将处理程序推送到下一个宏任务执行。
二、说说事件委托
事件委托是指不是在子节点上单独设置事件*敏*感*词*器,而是在父节点上设置事件*敏*感*词*器,然后每个子节点都可以利用冒泡原理触发事件。
事件委托的优点:Dom只运行一次,提高了程序的性能。
常用于:ul和li标签的事件*敏*感*词*,一般使用事件委托机制将事件*敏*感*词*器绑定到ul。
也适用于动态元素的绑定,新添加的子元素不需要单独添加事件处理器。
(1)你知道事件委托吗?这样做有什么好处?
事件代理/事件委托:使用事件冒泡,您可以通过仅指定一个事件处理程序来管理某种类型的事件。简而言之:事件代理就是我们将事件添加到最初添加的事件的父节点上。, 将事件委托给父节点触发handler函数,通常在有大量同级元素需要添加同类型事件时使用,比如动态列表有很多,需要为每个元素添加点击事件列表项,此时可以使用事件代理通过判断e.target.nodeName来确定具体发生的元素。这样做的好处是减少了事件绑定。同事的动态 DOM 结构依然可以被监控,事件代理发生在冒泡阶段。
(2)事件委托和冒泡原理:
事件委托是利用冒泡阶段的操作机制来实现的,即将一个元素响应事件的功能委托给另一个元素,一般将一组元素的事件委托给其父元素。
委托的好处是减少内存消耗,节省效率,动态绑定事件
事件冒泡是指元素本身的事件被触发后,如果父元素有相同的事件,比如onclick事件,那么会传递元素本身的触发状态,即父元素的相同事件元素将被传递给父元素。逐级按照嵌套关系向外触发,直到文档/窗口,冒泡过程结束。
(3)事件代理在捕获阶段的实际应用:
您可以在父元素级别阻止事件传播到子元素,或代表子元素执行某些操作。
本期到此结束,感谢阅读!如有任何问题,请留言并及时回复