php用正则表达抓取网页中文章(前端技术营-前端学习者尽可能前端介绍)

优采云 发布时间: 2022-01-10 14:06

  php用正则表达抓取网页中文章(前端技术营-前端学习者尽可能前端介绍)

  欢迎来到前端技术营!如果你也是前端学习者或者有学习前端的想法,那就跟着我从零开始攻击前端吧。

  我致力于尽可能详细简洁地介绍前端知识和自己的捷径,同时也是一个学习路上的记录。欢迎讨论

  文章目录

  JavaScript 高级正则表达式1.正则表达式概述1.1 什么是正则表达式

  正则表达式 (Regular Expression) 是一种用于匹配字符串中字符组合的模式。在 JavaScript 中,正则表达式也是对象。

  正则表通常用于检索和替换符合某种模式(规则)的文本,例如验证表单:用户名表单只能输入英文字母、数字或下划线,昵称输入框可以输入中文(匹配)。另外,正则表达式常用于过滤掉页面内容中的一些敏感词(替换),或者从字符串中获取我们想要的特定部分(提取)等。

  其他语言也使用正则表达式。在这个阶段,我们主要使用 JavaScript 正则表达式来完成表单验证。

  1.2 正则表达式非常灵活、合乎逻辑且功能强大。可以以非常简单的方式快速实现对字符串的复杂控制。对于刚接触它的人来说,它相当晦涩难懂。例如:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ 在实际开发中,通常是直接复制并编写好的正则表达式。但需要使用正则表达式,根据实际情况修改正则表达式。例如用户名:/^[a-z0-9_-]{3,16}$/ 2.正则表达式 js中公式的使用 2.1 正则表达式的创建

  在 JavaScript 中,可以通过两种方式创建正则表达式。

  方法一:调用RegExp对象的构造函数创建

  var regexp = new RegExp(/123/);

console.log(regexp);

  方法二:使用字面量创建正则表达式

   var rg = /123/;

  2.2 测试正则表达式

  test() 正则对象方法,用于检查字符串是否符合规则,对象会返回真或假,其参数为测试字符串。

  var rg = /123/;

console.log(rg.test(123));//匹配字符中是否出现123 出现结果为true

console.log(rg.test('abc'));//匹配字符中是否出现123 未出现结果为false

  【外链图片传输失败,源站可能有防盗链机制,建议保存图片直接上传(img-gN4RwCa1-90)(images/img4.png )]

  3.正则表达式中的特殊字符3.1正则表达式的组成

  正则表达式可以由简单字符组成,例如 /abc/,也可以由简单字符和特殊字符的组合组成,例如 /ab*c/。其中,特殊字符也称为元字符,是正则表达式中具有特殊含义的特殊符号,如^、$、+等。

  有很多特殊字符,可以参考:

  jQuery 手册:正则表达式部分

  [常规测试工具]( 3.2 分隔符

  正则表达式中的边界字符(位置字符)用来表示字符的位置,主要有两个字符

  边界字符描述

  ^

  表示与行首匹配的文本(以谁开头)

  $

  指示与行尾匹配的文本(以谁结尾)

  如果 ^ 和 $ 在一起,它必须是完全匹配的。

  var rg = /abc/; // 正则表达式里面不需要加引号 不管是数字型还是字符串型

// /abc/ 只要包含有abc这个字符串返回的都是true

console.log(rg.test('abc'));

console.log(rg.test('abcd'));

console.log(rg.test('aabcd'));

console.log('---------------------------');

var reg = /^abc/;

console.log(reg.test('abc')); // true

console.log(reg.test('abcd')); // true

console.log(reg.test('aabcd')); // false

console.log('---------------------------');

var reg1 = /^abc$/; // 精确匹配 要求必须是 abc字符串才符合规范

console.log(reg1.test('abc')); // true

console.log(reg1.test('abcd')); // false

console.log(reg1.test('aabcd')); // false

console.log(reg1.test('abcabc')); // false

  3.3 个字符类

  字符类表示有一系列字符可供选择,只需匹配其中一个即可。所有可选字符都括在方括号中。

  3.3.1 [] 方括号

  表示有一系列字符可供选择,匹配其中一个即可

  var rg = /[abc]/; // 只要包含有a 或者 包含有b 或者包含有c 都返回为true

console.log(rg.test('andy'));//true

console.log(rg.test('baby'));//true

console.log(rg.test('color'));//true

console.log(rg.test('red'));//false

var rg1 = /^[abc]$/; // 三选一 只有是a 或者是 b 或者是c 这三个字母才返回 true

console.log(rg1.test('aa'));//false

console.log(rg1.test('a'));//true

console.log(rg1.test('b'));//true

console.log(rg1.test('c'));//true

console.log(rg1.test('abc'));//true

----------------------------------------------------------------------------------

var reg = /^[a-z]$/ //26个英文字母任何一个字母返回 true - 表示的是a 到z 的范围

console.log(reg.test('a'));//true

console.log(reg.test('z'));//true

console.log(reg.test('A'));//false

-----------------------------------------------------------------------------------

//字符组合

var reg1 = /^[a-zA-Z0-9]$/; // 26个英文字母(大写和小写都可以)任何一个字母返回 true

------------------------------------------------------------------------------------

//取反 方括号内部加上 ^ 表示取反,只要包含方括号内的字符,都返回 false 。

var reg2 = /^[^a-zA-Z0-9]$/;

console.log(reg2.test('a'));//false

console.log(reg2.test('B'));//false

console.log(reg2.test(8));//false

console.log(reg2.test('!'));//true

  3.3.2 个量词

  量词用于设置模式出现的次数。

  量词说明

  *

  重复 0 次或多次

  +

  重复 1 次或多次

  重复 0 或 1 次

  {n}

  重复n次

  {n,}

  重复n次或多次

  {n,m}

  重复 n 到 m 次

  3.3.3用户名表单认证

  功能要求:

  如果用户名输入合法,提示信息如下:用户名合法,颜色为绿色 如果用户名输入非法,提示信息如下:用户名不符合规范,颜色是红色

  【外链图片传输失败,源站可能有防盗链机制,建议保存图片直接上传(img-sqr3LmaA-93)(images/img2.png )]

  【外链图片传输失败,源站可能有防盗链机制,建议保存图片直接上传(img-CimQuzYK-94)(images/img1.png )]

  分析:

  用户名只能由英文字母、数字、下划线或破折号组成,用户名长度为6~16个字符。首先准备这个正则表达式模式 /$[a-zA-Z0-9-_]{ 6,16}^/ 当表单失去焦点时开始验证。如果它符合常规规范,请将正确的类添加到以下 span 标记中。如果不符合常规规范,则将错误的类添加到后续的 span 标记中。

   请输入用户名

// 量词是设定某个模式出现的次数

var reg = /^[a-zA-Z0-9_-]{6,16}$/; // 这个模式用户只能输入英文字母 数字 下划线 中划线

var uname = document.querySelector('.uname');

var span = document.querySelector('span');

uname.onblur = function() {

if (reg.test(this.value)) {

console.log('正确的');

span.className = 'right';

span.innerHTML = '用户名格式输入正确';

} else {

console.log('错误的');

span.className = 'wrong';

span.innerHTML = '用户名格式输入不正确';

}

}

  3.3.4 括号内的摘要

  1.大括号量词。表示重复次数

  2.括号字符集。匹配方括号中的任何字符。

  3.括号表示优先级

  正则表达式在线测试

  3.4 个预定义类

  预定义类是指一些常见模式的简写。

  【外链图片传输失败,源站可能有防盗链机制,建议保存图片直接上传(img-cETagwqf-96)(images/img3.png )]

  案例:验证座机号码

  var reg = /^\d{3}-\d{8}|\d{4}-\d{7}$/;

var reg = /^\d{3,4}-\d{7,8}$/;

  表单验证案例

  //手机号验证:/^1[3|4|5|7|8][0-9]{9}$/;

//验证通过与不通过更换元素的类名与元素中的内容

if (reg.test(this.value)) {

// console.log('正确的');

this.nextElementSibling.className = 'success';

this.nextElementSibling.innerHTML = ' 恭喜您输入正确';

} else {

// console.log('不正确');

this.nextElementSibling.className = 'error';

this.nextElementSibling.innerHTML = '格式不正确,请从新输入 ';

}

  //QQ号验证: /^[1-9]\d{4,}$/;

//昵称验证:/^[\u4e00-\u9fa5]{2,8}$/

//验证通过与不通过更换元素的类名与元素中的内容 ,将上一步的匹配代码进行封装,多次调用即可

function regexp(ele, reg) {

ele.onblur = function() {

if (reg.test(this.value)) {

// console.log('正确的');

this.nextElementSibling.className = 'success';

this.nextElementSibling.innerHTML = ' 恭喜您输入正确';

} else {

// console.log('不正确');

this.nextElementSibling.className = 'error';

this.nextElementSibling.innerHTML = ' 格式不正确,请从新输入 ';

}

}

};

  //密码验证:/^[a-zA-Z0-9_-]{6,16}$/

//再次输入密码只需匹配与上次输入的密码值 是否一致

  3.5 常规替换替换

  replace() 方法可以实现替换字符串的操作,用于替换的参数可以是字符串,也可以是正则表达式。

  var str = 'andy和red';

var newStr = str.replace('andy', 'baby');

console.log(newStr)//baby和red

//等同于 此处的andy可以写在正则表达式内

var newStr2 = str.replace(/andy/, 'baby');

console.log(newStr2)//baby和red

//全部替换

var str = 'abcabc'

var nStr = str.replace(/a/,'哈哈')

console.log(nStr) //哈哈bcabc

//全部替换g

var nStr = str.replace(/a/a,'哈哈')

console.log(nStr) //哈哈bc哈哈bc

//忽略大小写i

var str = 'aAbcAba';

var newStr = str.replace(/a/gi,'哈哈')//"哈哈哈哈bc哈哈b哈哈"

  案例:过滤敏感词

   提交

var text = document.querySelector('textarea');

var btn = document.querySelector('button');

var div = document.querySelector('div');

btn.onclick = function() {

div.innerHTML = text.value.replace(/*敏*感*词*|gay/g, '**');

}

  4.面试题一、如何让事件冒泡然后捕捉

  在原创事件流中,它首先被捕获然后冒泡。

  对于目标元素,如果DOM节点通过addEventListener同时绑定了两个事件*敏*感*词*函数,一个用于捕获,一个用于冒泡,那么这两个事件的执行顺序是按照添加代码的顺序执行的。所以先绑定冒泡函数,再绑定捕获的函数来实现。

  对于非目标元素,您可以将计时器添加到捕获事件的处理程序,将处理程序推送到下一个宏任务执行。

  二、说说事件委托

  事件委托是指不是在子节点上单独设置事件*敏*感*词*器,而是在父节点上设置事件*敏*感*词*器,然后每个子节点都可以利用冒泡原理触发事件。

  事件委托的优点:Dom只运行一次,提高了程序的性能。

  常用于:ul和li标签的事件*敏*感*词*,一般使用事件委托机制将事件*敏*感*词*器绑定到ul。

  也适用于动态元素的绑定,新添加的子元素不需要单独添加事件处理器。

  (1)你知道事件委托吗?这样做有什么好处?

  事件代理/事件委托:使用事件冒泡,您可以通过仅指定一个事件处理程序来管理某种类型的事件。简而言之:事件代理就是我们将事件添加到最初添加的事件的父节点上。, 将事件委托给父节点触发handler函数,通常在有大量同级元素需要添加同类型事件时使用,比如动态列表有很多,需要为每个元素添加点击事件列表项,此时可以使用事件代理通过判断e.target.nodeName来确定具体发生的元素。这样做的好处是减少了事件绑定。同事的动态 DOM 结构依然可以被监控,事件代理发生在冒泡阶段。

  (2)事件委托和冒泡原理:

  事件委托是利用冒泡阶段的操作机制来实现的,即将一个元素响应事件的功能委托给另一个元素,一般将一组元素的事件委托给其父元素。

  委托的好处是减少内存消耗,节省效率,动态绑定事件

  事件冒泡是指元素本身的事件被触发后,如果父元素有相同的事件,比如onclick事件,那么会传递元素本身的触发状态,即父元素的相同事件元素将被传递给父元素。逐级按照嵌套关系向外触发,直到文档/窗口,冒泡过程结束。

  (3)事件代理在捕获阶段的实际应用:

  您可以在父元素级别阻止事件传播到子元素,或代表子元素执行某些操作。

  本期到此结束,感谢阅读!如有任何问题,请留言并及时回复

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线