php用正则表达抓取网页中文章(11.校验IP-v4地址12.检查的前缀应用(规则))

优采云 发布时间: 2022-02-03 00:23

  php用正则表达抓取网页中文章(11.校验IP-v4地址12.检查的前缀应用(规则))

  正则表达式通常用于检索和替换符合某种模式(规则)的文本。本文章主要介绍正则表达式常用示例的整理。非常好,有参考价值。需要的朋友可以参考以下

  采集业务中经常使用的正则表达式实例,方便以后的搜索,减少工作量。

  1. 验证基本日期格式

  var reg1 = /^\d{4}(\-|\/|\.)\d{1,2}\1\d{1,2}$/;

var reg2 = /^(^(\d{4}|\d{2})(\-|\/|\.)\d{1,2}\3\d{1,2}$)|(^\d{4}年\d{1,2}月\d{1,2}日$)$/;

  2. 验证密码强度

  密码的强度必须是大小写字母和数字的组合,没有特殊字符,长度在 8-10 之间。

  var reg = /^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$/;

  3. 检查中文字符串只能是中文。

  var reg = /^[\\u4e00-\\u9fa5]{0,}$/;

  4. 由数字、26个英文字母或下划线组成的字符串

  var reg = /^\\w+$/;

  5. 验证电子邮件地址是否与密码相同。以下是电子邮件地址合规性的定期检查声明。

  var reg =

/[\\w!#$%&'*+/=?^_`{|}~-]+(?:\\.[\\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\\w](?:[\\w-]*[\\w])?\\.)+[\\w](?:[\\w-]*[\\w])?/;

  6. 验证*敏*感*词*号

  以下是*敏*感*词*号的定期检查。15 或 18 位。

  15位: var reg = /^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$/;

18位:var reg = /^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$/;

  7. 检查日期 格式为“yyyy-mm-dd”的日期检查,考虑到闰年。

  var reg =

/^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$/;

  8. 核对金额和金额,精确到小数点后2位。

  var reg = /^[0-9]+(.[0-9]{2})?$/;

  9. 验证电话号码

  以下是国内13、15、18开头的手机号码正则表达式。(前两个号码可根据目前国内采集号码展开)

  var reg = /^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$/;

  10.判断IE的版本 IE还没有完全替换,很多页面还需要版本兼容。下面是查看IE版本的表达式。

  var reg = /^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\\/[5-9]\\.0).*$/;

  11. 验证 IP-v4 地址

  var reg =

/\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b/;

  12. 验证 IP-v6 地址

  var reg =

/(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))/

;

  13. 检查 URL 前缀

  在应用开发中,经常需要区分请求是HTTPS还是HTTP。通过下面的表达式,可以提取一个url前缀,然后进行逻辑判断。

  if

(!s.match(

/^[a-zA-Z]+:\/\//

)) {

s =

'http://'

+ s;

}

  14. 提取 URL 链接

  以下表达式过滤掉一段文本中的 URL。

  var reg = /^(f|ht){1}(tp|tps):\/\/([\w-]+\.)+[\w-]+(\/[\w- ./?%&=]*)?/;

  15.文件路径和扩展名校验

  验证Windows下的文件路径和扩展名(下例中为.txt文件)

  var reg = /^([a-zA-Z]\\:|\\\\)\\\\([^\\]+\\)*[^\\/:*?"|]+\\.txt(l)?$/;

  16. 提取颜色十六进制代码

  有时需要提取网页中的颜色代码,可以使用下面的表达式。

  var reg = /^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$/;

  17.提取网页图片如果要提取网页中的所有图片信息,可以使用如下表达式。

  var reg = /\\< *[img][^\\>]*[src] *= *[\\"\&#39;]{0,1}([^\\"\&#39;\ >]*)/;

  18. 提取页面超链接 提取 html 中的超链接。

  var reg =

/(]*)(href="https?:\/\/)((?!(?:(?:www\\.)?&#39;.implode(&#39;|(?:www\\.)?&#39;, $follow_list).&#39;))[^" rel="external nofollow" ]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>/;

  19. 查找 CSS 属性

  通过以下表达式,您可以搜索匹配的 CSS 属性。

  var reg = /^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}/;

  20. 提取评论

  如果您需要删除 HMTL 中的注释,可以使用以下表达式。

  var reg = //;

  总结

  以上是小编为大家介绍的常用正则表达式示例。我希望它对你有帮助。如有任何问题,请给我留言,小编会及时回复您。还要感谢大家对脚本之家网站的支持!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线