当前位置:首页 > 知识库 > 正文内容

火车采集器常用正则表达式(高铁采集器正则表达式)

1年前 (2023-11-01)知识库901

匹配一个或者多个连续的空格

\s+

匹配标题中所有的标点符号

[^\w\s\。\?\!\.\?\!]


匹配所有带&字面字符,[a-z]匹配大小写

&[a-z]+;


匹配手机号码带国际区号的、不带国际区号的、带"-"分隔符的等等

(\+?86)?1[3-9]\d{1,2}-?\d{4}-?\d{4}


匹配国内的座机号码

^((0\d{2,3})-)?(\d{3,5}-\d{3,5}|\d{7,8})$


匹配400和800电话,不带"-"分隔和带"-"分隔

(400|800)[\-]?\d{3,4}[\-]?\d{3,4}


匹配所有域名网址,带http不带http,带https不带https,带www不带www,带ftp不带ftp,带-不带-

\b((http|https|ftp)://)?(www.)?([a-zA-Z0-9]+.)+[a-zA-Z0-9]{2,8}(/\S*)?\b


匹配所有类似于①,⑴,㈠,这样的带圈数字

[\u2460-\u2473\u3251-\u325f\u2474-\u247e]


匹配年,月,日,时,分,秒,

\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2} 


匹配年,月,日

\d{4}-\d{2}-\d{2}


匹配时,分,秒

\d{2}:\d{2}:\d{2}


匹配所有带@的邮箱

\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b


更加强大的匹配邮箱的正则表达式

(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])


匹配QQ号码切第一位不能是0

\b[1-9]\d{4,10}\b


匹配微信号,微信号是由字母,下划线,减号,数字组成。这个正则表达式会删除域名网址。

\b[a-zA-Z0-9_-]+\b


匹配中国邮政编码

[0-9]\d{5}(?!\d)


匹配IPv4地址

\d+\.\d+\.\d+\.\d+


匹配IPv6地址

^([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}$

以上的正则表达式同时使用多条的时候可能会出现冲突


匹配<p></p>标签,当p标签大于或等于2时候删除,主要用于删除多余的p标签用于文章排版,表达式中的数字随意修改。

(?:<p><\/p>){2,}


匹配<p>标签中附带的属性,在文章排版时遇到各种p标签附带的属性,如id信息,class信息,style等信息,可以使下面的正则表达式,

<p[^>]*>

使用时需要注意,在替代表达式中填写<p>否则默认是删除。

还有另一种方法使用火车采集器(高铁采集器)的内容替换/排除也可以实现,将排除替换<p(*)><p>也可以。


匹配所有的非字母数字字符和空白字符

[^\w\s]


例如:

1、匹配手机号,电话号,邮政编码,QQ号等,会出现冲突问题;

2、邮箱、域名url,微信号等,会出现冲突问题。


具体的使用方法自行研究。


最后,可以收藏这个页面不定期更新或添加最新用到的正则表达式。

扫描二维码推送至手机访问。

版权声明:本文由康斯网发布,如需转载请注明出处。

本文链接:https://www.ksnet.vip/knowledge/29.html

“火车采集器常用正则表达式(高铁采集器正则表达式)” 的相关文章

前端静态资源CDN库推荐

前端静态资源CDN库推荐

静态资源 CDN 公共库是指一些服务商把我们常用的 JavaScript 库放在网上,方便开发者直接用,并且还提供 CDN 加速。这样可以加快用户访问这些资源的速度,同时也可以减少自己服务器的流量消耗。目前国内的 CDN 主要同步的资源来自于 https://cdnjs.com/也就是说,如果你成功...

修改百度代码为延迟加载,不影响网站加载速度。

修改百度代码为延迟加载,不影响网站加载速度。

有时候百度网站统计代码会影响我们的网站加载速度,尤其是当服务器或虚拟主机带宽小的情况下更是苦不堪言。所以今天对百度网站统计代码下手了,以下是效果截图。首先创建了一个名为loadBaiduStatistics的函数,该函数用于加载百度统计代码。在函数中,创建了一个新的<script>元素,...

网站图片使用懒加载用于提高网站的访问速度

网站图片使用懒加载用于提高网站的访问速度

代码使用方法也及其简单默认的图片在代码中输出的格式是<img src="" alt="">只需要将代码中的src=""修改为data-src=""即可。使用的时候多尝试,在banner或者是Logo出尽量不要...

各大银行的SWIFT/BIC代码

各大银行的SWIFT/BIC代码

SWIFT/BIC代码是由Society for Worldwide Interbank Financial Telecommunication(全球银行间金融电信协会,简称SWIFT)定义的一种标准格式的银行标识符代码(Bank Identifier Codes,简称BIC)。SWIFT代码也被称...

腾讯,搜狐,百度,IP地址查询服务的API接口

腾讯,搜狐,百度,IP地址查询服务的API接口

1. 腾讯 IP 地址查询 API:   - 接口地址: https://apis.map.qq.com/ws/location/v1/ip   - 示例请求: https://apis.map.qq.com/ws/location/v1/ip?ip=YOUR...