火车采集器常用正则表达式(高铁采集器正则表达式)
匹配一个或者多个连续的空格
\s+
匹配标题中所有的标点符号
[^\w\s\。\?\!\.\?\!]
匹配所有带&字面字符,[a-z]匹配大小写
&[a-z]+;
匹配手机号码带国际区号的、不带国际区号的、带"-"分隔符的等等
(\+?86)?1[3-9]\d{1,2}-?\d{4}-?\d{4}
匹配国内的座机号码
^((0\d{2,3})-)?(\d{3,5}-\d{3,5}|\d{7,8})$
匹配400和800电话,不带"-"分隔和带"-"分隔
(400|800)[\-]?\d{3,4}[\-]?\d{3,4}
匹配所有域名网址,带http不带http,带https不带https,带www不带www,带ftp不带ftp,带-不带-
\b((http|https|ftp)://)?(www.)?([a-zA-Z0-9]+.)+[a-zA-Z0-9]{2,8}(/\S*)?\b
匹配所有类似于①,⑴,㈠,这样的带圈数字
[\u2460-\u2473\u3251-\u325f\u2474-\u247e]
匹配年,月,日,时,分,秒,
\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}
匹配年,月,日
\d{4}-\d{2}-\d{2}
匹配时,分,秒
\d{2}:\d{2}:\d{2}
匹配所有带@的邮箱
\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b
更加强大的匹配邮箱的正则表达式。
(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])
匹配QQ号码切第一位不能是0
\b[1-9]\d{4,10}\b
匹配微信号,微信号是由字母,下划线,减号,数字组成。这个正则表达式会删除域名网址。
\b[a-zA-Z0-9_-]+\b
匹配中国邮政编码
[0-9]\d{5}(?!\d)
匹配IPv4地址
\d+\.\d+\.\d+\.\d+
匹配IPv6地址
^([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}$
以上的正则表达式同时使用多条的时候可能会出现冲突
匹配<p></p>标签,当p标签大于或等于2时候删除,主要用于删除多余的p标签用于文章排版,表达式中的数字随意修改。
(?:<p><\/p>){2,}
匹配<p>标签中附带的属性,在文章排版时遇到各种p标签附带的属性,如id信息,class信息,style等信息,可以使下面的正则表达式,
<p[^>]*>
使用时需要注意,在替代表达式中填写<p>否则默认是删除。
还有另一种方法使用火车采集器(高铁采集器)的内容替换/排除也可以实现,将排除替换<p(*)>为<p>也可以。
匹配所有的非字母数字字符和空白字符
[^\w\s]
例如:
1、匹配手机号,电话号,邮政编码,QQ号等,会出现冲突问题;
2、邮箱、域名url,微信号等,会出现冲突问题。
具体的使用方法自行研究。
最后,可以收藏这个页面不定期更新或添加最新用到的正则表达式。