在学习网络爬虫的过程中,需要抓取网页的评论数,涉及到正则表达式,便顺便看了看。正则表达式是文字处理中常用的工具。

1正则表达式的常用字符串

.       任何单个字符

【】 字符集对单个字符给出取值范围

【^】非字符集

*      前一个字符重复0或多次

+     前一个字符重复1或多次

?    前一个字符重复0或1次

|      或者

{m}  前一个字符扩展m次

{m,n}前一个字符扩展m至n次

^      匹配字符串开头

$      匹配字符串结束

\d     【0-9】

\w      单词字符

2主要功能函数

import re     #导入re包
m=re.search(pattern,string) #搜索整个字符串,直到发现符合的字符串
m=re.match(pattern,string) #从字符串的开始位置匹配正则表达式,返回结果
m=re.sub(pattern,replacement,string)#从字符串中查找并替换
m=re.findall() #搜索字符串,将所有符合的子字符串放在一个表中返回
m=re.finditer() #返回一个匹配结果的迭代类型,每个迭代元素是match对象
m=re.split() #将一个字符串按照正则表达式匹配结果进行分割,返回列表类型

re.group(number) 查看搜索到的结果,group(0)是整个表达式的搜索结果,,group(1)是第一个群,以此类推。

最新文章

  1. cocos2d 3.6 win7下的配置
  2. 发布大幅重构优化的 TouchVG 1.0.2
  3. [转]angularjs 设置全局变量的3种方法
  4. [CAMCOCO][C#]我的系统架构 总图
  5. Win7 不能安装 msi 解决办法
  6. Java基础系列-Comparable和Comparator
  7. shell之最常用的服务脚本
  8. Tomcat Cluster
  9. 网络流n题
  10. 自定义Django中间件(登录验证中间件实例)
  11. Python中的logger和handler到底是个什么鬼
  12. python基础(三)python数据类型
  13. PHP5.3以上版本使用pthreads PHP扩展真正支持多线程
  14. python学习笔记011——内置函数sum()
  15. 20155328 2016-2017-2 《Java程序设计》 课程总结
  16. log4net 写日志配置
  17. hdu 1853 Cyclic Tour (二分匹配KM最小权值 或 最小费用最大流)
  18. freemarker常用标签解释遍历
  19. 20145238-荆玉茗 《Java程序设计》第6周学习总结
  20. 牛客网 牛客小白月赛1 H.写真がとどいています

热门文章

  1. Bootstrap3基础 栅格系统 col-lg/md/sm/xs-* 简单示例
  2. 如何改变vim中的光标形状 : 在插入状态下显示为 beam?而在 其他 状态下 为 block?
  3. Go-单元测试
  4. jsp servlet table 集合list 数据 绑定
  5. 13_文件系统访问列表_case语句及脚本选项
  6. H5外包团队:使用HTML5播放短视频代码分享
  7. highcharts数据标签显示在柱状图里面解决办法
  8. HDU 1041 Computer Transformation(找规律加大数乘)
  9. Oracle 并发创建索引
  10. 记一次webpack4.x项目配置