在python之中通过爬虫抓取回来或者是文件读取出来的数据,有些情况下需要将里面的中文字符给单独的取出来 。那么今天这一篇文章的内容就是,python使用正则表达式来实现中文字符串匹配并将其取出来的方法操作,感兴趣的话就往下看看吧 。
文章插图
(1)实际上实现这个功能非常简单,这是因为python默认的编码集为万国码Unicode,而且所有能够在计算机上显示并且被使用的文件都是存在于这个编码集之中的 。而中文汉字在里面的编码范围是\u4e00-\u9fa5,只需要使用它即可完成中文字符的匹配提取操作,详细代码示例如下所示:
import reastr = '''aa君埋泉下泥销骨henow,e我寄人间雪满头pom'''res = re.findall('[\u4e00-\u9fa5]', astr)print(res)# 结果[‘君’埋’泉’下’泥’销’骨’我’寄’人’间’雪’满’头’]从以上代码运行的结果就可以看出来,正则表达式模块中的方法findall()中的第一个参数为正则匹配模式,第二个参数则是需要匹配的字符串对象 。返回的是匹配结果所组成的列表,将所有匹配成功的字符都单独取了出来 。
(2)除了以上这种使用Unicode编码范围的方式之外,还能使用中文汉字来表示范围匹配中文,代码如下:
res = re.findall('[一-龥]', astr)【Python匹配中文字符串怎么做?Python怎么取出中文字符】这两个汉字在Unicode编码中对应的就是起始和结束编码,以上就是关于“Python匹配中文字符串怎么做?Python怎么取出中文字符”的全部内容了,希望对你有所帮助 。
推荐阅读
- Python如何判断字符串以什么开头?Python怎么判断字符串是否以数字结尾
- Editplus如何运行python程序?Editplus怎么编写python代码并运行
- Python数据持久化怎么做?Python如何使用shelve模块
- Python数据类型转换函数有哪些?Python内置类型转换函数是什么
- Python中类的方法有几种?Python类方法都有哪些
- IDLE怎么清除运行界面?Python编辑器IDLE运行界面如何清屏
- Python转换数据类型有哪些?Python两种数据类型的转换
- Python中的赋值运算符有哪些?Python赋值运算符支持哪些赋值?
- 如何使用Python中的input函数?Python输入函数input的使用方法
- 淘宝怎么补关键词权重?匹配有哪些方法?