Python怎么自定义敏感词过滤?Python实现敏感词过滤如何自定义词库

在小编之前的一篇文章之中已经个大家介绍过了在python中该如何去实现敏感词过滤,而过滤时使用的是模块内自带的词库 。那么在有些时候需要去对某些特定词语进行过滤的时候就要去自定义敏感词过滤词库了,下文会有详细的代码示例和方法解析 。

Python怎么自定义敏感词过滤?Python实现敏感词过滤如何自定义词库

文章插图
1.那么首先就是要定义一个敏感词过滤词库,这个词库需要是可以保存大量数据的数据结构,并且里面的数据只能是字符串类型,否则就无法进行匹配 。而python中符合这个要求数据结构只有元组、列表和集合三种,通常会使用性能较好和约束较少的列表类型,代码如下:
from better_profanity import profanitybad_words = ["Python", "Java", "Scala"]2.敏感词过滤词库创建好了之后还不能够直接的就是调用censor()方法来进行词语的过滤,需要将这个词库给加载到模块内才可以,示例如下:
profanity.load_censor_words(bad_words)实际上在创建敏感词过滤词库时最好还是需要去使用一个文件,将文件内的词语逐行或者是按照空格给读取出来,否则当数据量太大时很容易就影响到程序运行速度 。
3.那么第三步就是去调用过滤敏感词的方法了,在这个方法之中还有一个默认参数 。只需要在过滤字符串的后面加上一个字符串就可以使用它来代替原本的星号,示例如下:
【Python怎么自定义敏感词过滤?Python实现敏感词过滤如何自定义词库】censored_text = profanity.censor("you are bitch","-")以上就是关于“Python怎么自定义敏感词过滤?Python实现敏感词过滤如何自定义词库”的全部内容了,希望对你有所帮助 。

    推荐阅读