python?特殊詞匯過濾功能的實(shí)現(xiàn)
python的其中一個(gè)強(qiáng)大之處就是它可以方便的集成很多的非標(biāo)準(zhǔn)庫,今天在GitHub上溜達(dá)又發(fā)現(xiàn)了一個(gè)臟話處理神器,導(dǎo)入better_profanity庫后,只需要幾行代碼就能搞定了,相當(dāng)nice!
使用pip的方式將better_profanity非標(biāo)準(zhǔn)庫安裝好,這個(gè)庫好像在清華大學(xué)的鏡像站中沒有,其他鏡像站不知道有沒有,于是下載時(shí)沒有使用鏡像站,默認(rèn)到官方去下載即可。
pip install better_profanity # 將處理模塊直接導(dǎo)入到代碼塊中 from better_profanity import profanity
1、默認(rèn)臟話庫/敏感詞庫處理
默認(rèn)情況下就只能處理英文的臟話。
censored_text = profanity.censor("you are bitch",'-')
print(censored_text)
# you are ----可以看到其中bitch字符被認(rèn)為是臟話已經(jīng)處理成****字符了。
當(dāng)然,還可以將處理后的臟話字符換成別的字符代替,比如下面這樣處理。
censored_text = profanity.censor("you are bitch",'-')
print(censored_text)
# you are ----這樣****就被替換成了----。
2、自定義過濾信息處理
bad_words = ['Python', 'Java', 'Scala'] # 自定義過濾詞匯
profanity.load_censor_words(bad_words) # 加載自定義過濾詞匯
censored_text = profanity.censor("Python is very Good !") # 執(zhí)行過濾
print(censored_text)
# **** is very Good !可以發(fā)現(xiàn),想要過濾的python字符已經(jīng)成功過濾掉了。
3、contains_profanity函數(shù)
contains_profanity函數(shù)用來查看我們的語句中是否包含需要過濾的詞匯,如果包含則會(huì)返回True,否則返回False。
bad_words = ['bitch', 'Java', 'Scala'] # 自定義過濾詞匯
profanity.load_censor_words(bad_words) # 加載自定義過濾詞匯
censored_text = profanity.contains_profanity("you are bitch")
print(censored_text)
# True結(jié)果為True,表示包含需要過濾的詞匯信息。
4、load_censor_words_from_file函數(shù)
load_censor_words_from_file函數(shù)用于加載需要過濾詞匯的文件。
profanity.load_censor_words_from_file('/usr/load/bad_words.txt')加載完詞匯文件之后,按照之前的邏輯處理即可。
詞匯文件的定義格式,按照每個(gè)詞匯獨(dú)占一行的形式進(jìn)行定義,文件格式使用.txt文本文檔即可。
# bitch # bitches # bitchin # bitching # blowjob # blowjobs # blue waffle
到此這篇關(guān)于python 臟話處理、特殊詞匯過濾的文章就介紹到這了,更多相關(guān)python 特殊詞匯過濾內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python進(jìn)程池實(shí)現(xiàn)的多進(jìn)程文件夾copy器完整示例
這篇文章主要介紹了python進(jìn)程池實(shí)現(xiàn)的多進(jìn)程文件夾copy器,結(jié)合完整實(shí)例形式分析了Python基于多進(jìn)程與進(jìn)程池的文件操作相關(guān)實(shí)現(xiàn)技巧,需要的朋友可以參考下2019-11-11
python數(shù)據(jù)庫編程 ODBC方式實(shí)現(xiàn)通訊錄
這篇文章主要為大家詳細(xì)介紹了python數(shù)據(jù)庫編程,ODBC方式實(shí)現(xiàn)通訊錄,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-03-03
pycharm命令終端運(yùn)行python文件以及傳遞參數(shù)方式
這篇文章主要介紹了pycharm命令終端運(yùn)行python文件以及傳遞參數(shù)方式,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-06-06
python利用后綴表達(dá)式實(shí)現(xiàn)計(jì)算器功能
這篇文章主要為大家詳細(xì)介紹了python利用后綴表達(dá)式實(shí)現(xiàn)計(jì)算器功能,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-02-02
ptyhon實(shí)現(xiàn)sitemap生成示例
這篇文章主要介紹了ptyhon實(shí)現(xiàn)sitemap生成示例,需要的朋友可以參考下2014-03-03
python之pexpect實(shí)現(xiàn)自動(dòng)交互的例子
今天小編就為大家分享一篇python之pexpect實(shí)現(xiàn)自動(dòng)交互的例子,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07
Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞袋模型
本文是Python機(jī)器學(xué)習(xí)NLP自然語言處理系列文章,帶大家開啟一段學(xué)習(xí)自然語言處理 (NLP) 的旅程。本篇文章主要學(xué)習(xí)NLP自然語言處理基本操作之詞袋模型2021-09-09
Python+OpenCV檢測燈光亮點(diǎn)的實(shí)現(xiàn)方法
這篇文章主要介紹了Python+OpenCV檢測燈光亮點(diǎn)的實(shí)現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11

