python程序開發(fā)之中經(jīng)常需要去做的一個(gè)事情就是數(shù)據(jù)處理 , 而數(shù)據(jù)處理中對字符串這種類型的操作可以說是最頻繁的了 。而下面這一篇文章會(huì)來詳細(xì)講解一下 , 該怎么使用flashtext這個(gè)工具完成數(shù)據(jù)清洗操作 , 感興趣的小伙伴可以一起往下看看 。

一、安裝工具
flashtext雖然說是一個(gè)工具 , 但是它是可以作為模塊來導(dǎo)入使用 , 并且用pip命令就能下載安裝好 。使用win+r快捷方式打開運(yùn)行窗口 , 然后輸入cmd并回車即可以管理員身份打開命令提示符 , 接著使用國內(nèi)清華鏡像源安裝該工具 , 示例如下:
pip install flashtext -i https://pypi.tuna.tsinghua.edu.cn/simple二、使用flashtext工具
那么使用它來玩數(shù)據(jù)清洗操作實(shí)際上就分為兩步 , 第一步是將需要清洗的數(shù)據(jù) , 也就是關(guān)鍵詞添加到處理器詞庫之中 , 代碼示例如下所示:
from flashtext import KeywordProcessorprocessor = KeywordProcessor()processor.add_keyword('Python')添加完成之后該詞庫之中就是已經(jīng)保存了該關(guān)鍵詞 , 接下來所有的操作都是圍繞這個(gè)關(guān)鍵詞來完成 , 因?yàn)樽址愋蛯ο髷?shù)據(jù)清洗就是取出其中的關(guān)鍵詞以及替換關(guān)鍵詞兩種方式 。
那么提取關(guān)鍵詞的方法也很簡單 , 只需要使用這個(gè)對象去調(diào)用extract方法并且傳入字符串類型對象作為參數(shù) , 就可以把該對象中所有的關(guān)鍵詞取出來 , 示例如下所示:
found = processor.extract_keywords('I like Python and Scala.')print(found)另外一種方法就是在字符串對象中匹配到詞庫內(nèi)所有的關(guān)鍵詞 , 然后使用別名來替換該關(guān)鍵詞 。需要在添加關(guān)鍵詞時(shí)寫上兩個(gè)參數(shù) , 代碼如下所示:
processor.add_keyword('Scala', 'Java')replaced = processor.replace_keywords('I like Scala.')【Python怎么使用flashtext數(shù)據(jù)清洗工具?Python如何使用flashtext替換字符】以上就是關(guān)于“Python怎么使用flashtext數(shù)據(jù)清洗工具?Python如何使用flashtext替換字符”的全部內(nèi)容了 , 希望對你有所幫助 。
猜你喜歡
- Python如何操作RabbitMQ?Python怎么去使用消息隊(duì)列完成通信
- 藍(lán)牙耳機(jī)怎么戴上耳朵不會(huì)掉
- 我有一個(gè)想法作文300字三年級上冊 怎么寫我有一個(gè)想法作文呢
- 小學(xué)橫截面怎么理解 小學(xué)橫截面如何理解
- 端午節(jié)用英文怎么說 端午節(jié)用英文如何說
- 智慧普華車貸扣款日早上沒有扣夠車貸,是不是中午還會(huì)再扣,不扣情況下,怎么去還??
- 溫柿子怎么溫 溫柿子的辦法
- 微信服務(wù)號怎么用微喵軟件?
- 坐飛機(jī)化妝品怎么帶 坐飛機(jī)化妝品如何帶
- 大暑天怎么坐月子 大暑天如何坐月子
