python實(shí)現(xiàn)的讀取網(wǎng)頁(yè)并分詞功能示例
本文實(shí)例講述了python實(shí)現(xiàn)的讀取網(wǎng)頁(yè)并分詞功能。分享給大家供大家參考,具體如下:
這里使用分詞使用最流行的分詞包jieba,參考:https://github.com/fxsjy/jieba
或點(diǎn)擊此處本站下載jieba庫(kù)。
代碼:
import requests
from bs4 import BeautifulSoup
import jieba
# 獲取html
url = "http://finance.ifeng.com/a/20180328/16049779_0.shtml"
res = requests.get(url)
res.encoding = 'utf-8'
content = res.text
# 添加至bs4
soup = BeautifulSoup(content, 'html.parser')
div = soup.find(id = 'main_content')
# 寫入文件
filename = 'news.txt'
with open(filename,'w',encoding='utf-8') as file_object:
# <p>標(biāo)簽的處理
for line in div.findChildren():
file_object.write(line.get_text()+'\n')
# 使用分詞工具
seg_list = jieba.cut("我來(lái)到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我來(lái)到北京清華大學(xué)", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精確模式
seg_list = jieba.cut("他來(lái)到了網(wǎng)易杭研大廈") # 默認(rèn)是精確模式
print(", ".join(seg_list))
with open(filename,'r',encoding='utf-8') as file_object:
with open('cut_news.txt','w',encoding='utf-8') as file_cut_object:
for line in file_object.readlines():
seg_list = jieba.cut(line,cut_all=False)
file_cut_object.write('/'.join(seg_list))
爬取結(jié)果:

分詞結(jié)果:

更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python數(shù)學(xué)運(yùn)算技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
- Python讀取網(wǎng)頁(yè)內(nèi)容的方法
- python打開url并按指定塊讀取網(wǎng)頁(yè)內(nèi)容的方法
- Python讀取本地文件并解析網(wǎng)頁(yè)元素的方法
- Python中文分詞工具之結(jié)巴分詞用法實(shí)例總結(jié)【經(jīng)典案例】
- Python 結(jié)巴分詞實(shí)現(xiàn)關(guān)鍵詞抽取分析
- python jieba分詞并統(tǒng)計(jì)詞頻后輸出結(jié)果到Excel和txt文檔方法
- python使用jieba實(shí)現(xiàn)中文分詞去停用詞方法示例
- python中文分詞教程之前向最大正向匹配算法詳解
- Python基于jieba庫(kù)進(jìn)行簡(jiǎn)單分詞及詞云功能實(shí)現(xiàn)方法
- python實(shí)現(xiàn)中文分詞FMM算法實(shí)例
- Python中文分詞實(shí)現(xiàn)方法(安裝pymmseg)
- python中文分詞,使用結(jié)巴分詞對(duì)python進(jìn)行分詞(實(shí)例講解)
相關(guān)文章
Python3 pandas.concat的用法說(shuō)明
這篇文章主要介紹了Python3 pandas.concat的用法說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧2021-03-03
Python創(chuàng)建exe運(yùn)行器和截圖工具的示例詳解
本文我們將探討如何使用Python和wxPython創(chuàng)建一個(gè)強(qiáng)大而實(shí)用的桌面應(yīng)用程序,可以遍歷指定文件夾中的所有EXE文件,感興趣的小伙伴可以了解一下2024-10-10
opencv實(shí)現(xiàn)圖像旋轉(zhuǎn)效果
這篇文章主要為大家詳細(xì)介紹了opencv實(shí)現(xiàn)圖像旋轉(zhuǎn)效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-03-03
Python獲取網(wǎng)段內(nèi)ping通IP的方法
今天小編就為大家分享一篇Python獲取網(wǎng)段內(nèi)ping通IP的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧2019-01-01
使用OpenCV實(shí)現(xiàn)圖像的透視變換功能
在計(jì)算機(jī)視覺領(lǐng)域,經(jīng)常需要對(duì)圖像進(jìn)行各種幾何變換,如旋轉(zhuǎn)、縮放和平移等,本文主要介紹了如何使用OpenCV實(shí)現(xiàn)圖像的透視變換,需要的可以參考下2024-11-11
Python XML RPC服務(wù)器端和客戶端實(shí)例
這篇文章主要介紹了Python XML RPC服務(wù)器端和客戶端實(shí)例,本文給出了實(shí)現(xiàn)代碼以及運(yùn)行效果,需要的朋友可以參考下2014-11-11
Python中super函數(shù)用法實(shí)例分析
這篇文章主要介紹了Python中super函數(shù)用法,結(jié)合實(shí)例形式詳細(xì)分析了Python中super函數(shù)的功能、調(diào)用父類相關(guān)原理、操作技巧與注意事項(xiàng),需要的朋友可以參考下2019-03-03
Django框架ORM數(shù)據(jù)庫(kù)操作實(shí)例詳解
這篇文章主要介紹了Django框架ORM數(shù)據(jù)庫(kù)操作,結(jié)合實(shí)例形式詳細(xì)分析了Django框架ORM數(shù)據(jù)庫(kù)基本增刪改查與相關(guān)函數(shù)使用技巧,需要的朋友可以參考下2019-11-11
Python functools.lru_cache裝飾器性能提升利器深入探究
本文將詳細(xì)介紹functools.lru_cache裝飾器的原理、用法以及適當(dāng)?shù)膱?chǎng)景,以幫助你更好地利用這一功能,它可以用來(lái)緩存函數(shù)的輸出,以避免重復(fù)計(jì)算,從而顯著提高程序的執(zhí)行速度2024-01-01

