Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目啟動說明詳解
作為酷愛編程的老程序員,實(shí)在按耐不下這個(gè)沖動,Python真的是太火了,不斷撩撥我的心。

我是對Python存有戒備之心的,想當(dāng)年我基于Drupal做的系統(tǒng),使用php語言,當(dāng)語言升級了,推翻了老版本很多東西,不得不花費(fèi)很多時(shí)間和精力去移植和升級,至今還有一些隱藏在某處的代碼埋著雷。我估計(jì)Python也避免不了這個(gè)問題(其實(shí)這種聲音已經(jīng)不少,比如Python 3 正在毀滅 Python)。 但是,我還是啟動了這個(gè)Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目。我用C++、Java和Javascript編寫爬蟲相關(guān)程序超過10年,要追求高性能,非C++莫屬,同時(shí)有完善的標(biāo)準(zhǔn)體系,讓你和你的系統(tǒng)十分自信,只要充分測試,就能按照預(yù)期的方式運(yùn)行。在GooSeeker項(xiàng)目中,我們不斷向一個(gè)方向努力——“收割數(shù)據(jù)”,而且讓廣大用戶(不僅是專業(yè)的數(shù)據(jù)采集用戶)都能體驗(yàn)到收割互聯(lián)網(wǎng)數(shù)據(jù)的快感?!笆崭睢钡囊粋€(gè)重要含義就是大批量?,F(xiàn)在,我要啟動“即時(shí)網(wǎng)絡(luò)爬蟲”,目的是要補(bǔ)充“收割”沒有覆蓋的場景,我看到的是:
- 在系統(tǒng)層面:“即時(shí)”代表快速部署數(shù)據(jù)應(yīng)用系統(tǒng)
- 在數(shù)據(jù)流層面:“即時(shí)”代表采集數(shù)據(jù)到數(shù)據(jù)使用是即時(shí)的,單個(gè)數(shù)據(jù)對象可以獨(dú)自全流程處理,不用等待一批存入數(shù)據(jù)庫,然后從數(shù)據(jù)庫中拿出來用
- “即時(shí)”另一個(gè)含義就是網(wǎng)絡(luò)爬蟲是一個(gè)嵌入模塊,跟整個(gè)信息處理系統(tǒng)集成在一起

一眾程序員都在玩Python網(wǎng)絡(luò)爬蟲,我擬定了一個(gè)計(jì)劃:建立一個(gè)模塊化更強(qiáng)的軟件部件,專門解決最耗費(fèi)精力的內(nèi)容提取問題(有人總結(jié)說大數(shù)據(jù)和數(shù)據(jù)分析整個(gè)鏈條上,數(shù)據(jù)準(zhǔn)備占了80%工作量,我們不妨延展一下,網(wǎng)絡(luò)數(shù)據(jù)抓取的工作量有80%是在為各種網(wǎng)站的各種數(shù)據(jù)結(jié)構(gòu)編寫抓取規(guī)則)。
我把他想象成一個(gè)小機(jī)器(見上圖),輸入的是原始網(wǎng)頁,輸出的是提取出來的結(jié)構(gòu)化的內(nèi)容,這個(gè)小機(jī)器還有一個(gè)可替換部件:將輸入轉(zhuǎn)化成輸出結(jié)構(gòu)的一個(gè)指令塊,我們成為“提取器”,讓大家不再為調(diào)試正則表達(dá)式或者XPath而苦惱。
這是一個(gè)開放的項(xiàng)目,兩年前啟動了一個(gè)手機(jī)上的即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目,因?yàn)槭墙o某商業(yè)集團(tuán)開發(fā)的,所以不便開放,同樣的思想和方法將開放到這個(gè)項(xiàng)目中,而且用當(dāng)前最熱的python來做,希望大家能共同參與。在執(zhí)行過程中,我們會開放所有資料和成果、已經(jīng)遇到的坑。
近期做的實(shí)驗(yàn)是
python使用xslt提取網(wǎng)頁數(shù)據(jù)
Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態(tài)HTML內(nèi)容
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- python爬蟲項(xiàng)目設(shè)置一個(gè)中斷重連的程序的實(shí)現(xiàn)
- 33個(gè)Python爬蟲項(xiàng)目實(shí)戰(zhàn)(推薦)
- 詳解python3 + Scrapy爬蟲學(xué)習(xí)之創(chuàng)建項(xiàng)目
- Python網(wǎng)絡(luò)爬蟲項(xiàng)目:內(nèi)容提取器的定義
- python小項(xiàng)目之五子棋游戲
- Python 項(xiàng)目轉(zhuǎn)化為so文件實(shí)例
- 解決python web項(xiàng)目意外關(guān)閉,但占用端口的問題
- python+Django+pycharm+mysql 搭建首個(gè)web項(xiàng)目詳解
- 三個(gè)python爬蟲項(xiàng)目實(shí)例代碼
相關(guān)文章
python如何實(shí)現(xiàn)數(shù)組元素兩兩相加
這篇文章主要介紹了python如何實(shí)現(xiàn)數(shù)組元素兩兩相加,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-05-05
Python matplotlib 畫圖窗口顯示到gui或者控制臺的實(shí)例
今天小編就為大家分享一篇Python matplotlib 畫圖窗口顯示到gui或者控制臺的實(shí)例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05
在pandas多重索引multiIndex中選定指定索引的行方法
今天小編就為大家分享一篇在pandas多重索引multiIndex中選定指定索引的行方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11
Python argparse中的action=store_true用法小結(jié)
這篇文章主要介紹了Python argparse中的action=store_true用法小結(jié),本文結(jié)合示例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2023-02-02
python實(shí)現(xiàn)基于樸素貝葉斯的垃圾分類算法
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)基于樸素貝葉斯的垃圾分類算法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-07-07
Python 結(jié)巴分詞實(shí)現(xiàn)關(guān)鍵詞抽取分析
這篇文章主要介紹了Python 結(jié)巴分詞實(shí)現(xiàn)關(guān)鍵詞抽取分析,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-10-10

