python 域名分析工具實現(xiàn)代碼

更新時間：2009年07月15日 00:20:20 作者：

用python實現(xiàn)域名分析，數(shù)據(jù)來源金玉米

代碼如下：

import sys, urllib 
import datetime,time 
def getDate(): 
strday=datetime.datetime.now().__str__() 
strday=strday.split()[0] 
return strday 
#url = "http://www.kingnic.com/list/2009-06-16.txt" 
def getUrl(dateStr=None): 
baseUrl ="http://www.kingnic.com/list/" 
if dateStr: 
return baseUrl+dateStr+".txt" 
thisDate = getDate(); 
if not thisDate: 
print "Error Date!" 
return None; 
url = baseUrl+thisDate+".txt" 
return url 
def getSource(url): 
source = urllib.urlopen(url).read() 
return source 

def save(source,filename="domains.txt"): 
fp = open(filename,"w") 
fp.write(source) 
fp.close() 
return True; 
def loadList(fileName="domains.txt"): 
fp = open("domains.txt","r") 
source = fp.readlines() 
fp.close() 
return source; 
def getPrefix(domain): 
return domain.split('.')[0] 
def getPostfix(domain): 
return domain.split('.')[1] 
def hasMidLine(domain): 
if '-' in domain: 
return True 
else: 
return False 
def parser(domains): 
max =4 
min =0 
keyword =('sky','see','job') 
result=[] 

len_num =0; 
mid_line_num =0; 

for domain in domains: 
prefix = getPrefix(domain) 
postfix = getPostfix(domain) 
domainlen = len(prefix) 
if (domainlen < min) or (domainlen > max): 
len_num +=1 
continue 
if hasMidLine(prefix): 
mid_line_num +=1 
continue 
result.append(domain) 

print " log : \n" 
print "all: \t",len(domains) 
print "len not in [%s,%s] \t: %s"%(max,min,len_num) 
print "contain '-' :\t",mid_line_num 
print "remain:\t",len(result) 
return result; 

if __name__ == "__main__": 
url = getUrl() 
source = getSource(url) 
save(source) 
domains =loadList() 
result = parser(domains) 
save("".join(result),"result.txt") 
print("\n\n\nfinished!!")

輸出文件：
domains.txt ： kingnic.com 據(jù)當(dāng)天釋放的域名；
result.txt ：符合過濾條件的域名；
log輸出：

復(fù)制代碼代碼如下:

 
all: 55500 
len not in [4,0] : 55019 
contain '-' : 32 
remain: 449 
finished!! 

對后綴、長度和有無“-”過濾，過濾條件有點少，其它以后如有需要再加。

您可能感興趣的文章:

相關(guān)文章

python全面解析接口返回數(shù)據(jù)
這篇文章主要介紹了python接口返回數(shù)據(jù)，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2022-02-02
Python實現(xiàn)將mp3音頻格式轉(zhuǎn)換為wav格式
這篇文章主要介紹了利用python寫了這個小工具，可以批量進(jìn)行mp3音頻格式轉(zhuǎn)換為wav格式，文中的示例代碼講解詳細(xì)，感興趣的可以學(xué)習(xí)一下
2022-01-01
Python內(nèi)建函數(shù)之raw_input()與input()代碼解析
這篇文章主要介紹了Python內(nèi)建函數(shù)之raw_input()與input()代碼解析，具有一定參考價值，需要的朋友可以了解下。
2017-10-10
對Tensorflow中的矩陣運(yùn)算函數(shù)詳解
今天小編就為大家分享一篇對Tensorflow中的矩陣運(yùn)算函數(shù)詳解，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-07-07
Python里的dict和set的背后小秘密
這篇文章主要介紹了在Python里的dict和set的背后小秘密,dict字典是Python中的重要基礎(chǔ)知識,set與其類似,需要的朋友可以參考下
2021-11-11
Python安裝Gradio和常見安裝問題解決辦法
Gradio是一款便捷的Python庫,專門用于創(chuàng)建機(jī)器學(xué)習(xí)模型的Web應(yīng)用,安裝通常簡單,但偶爾會遇到依賴問題或環(huán)境配置錯誤,這篇文章主要介紹了Python安裝Gradio和常見安裝問題解決辦法,需要的朋友可以參考下
2024-10-10
Python for循環(huán)搭配else常見問題解決
這篇文章主要介紹了Python for循環(huán)搭配else常見問題解決,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
2020-02-02
Python中處理表格數(shù)據(jù)的Tablib庫詳解
這篇文章主要介紹了Python中處理表格數(shù)據(jù)的Tablib庫詳解,Tablib 是一個 MIT 許可的格式不可知的表格數(shù)據(jù)集庫，用 Python 編寫,它允許您導(dǎo)入、導(dǎo)出和操作表格數(shù)據(jù)集,需要的朋友可以參考下
2023-08-08
python學(xué)習(xí)教程之Numpy和Pandas的使用
最近要對一系列數(shù)據(jù)做同比比較，需要用到numpy和pandas來計算，下面這篇文章主要給大家介紹了關(guān)于python學(xué)習(xí)教程之Numpy和Pandas使用的相關(guān)資料，文中通過示例代碼介紹的非常詳細(xì)，需要的朋友可以參考借鑒。
2017-09-09
python 最簡單的實現(xiàn)適配器設(shè)計模式的示例
這篇文章主要介紹了python 最簡單的實現(xiàn)適配器設(shè)計模式的示例，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2020-06-06