Python數據分析之真實IP請求Pandas詳解
更新時間:2016年11月18日 11:16:41 投稿:daisy
這篇文章主要給大家介紹了Python數據分析之真實IP請求Pandas,文中通過示例嗲嗎給大家介紹的很詳細,相信對大家的學習或者理解具有一定的參考借鑒價值,有需要的朋友們可以參考借鑒,下面來一起學習學習吧。
前言
pandas 是基于 Numpy 構建的含有更高級數據結構和工具的數據分析包類似于 Numpy 的核心是 ndarray,pandas 也是圍繞著 Series 和 DataFrame 兩個核心數據結構展開的 。Series 和 DataFrame 分別對應于一維的序列和二維的表結構。pandas 約定俗成的導入方法如下:
from pandas import Series,DataFrame import pandas as pd
1.1. Pandas分析步驟
1、載入日志數據
2、載入area_ip數據
3、將 real_ip 請求數 進行 COUNT。類似如下SQL:
SELECT inet_aton(l.real_ip), count(*), a.addr FROM log AS l INNER JOIN area_ip AS a ON a.start_ip_num <= inet_aton(l.real_ip) AND a.end_ip_num >= inet_aton(l.real_ip) GROUP BY real_ip ORDER BY count(*) LIMIT 0, 100;
1.2. 代碼
cat pd_ng_log_stat.py
#!/usr/bin/env python
#-*- coding: utf-8 -*-
from ng_line_parser import NgLineParser
import pandas as pd
import socket
import struct
class PDNgLogStat(object):
def __init__(self):
self.ng_line_parser = NgLineParser()
def _log_line_iter(self, pathes):
"""解析文件中的每一行并生成一個迭代器"""
for path in pathes:
with open(path, 'r') as f:
for index, line in enumerate(f):
self.ng_line_parser.parse(line)
yield self.ng_line_parser.to_dict()
def _ip2num(self, ip):
"""用于IP轉化為數字"""
ip_num = -1
try:
# 將IP轉化成INT/LONG 數字
ip_num = socket.ntohl(struct.unpack("I",socket.inet_aton(str(ip)))[0])
except:
pass
finally:
return ip_num
def _get_addr_by_ip(self, ip):
"""通過給的IP獲得地址"""
ip_num = self._ip2num(ip)
try:
addr_df = self.ip_addr_df[(self.ip_addr_df.ip_start_num <= ip_num) &
(ip_num <= self.ip_addr_df.ip_end_num)]
addr = addr_df.at[addr_df.index.tolist()[0], 'addr']
return addr
except:
return None
def load_data(self, path):
"""通過給的文件路徑加載數據生成 DataFrame"""
self.df = pd.DataFrame(self._log_line_iter(path))
def uv_real_ip(self, top = 100):
"""統計cdn ip量"""
group_by_cols = ['real_ip'] # 需要分組的列,只計算和顯示該列
# 直接統計次數
url_req_grp = self.df[group_by_cols].groupby(
self.df['real_ip'])
return url_req_grp.agg(['count'])['real_ip'].nlargest(top, 'count')
def uv_real_ip_addr(self, top = 100):
"""統計real ip 地址量"""
cnt_df = self.uv_real_ip(top)
# 添加 ip 地址 列
cnt_df.insert(len(cnt_df.columns),
'addr',
cnt_df.index.map(self._get_addr_by_ip))
return cnt_df
def load_ip_addr(self, path):
"""加載IP"""
cols = ['id', 'ip_start_num', 'ip_end_num',
'ip_start', 'ip_end', 'addr', 'operator']
self.ip_addr_df = pd.read_csv(path, sep='\t', names=cols, index_col='id')
return self.ip_addr_df
def main():
file_pathes = ['www.ttmark.com.access.log']
pd_ng_log_stat = PDNgLogStat()
pd_ng_log_stat.load_data(file_pathes)
# 加載 ip 地址
area_ip_path = 'area_ip.csv'
pd_ng_log_stat.load_ip_addr(area_ip_path)
# 統計 用戶真實 IP 訪問量 和 地址
print pd_ng_log_stat.uv_real_ip_addr()
if __name__ == '__main__':
main()
運行統計和輸出結果
python pd_ng_log_stat.py
count addr
real_ip
60.191.123.80 101013 浙江省杭州市
- 32691 None
218.30.118.79 22523 北京市
......
136.243.152.18 889 德國
157.55.39.219 889 美國
66.249.65.170 888 美國
[100 rows x 2 columns]
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作帶來一定的幫助,如果有疑問大家可以留言交流。
相關文章
Python對Excel按列值篩選并拆分表格到多個文件的代碼
這篇文章主要介紹了Python對Excel按列值篩選并拆分表格到多個文件,本文通過代碼給大家介紹的非常詳細,需要的朋友可以參考下2019-11-11
python讀取raw binary圖片并提取統計信息的實例
今天小編就為大家分享一篇python讀取raw binary圖片并提取統計信息的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01

