使用Redis有序集合實(shí)現(xiàn)IP歸屬地查詢?cè)斀?/h1>
更新時(shí)間:2019年04月16日 11:01:29 作者:yongxinz
這篇文章主要介紹了使用Redis有序集合實(shí)現(xiàn)IP歸屬地查詢,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
工作中經(jīng)常遇到一類需求,根據(jù) IP 地址段來查找 IP 對(duì)應(yīng)的歸屬地信息。如果把查詢過程放到關(guān)系型數(shù)據(jù)庫中,會(huì)帶來很大的 IO 消耗,速度也不能滿足,顯然是不合適的。
那有哪些更好的辦法呢?為此做了一些嘗試,下面來詳細(xì)說明。
構(gòu)建索引文件
在 GitHub 上看到一個(gè)ip2region 項(xiàng)目,作者通過生成一個(gè)包含有二級(jí)索引的文件來實(shí)現(xiàn)快速查詢,查詢速度足夠快,毫秒級(jí)別。但如果想更新地址段或歸屬地信息,每次都要重新生成文件,并不是很方便。
不過還是推薦大家看看這個(gè)項(xiàng)目,其中建索引的思想還是很值得學(xué)習(xí)的。作者的開源項(xiàng)目中只有查詢的相關(guān)代碼,并沒有生成索引文件的代碼,我依照原理圖寫了一段生成索引文件的代碼,如下:
# -*- coding:utf-8 -*-
import time
import socket
import struct
IP_REGION_FILE = './data/ip_to_region.db'
SUPER_BLOCK_LENGTH = 8
INDEX_BLOCK_LENGTH = 12
HEADER_INDEX_LENGTH = 8192
def generate_db_file():
pointer = SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH
region, index = '', ''
# 文件格式
# 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0
# 1.0.1.0|1.0.3.255|中國(guó)|0|福建省|福州市|電信
with open('./ip.merge.txt', 'r') as f:
for line in f.readlines():
item = line.strip().split('|')
print item[0], item[1], item[2], item[3], item[4], item[5], item[6]
start_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[0]))[0])
end_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[1]))[0])
region_item = '|'.join([item[2], item[3], item[4], item[5], item[6]])
region += region_item
ptr = struct.pack('I', int(bin(len(region_item))[2:].zfill(8) + bin(pointer)[2:].zfill(24), 2))
index += start_ip + end_ip + ptr
pointer += len(region_item)
index_start_ptr = pointer
index_end_ptr = pointer + len(index) - 12
super_block = struct.pack('I', index_start_ptr) + struct.pack('I', index_end_ptr)
n = 0
header_index = ''
for index_block in range(pointer, index_end_ptr, 8184):
header_index_block_ip = index[n * 8184:n * 8184 + 4]
header_index_block_ptr = index_block
header_index += header_index_block_ip + struct.pack('I', header_index_block_ptr)
n += 1
header_index += index[len(index) - 12: len(index) - 8] + struct.pack('I', index_end_ptr)
with open(IP_REGION_FILE, 'wb') as f:
f.write(super_block)
f.write(header_index)
f.seek(SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH, 0)
f.write(region)
f.write(index)
if __name__ == '__main__':
start_time = time.time()
generate_db_file()
print 'cost time: ', time.time() - start_time
使用 Redis 緩存
目前有兩種方式對(duì) IP 以及歸屬地信息進(jìn)行緩存:
第一種是將起始 IP,結(jié)束 IP 以及中間所有 IP 轉(zhuǎn)換成整型,然后以字符串方式,用轉(zhuǎn)換后的 IP 作為 key,歸屬地信息作為 value 存入 Redis;
第二種是采用有序集合和散列方式,首先將起始 IP 和結(jié)束 IP 添加到有序集合 ip2cityid,城市 ID 作為成員,轉(zhuǎn)換后的 IP 作為分值,然后再將城市 ID 和歸屬地信息添加到散列 cityid2city,城市 ID 作為 key,歸屬地信息作為 value。
第一種方式就不多做介紹了,簡(jiǎn)單粗暴,非常不推薦。查詢速度當(dāng)然很快,毫秒級(jí)別,但缺點(diǎn)也十分明顯,我用 1000 條數(shù)據(jù)做了測(cè)試,緩存時(shí)間長(zhǎng),大概 20 分鐘,占用空間大,將近 1G。
下面介紹第二種方式,直接看代碼:
# generate_to_redis.py
# -*- coding:utf-8 -*-
import time
import json
from redis import Redis
def ip_to_num(x):
return sum([256 ** j * int(i) for j, i in enumerate(x.split('.')[::-1])])
# 連接 Redis
conn = Redis(host='127.0.0.1', port=6379, db=10)
start_time = time.time()
# 文件格式
# 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0
# 1.0.1.0|1.0.3.255|中國(guó)|0|福建省|福州市|電信
with open('./ip.merge.txt', 'r') as f:
i = 1
for line in f.readlines():
item = line.strip().split('|')
# 將起始 IP 和結(jié)束 IP 添加到有序集合 ip2cityid
# 成員分別是城市 ID 和 ID + #, 分值是根據(jù) IP 計(jì)算的整數(shù)值
conn.zadd('ip2cityid', str(i), ip_to_num(item[0]), str(i) + '#', ip_to_num(item[1]) + 1)
# 將城市信息添加到散列 cityid2city,key 是城市 ID,值是城市信息的 json 序列
conn.hset('cityid2city', str(i), json.dumps([item[2], item[3], item[4], item[5]]))
i += 1
end_time = time.time()
print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)
# test.py
# -*- coding:utf-8 -*-
import sys
import time
import json
import socket
import struct
from redis import Redis
# 連接 Redis
conn = Redis(host='127.0.0.1', port=6379, db=10)
# 將 IP 轉(zhuǎn)換成整數(shù)
ip = struct.unpack("!L", socket.inet_aton(sys.argv[1]))[0]
start_time = time.time()
# 將有序集合從大到小排序,取小于輸入 IP 值的第一條數(shù)據(jù)
cityid = conn.zrevrangebyscore('ip2cityid', ip, 0, start=0, num=1)
# 如果返回 cityid 是空,或者匹配到了 # 號(hào),說明沒有找到對(duì)應(yīng)地址段
if not cityid or cityid[0].endswith('#'):
print 'no city info...'
else:
# 根據(jù)城市 ID 到散列表取出城市信息
ret = json.loads(conn.hget('cityid2city', cityid[0]))
print ret[0], ret[1], ret[2]
end_time = time.time()
print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)
# python generate_to_redis.py
start_time: 1554300310.31, end_time: 1554300425.65, cost time: 115.333260059
# python test_2.py 1.0.16.0
日本 0 0
start_time: 1555081532.44, end_time: 1555081532.45, cost time: 0.000912189483643
測(cè)試數(shù)據(jù)大概 50 萬條,緩存所用時(shí)間不到 2 分鐘,占用內(nèi)存 182M,查詢速度毫秒級(jí)別。顯而易見,這種方式更值得嘗試。
zrevrangebyscore 方法的時(shí)間復(fù)雜度是 O(log(N)+M), N 為有序集的基數(shù), M 為結(jié)果集的基數(shù)??梢姰?dāng) N 的值越大,查詢效率越慢,具體在多大的數(shù)據(jù)量還可以高效查詢,這個(gè)有待驗(yàn)證。不過這個(gè)問題我覺得并不用擔(dān)心,遇到了再說吧。
以上所述是小編給大家介紹的使用Redis有序集合實(shí)現(xiàn)IP歸屬地查詢?cè)斀庹?,希望?duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
相關(guān)文章
-
Redis配置外網(wǎng)可訪問(redis遠(yuǎn)程連接不上)的方法
默認(rèn)情況下,當(dāng)我們?cè)诓渴鹆藃edis服務(wù)之后,redis本身默認(rèn)只允許本地訪問。Redis服務(wù)端只允許它所在服務(wù)器上的客戶端訪問,如果Redis服務(wù)端和Redis客戶端不在同一個(gè)機(jī)器上,就要進(jìn)行配置。 2022-12-12
-
基于Redis實(shí)現(xiàn)雙加密Token的示例代碼
在現(xiàn)代分布式系統(tǒng)中,Token管理是身份驗(yàn)證和授權(quán)的核心部分,本文將深入分析一個(gè)基于Redis的Token管理實(shí)現(xiàn),探討其設(shè)計(jì)思路、關(guān)鍵代碼邏輯以及實(shí)現(xiàn)細(xì)節(jié),通過對(duì)源碼的逐層剖析,幫助讀者更好地理解Token管理的實(shí)現(xiàn)原理,需要的朋友可以參考下 2025-01-01
-
Redis 中的熱點(diǎn)鍵和數(shù)據(jù)傾斜示例詳解
熱點(diǎn)鍵是指在 Redis 中被頻繁訪問的特定鍵,這些鍵由于其高訪問頻率,可能導(dǎo)致 Redis 服務(wù)器的性能問題,尤其是在高并發(fā)場(chǎng)景下,本文給大家介紹Redis 中的熱點(diǎn)鍵和數(shù)據(jù)傾斜,感興趣的朋友一起看看吧 2025-03-03
-
Redis+Caffeine實(shí)現(xiàn)多級(jí)緩存的步驟
隨著不斷的發(fā)展,這一架構(gòu)也產(chǎn)生了改進(jìn),在一些場(chǎng)景下可能單純使用Redis類的遠(yuǎn)程緩存已經(jīng)不夠了,還需要進(jìn)一步配合本地緩存使用,例如Guava cache或Caffeine,從而再次提升程序的響應(yīng)速度與服務(wù)性能,這篇文章主要介紹了Redis+Caffeine實(shí)現(xiàn)多級(jí)緩存,需要的朋友可以參考下 2024-01-01
最新評(píng)論
工作中經(jīng)常遇到一類需求,根據(jù) IP 地址段來查找 IP 對(duì)應(yīng)的歸屬地信息。如果把查詢過程放到關(guān)系型數(shù)據(jù)庫中,會(huì)帶來很大的 IO 消耗,速度也不能滿足,顯然是不合適的。
那有哪些更好的辦法呢?為此做了一些嘗試,下面來詳細(xì)說明。
構(gòu)建索引文件
在 GitHub 上看到一個(gè)ip2region 項(xiàng)目,作者通過生成一個(gè)包含有二級(jí)索引的文件來實(shí)現(xiàn)快速查詢,查詢速度足夠快,毫秒級(jí)別。但如果想更新地址段或歸屬地信息,每次都要重新生成文件,并不是很方便。
不過還是推薦大家看看這個(gè)項(xiàng)目,其中建索引的思想還是很值得學(xué)習(xí)的。作者的開源項(xiàng)目中只有查詢的相關(guān)代碼,并沒有生成索引文件的代碼,我依照原理圖寫了一段生成索引文件的代碼,如下:
# -*- coding:utf-8 -*-
import time
import socket
import struct
IP_REGION_FILE = './data/ip_to_region.db'
SUPER_BLOCK_LENGTH = 8
INDEX_BLOCK_LENGTH = 12
HEADER_INDEX_LENGTH = 8192
def generate_db_file():
pointer = SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH
region, index = '', ''
# 文件格式
# 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0
# 1.0.1.0|1.0.3.255|中國(guó)|0|福建省|福州市|電信
with open('./ip.merge.txt', 'r') as f:
for line in f.readlines():
item = line.strip().split('|')
print item[0], item[1], item[2], item[3], item[4], item[5], item[6]
start_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[0]))[0])
end_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[1]))[0])
region_item = '|'.join([item[2], item[3], item[4], item[5], item[6]])
region += region_item
ptr = struct.pack('I', int(bin(len(region_item))[2:].zfill(8) + bin(pointer)[2:].zfill(24), 2))
index += start_ip + end_ip + ptr
pointer += len(region_item)
index_start_ptr = pointer
index_end_ptr = pointer + len(index) - 12
super_block = struct.pack('I', index_start_ptr) + struct.pack('I', index_end_ptr)
n = 0
header_index = ''
for index_block in range(pointer, index_end_ptr, 8184):
header_index_block_ip = index[n * 8184:n * 8184 + 4]
header_index_block_ptr = index_block
header_index += header_index_block_ip + struct.pack('I', header_index_block_ptr)
n += 1
header_index += index[len(index) - 12: len(index) - 8] + struct.pack('I', index_end_ptr)
with open(IP_REGION_FILE, 'wb') as f:
f.write(super_block)
f.write(header_index)
f.seek(SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH, 0)
f.write(region)
f.write(index)
if __name__ == '__main__':
start_time = time.time()
generate_db_file()
print 'cost time: ', time.time() - start_time
使用 Redis 緩存
目前有兩種方式對(duì) IP 以及歸屬地信息進(jìn)行緩存:
第一種是將起始 IP,結(jié)束 IP 以及中間所有 IP 轉(zhuǎn)換成整型,然后以字符串方式,用轉(zhuǎn)換后的 IP 作為 key,歸屬地信息作為 value 存入 Redis;
第二種是采用有序集合和散列方式,首先將起始 IP 和結(jié)束 IP 添加到有序集合 ip2cityid,城市 ID 作為成員,轉(zhuǎn)換后的 IP 作為分值,然后再將城市 ID 和歸屬地信息添加到散列 cityid2city,城市 ID 作為 key,歸屬地信息作為 value。
第一種方式就不多做介紹了,簡(jiǎn)單粗暴,非常不推薦。查詢速度當(dāng)然很快,毫秒級(jí)別,但缺點(diǎn)也十分明顯,我用 1000 條數(shù)據(jù)做了測(cè)試,緩存時(shí)間長(zhǎng),大概 20 分鐘,占用空間大,將近 1G。
下面介紹第二種方式,直接看代碼:
# generate_to_redis.py
# -*- coding:utf-8 -*-
import time
import json
from redis import Redis
def ip_to_num(x):
return sum([256 ** j * int(i) for j, i in enumerate(x.split('.')[::-1])])
# 連接 Redis
conn = Redis(host='127.0.0.1', port=6379, db=10)
start_time = time.time()
# 文件格式
# 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0
# 1.0.1.0|1.0.3.255|中國(guó)|0|福建省|福州市|電信
with open('./ip.merge.txt', 'r') as f:
i = 1
for line in f.readlines():
item = line.strip().split('|')
# 將起始 IP 和結(jié)束 IP 添加到有序集合 ip2cityid
# 成員分別是城市 ID 和 ID + #, 分值是根據(jù) IP 計(jì)算的整數(shù)值
conn.zadd('ip2cityid', str(i), ip_to_num(item[0]), str(i) + '#', ip_to_num(item[1]) + 1)
# 將城市信息添加到散列 cityid2city,key 是城市 ID,值是城市信息的 json 序列
conn.hset('cityid2city', str(i), json.dumps([item[2], item[3], item[4], item[5]]))
i += 1
end_time = time.time()
print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)
# test.py
# -*- coding:utf-8 -*-
import sys
import time
import json
import socket
import struct
from redis import Redis
# 連接 Redis
conn = Redis(host='127.0.0.1', port=6379, db=10)
# 將 IP 轉(zhuǎn)換成整數(shù)
ip = struct.unpack("!L", socket.inet_aton(sys.argv[1]))[0]
start_time = time.time()
# 將有序集合從大到小排序,取小于輸入 IP 值的第一條數(shù)據(jù)
cityid = conn.zrevrangebyscore('ip2cityid', ip, 0, start=0, num=1)
# 如果返回 cityid 是空,或者匹配到了 # 號(hào),說明沒有找到對(duì)應(yīng)地址段
if not cityid or cityid[0].endswith('#'):
print 'no city info...'
else:
# 根據(jù)城市 ID 到散列表取出城市信息
ret = json.loads(conn.hget('cityid2city', cityid[0]))
print ret[0], ret[1], ret[2]
end_time = time.time()
print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)
# python generate_to_redis.py start_time: 1554300310.31, end_time: 1554300425.65, cost time: 115.333260059
# python test_2.py 1.0.16.0 日本 0 0 start_time: 1555081532.44, end_time: 1555081532.45, cost time: 0.000912189483643
測(cè)試數(shù)據(jù)大概 50 萬條,緩存所用時(shí)間不到 2 分鐘,占用內(nèi)存 182M,查詢速度毫秒級(jí)別。顯而易見,這種方式更值得嘗試。
zrevrangebyscore 方法的時(shí)間復(fù)雜度是 O(log(N)+M), N 為有序集的基數(shù), M 為結(jié)果集的基數(shù)??梢姰?dāng) N 的值越大,查詢效率越慢,具體在多大的數(shù)據(jù)量還可以高效查詢,這個(gè)有待驗(yàn)證。不過這個(gè)問題我覺得并不用擔(dān)心,遇到了再說吧。
以上所述是小編給大家介紹的使用Redis有序集合實(shí)現(xiàn)IP歸屬地查詢?cè)斀庹?,希望?duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
相關(guān)文章
Redis配置外網(wǎng)可訪問(redis遠(yuǎn)程連接不上)的方法
默認(rèn)情況下,當(dāng)我們?cè)诓渴鹆藃edis服務(wù)之后,redis本身默認(rèn)只允許本地訪問。Redis服務(wù)端只允許它所在服務(wù)器上的客戶端訪問,如果Redis服務(wù)端和Redis客戶端不在同一個(gè)機(jī)器上,就要進(jìn)行配置。2022-12-12
基于Redis實(shí)現(xiàn)雙加密Token的示例代碼
在現(xiàn)代分布式系統(tǒng)中,Token管理是身份驗(yàn)證和授權(quán)的核心部分,本文將深入分析一個(gè)基于Redis的Token管理實(shí)現(xiàn),探討其設(shè)計(jì)思路、關(guān)鍵代碼邏輯以及實(shí)現(xiàn)細(xì)節(jié),通過對(duì)源碼的逐層剖析,幫助讀者更好地理解Token管理的實(shí)現(xiàn)原理,需要的朋友可以參考下2025-01-01
Redis 中的熱點(diǎn)鍵和數(shù)據(jù)傾斜示例詳解
熱點(diǎn)鍵是指在 Redis 中被頻繁訪問的特定鍵,這些鍵由于其高訪問頻率,可能導(dǎo)致 Redis 服務(wù)器的性能問題,尤其是在高并發(fā)場(chǎng)景下,本文給大家介紹Redis 中的熱點(diǎn)鍵和數(shù)據(jù)傾斜,感興趣的朋友一起看看吧2025-03-03
Redis+Caffeine實(shí)現(xiàn)多級(jí)緩存的步驟
隨著不斷的發(fā)展,這一架構(gòu)也產(chǎn)生了改進(jìn),在一些場(chǎng)景下可能單純使用Redis類的遠(yuǎn)程緩存已經(jīng)不夠了,還需要進(jìn)一步配合本地緩存使用,例如Guava cache或Caffeine,從而再次提升程序的響應(yīng)速度與服務(wù)性能,這篇文章主要介紹了Redis+Caffeine實(shí)現(xiàn)多級(jí)緩存,需要的朋友可以參考下2024-01-01

