兩種JAVA實(shí)現(xiàn)短網(wǎng)址服務(wù)算法
短網(wǎng)址(Short URL) ,顧名思義就是看起來(lái)很短的網(wǎng)址。自從twitter推出短網(wǎng)址服務(wù)以后,各大互聯(lián)網(wǎng)公司都推出了自己的短網(wǎng)址服務(wù)。短網(wǎng)址最大的優(yōu)點(diǎn)就是短,字符少,便于發(fā)布、傳播、復(fù)制和存儲(chǔ)。
通過(guò)網(wǎng)上的搜索,感覺(jué)流傳了2種短網(wǎng)址算法,一種是基于MD5碼的,一種是基于自增序列的。
1、基于MD5碼 : 這種算法計(jì)算的短網(wǎng)址長(zhǎng)度一般是5位或者6位,計(jì)算過(guò)程中可能出現(xiàn)碰撞(概率很?。?,可表達(dá)的url數(shù)量為62
的5次方或6次方。感覺(jué)google(http://goo.gl),微博用的是類似這種的算法(猜的),可能看起來(lái)比較美觀。
2、基于自增序列 : 這種算法實(shí)現(xiàn)比較簡(jiǎn)單,碰撞的可能性為0,可表達(dá)的URL可達(dá)無(wú)窮大,長(zhǎng)度從1開(kāi)始。貌似百度的短網(wǎng)址服務(wù)( http://dwz.cn/ )是這種算法.
具體算法
1、MD5碼:假設(shè)url的長(zhǎng)度為N
a.計(jì)算長(zhǎng)地址的MD5碼,將32位的MD碼分成4段,每段8個(gè)字符
b.將a得到的8個(gè)字符串看成一個(gè)16進(jìn)制的數(shù),與N * 6個(gè)1表示的二進(jìn)制數(shù)進(jìn)行&操作
得到一個(gè)N * 6長(zhǎng)的二進(jìn)制數(shù)
c.將b得到的數(shù)分成N段,每段6位,然后將這N個(gè)6位數(shù)分別與61進(jìn)行&操作,將得到的
數(shù)作為INDEX去字母表取相應(yīng)的字母或數(shù)字,拼接就是一個(gè)長(zhǎng)度為N的短網(wǎng)址。
static final char[] DIGITS =
{ '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g',
'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x',
'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O',
'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z' };
public String shorten(String longUrl, int urlLength) {
if (urlLength < 0 || urlLength > 6) {
throw new IllegalArgumentException("the length of url must be between 0 and 6");
}
String md5Hex = DigestUtils.md5Hex(longUrl);
// 6 digit binary can indicate 62 letter & number from 0-9a-zA-Z
int binaryLength = urlLength * 6;
long binaryLengthFixer = Long.valueOf(StringUtils.repeat("1", binaryLength), BINARY);
for (int i = 0; i < 4; i++) {
String subString = StringUtils.substring(md5Hex, i * 8, (i + 1) * 8);
subString = Long.toBinaryString(Long.valueOf(subString, 16) & binaryLengthFixer);
subString = StringUtils.leftPad(subString, binaryLength, "0");
StringBuilder sbBuilder = new StringBuilder();
for (int j = 0; j < urlLength; j++) {
String subString2 = StringUtils.substring(subString, j * 6, (j + 1) * 6);
int charIndex = Integer.valueOf(subString2, BINARY) & NUMBER_61;
sbBuilder.append(DIGITS[charIndex]);
}
String shortUrl = sbBuilder.toString();
if (lookupLong(shortUrl) != null) {
continue;
} else {
return shortUrl;
}
}
// if all 4 possibilities are already exists
return null;
}
2、自增序列:
a. 或者序列的自增值,將值用62進(jìn)制表示。
private AtomicLong sequence = new AtomicLong(0);
@Override
protected String shorten(String longUrl) {
long myseq = sequence.incrementAndGet();
String shortUrl = to62RadixString(myseq);
return shortUrl;
}
private String to62RadixString(long seq) {
StringBuilder sBuilder = new StringBuilder();
while (true) {
int remainder = (int) (seq % 62);
sBuilder.append(DIGITS[remainder]);
seq = seq / 62;
if (seq == 0) {
break;
}
}
return sBuilder.toString();
}
MAVEN工程中的代碼用2個(gè)MAP來(lái)模擬存放長(zhǎng)-短網(wǎng)址的互相映射,實(shí)際使用中可能是基于數(shù)據(jù)庫(kù)表配合索引或者一些分布式KV系統(tǒng)來(lái)實(shí)現(xiàn)。
希望本文所述對(duì)大家學(xué)習(xí)短網(wǎng)址服務(wù)有所幫助。
相關(guān)文章
Mybatis從3.4.0版本到3.5.7版本的迭代方法實(shí)現(xiàn)
本文主要介紹了Mybatis從3.4.0版本到3.5.7版本的迭代方法實(shí)現(xiàn),包括主要的功能增強(qiáng)、不兼容的更改和修復(fù)的錯(cuò)誤,具有一定的參考價(jià)值,感興趣的可以了解一下2025-03-03
Java數(shù)據(jù)結(jié)構(gòu)之HashMap源碼深入分析
Java HashMap是一種基于哈希表實(shí)現(xiàn)的鍵值對(duì)存儲(chǔ)結(jié)構(gòu),可以實(shí)現(xiàn)快速的數(shù)據(jù)查找和存儲(chǔ)。它是線程不安全的,但在單線程環(huán)境中運(yùn)行效率高,被廣泛應(yīng)用于Java開(kāi)發(fā)中2023-04-04
完美解決Eclipse 項(xiàng)目有紅感嘆號(hào)的問(wèn)題
下面小編就為大家?guī)?lái)一篇完美解決Eclipse 項(xiàng)目有紅感嘆號(hào)的問(wèn)題。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-01-01
Java中二叉樹(shù)數(shù)據(jù)結(jié)構(gòu)的實(shí)現(xiàn)示例
這篇文章主要介紹了Java中二叉樹(shù)數(shù)據(jù)結(jié)構(gòu)的實(shí)現(xiàn)示例,包括前中后序遍歷和求二叉樹(shù)深度的方法,需要的朋友可以參考下2015-08-08

