JDK9為何要將String的底層實(shí)現(xiàn)由char[]改成了byte[]

更新時(shí)間：2022年03月25日 09:43:06 作者：公眾號(hào)_IT老哥

String 類(lèi)的源碼已經(jīng)由?char[]?優(yōu)化為了?byte[]?來(lái)存儲(chǔ)字符串內(nèi)容，為什么要這樣做呢？本文就詳細(xì)的介紹一下，感興趣的可以了解一下

一、為什么要優(yōu)化 String 節(jié)省內(nèi)存空間

我們使用 jmap -histo:live pid | head -n 10 命令就可以查看到堆內(nèi)對(duì)象示例的統(tǒng)計(jì)信息、查看 ClassLoader 的信息以及 finalizer 隊(duì)列。

以我正在運(yùn)行著的編程喵喵項(xiàng)目實(shí)例（基于 Java 8）來(lái)說(shuō)，結(jié)果是這樣的。

其中 String 對(duì)象有 17638 個(gè)，占用了 423312 個(gè)字節(jié)的內(nèi)存，排在第三位。

由于 Java 8 的 String 內(nèi)部實(shí)現(xiàn)仍然是 char[]，所以我們可以看到內(nèi)存占用排在第 1 位的就是 char 數(shù)組。

char[] 對(duì)象有 17673 個(gè)，占用了 1621352 個(gè)字節(jié)的內(nèi)存，排在第一位。

那也就是說(shuō)優(yōu)化 String 節(jié)省內(nèi)存空間是非常有必要的，如果是去優(yōu)化一個(gè)使用頻率沒(méi)有 String 這么高的類(lèi)庫(kù)，就顯得非常的雞肋。

二、byte[] 為什么就能節(jié)省內(nèi)存空間呢？

眾所周知，char 類(lèi)型的數(shù)據(jù)在 JVM 中是占用兩個(gè)字節(jié)的，并且使用的是 UTF-8 編碼，其值范圍在 '\u0000'（0）和 '\uffff'（65,535）（包含）之間。

也就是說(shuō)，使用 char[] 來(lái)表示 String 就導(dǎo)致了即使 String 中的字符只用一個(gè)字節(jié)就能表示，也得占用兩個(gè)字節(jié)。

而實(shí)際開(kāi)發(fā)中，單字節(jié)的字符使用頻率仍然要高于雙字節(jié)的。

當(dāng)然了，僅僅將 char[] 優(yōu)化為 byte[] 是不夠的，還要配合 Latin-1 的編碼方式，該編碼方式是用單個(gè)字節(jié)來(lái)表示字符的，這樣就比 UTF-8 編碼節(jié)省了更多的空間。

換句話說(shuō)，對(duì)于：

String name = "jack";

這樣的，使用 Latin-1 編碼，占用 4 個(gè)字節(jié)就夠了。

但對(duì)于：

String name = "小二";

這種，木的辦法，只能使用 UTF16 來(lái)編碼。

針對(duì) JDK 9 的 String 源碼里，為了區(qū)別編碼方式，追加了一個(gè) coder 字段來(lái)區(qū)分。

/**  
 * The identifier of the encoding used to encode the bytes in  
 * {@code value}. The supported values in this implementation are  
 *  
 * LATIN1  
 * UTF16  
 *  
 * @implNote This field is trusted by the VM, and is a subject to  
 * constant folding if String instance is constant. Overwriting this  
 * field after construction will cause problems.  
 */  
private final byte coder;

Java 會(huì)根據(jù)字符串的內(nèi)容自動(dòng)設(shè)置為相應(yīng)的編碼，要么 Latin-1 要么 UTF16。

也就是說(shuō)，從 char[] 到 byte[]，中文是兩個(gè)字節(jié)，純英文是一個(gè)字節(jié)，在此之前呢，中文是兩個(gè)字節(jié)，英文也是兩個(gè)字節(jié)。

三、為什么用UTF-16而不用UTF-8呢？

在 UTF-8 中，0-127 號(hào)的字符用 1 個(gè)字節(jié)來(lái)表示，使用和 ASCII 相同的編碼。只有 128 號(hào)及以上的字符才用 2 個(gè)、3 個(gè)或者 4 個(gè)字節(jié)來(lái)表示。

如果只有一個(gè)字節(jié)，那么最高的比特位為 0；
如果有多個(gè)字節(jié)，那么第一個(gè)字節(jié)從最高位開(kāi)始，連續(xù)有幾個(gè)比特位的值為 1，就使用幾個(gè)字節(jié)編碼，剩下的字節(jié)均以 10 開(kāi)頭。

具體的表現(xiàn)形式為：

0xxxxxxx：一個(gè)字節(jié)；
110xxxxx 10xxxxxx：兩個(gè)字節(jié)編碼形式（開(kāi)始兩個(gè) 1）；- 1110xxxx 10xxxxxx 10xxxxxx：三字節(jié)編碼形式（開(kāi)始三個(gè) 1）；
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx：四字節(jié)編碼形式（開(kāi)始四個(gè) 1）。

也就是說(shuō)，UTF-8 是變長(zhǎng)的，那對(duì)于 String 這種有隨機(jī)訪問(wèn)方法的類(lèi)來(lái)說(shuō)，就很不方便。所謂的隨機(jī)訪問(wèn)，就是charAt、subString這種方法，隨便指定一個(gè)數(shù)字，String要能給出結(jié)果。如果字符串中的每個(gè)字符占用的內(nèi)存是不定長(zhǎng)的，那么進(jìn)行隨機(jī)訪問(wèn)的時(shí)候，就需要從頭開(kāi)始數(shù)每個(gè)字符的長(zhǎng)度，才能找到你想要的字符。

那有小伙伴可能會(huì)問(wèn)，UTF-16也是變長(zhǎng)的呢？一個(gè)字符還可能占用 4 個(gè)字節(jié)呢？

的確，UTF-16 使用 2 個(gè)或者 4 個(gè)字節(jié)來(lái)存儲(chǔ)字符。

對(duì)于 Unicode 編號(hào)范圍在 0 ~ FFFF 之間的字符，UTF-16 使用兩個(gè)字節(jié)存儲(chǔ)。
對(duì)于 Unicode 編號(hào)范圍在 10000 ~ 10FFFF 之間的字符，UTF-16 使用四個(gè)字節(jié)存儲(chǔ)，具體來(lái)說(shuō)就是：將字符編號(hào)的所有比特位分成兩部分，較高的一些比特位用一個(gè)值介于 D800DBFF 之間的雙字節(jié)存儲(chǔ)，較低的一些比特位（剩下的比特位）用一個(gè)值介于 DC00DFFF 之間的雙字節(jié)存儲(chǔ)。

但是在 Java 中，一個(gè)字符（char）就是 2 個(gè)字節(jié)，占 4 個(gè)字節(jié)的字符，在 Java 里也是用兩個(gè) char 來(lái)存儲(chǔ)的，而String的各種操作，都是以Java的字符（char）為單位的，charAt是取得第幾個(gè)char，subString取的也是第幾個(gè)到第幾個(gè)char組成的子串，甚至length返回的都是char的個(gè)數(shù)。

所以UTF-16在Java的世界里，就可以視為一個(gè)定長(zhǎng)的編碼。

到此這篇關(guān)于JDK9為何要將String的底層實(shí)現(xiàn)由char[]改成了byte[]的文章就介紹到這了,更多相關(guān)JDK9 char[]改成了byte[]內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: