Java反轉(zhuǎn)字符串和相關(guān)字符編碼的問題解決

更新時間：2013年05月27日 10:34:10 作者：

反轉(zhuǎn)字符串一直被當(dāng)作是簡單問題，大家的思想主要就是利用遍歷，首尾交換字符實(shí)現(xiàn)字符串的反轉(zhuǎn)。例如下面的代碼，就可以簡單實(shí)現(xiàn)反轉(zhuǎn)。

public String reverse(char[] value){
       for (int i = (value.length - 1) >> 1; i >= 0; i--){
           char temp = value[i];
           value[i] = value[value.length - 1 - i];
           value[value.length - 1 - i] = temp;
       }
       return new String(value);
}

這樣的代碼，在算法方面是沒有任何問題的。但是今天在查看StringBuffer源代碼的時候發(fā)現(xiàn)，其中reverse方法的源代碼寫的很精妙。源代碼如下：

復(fù)制代碼代碼如下:

public AbstractStringBuilder reverse() {
    boolean hasSurrogate = false;
    int n = count - 1;
    for (int j = (n-1) >> 1; j >= 0; --j) {
        char temp = value[j];
        char temp2 = value[n - j];
        if (!hasSurrogate) {
       hasSurrogate = (temp >= Character.MIN_SURROGATE && temp <= Character.MAX_SURROGATE)
           || (temp2 >= Character.MIN_SURROGATE && temp2 <= Character.MAX_SURROGATE);
         }
         value[j] = temp2;
         value[n - j] = temp;
     }
     if (hasSurrogate) {
         // Reverse back all valid surrogate pairs
          for (int i = 0; i < count - 1; i++) {
             char c2 = value[i];
             if (Character.isLowSurrogate(c2)) {
                 char c1 = value[i + 1];
                 if (Character.isHighSurrogate(c1)) {
                 value[i++] = c1;
                 value[i] = c2;
             }
         }
         }
     }
     return this;
 }

這個方法是定義在StringBuffer的父類AbstractStringBuilder中的，所以該方法的返回值是AbstractStringBuilder，在子類中調(diào)用的方式如下：

復(fù)制代碼代碼如下:

public synchronized StringBuffer reverse() {
    super.reverse();
    return this;
}

從方法的內(nèi)容來看，源代碼中的基本思路是一致的，同樣采用遍歷一半字符串，然后將每個字符與其對應(yīng)的字符進(jìn)行交換。但是有不同之處，就是要判斷每個字符是否在Character.MIN_SURROGATE(\ud800)和Character.MAX_SURROGATE(\udfff)之間。如果發(fā)現(xiàn)整個字符串中含有這種情況，則再次從頭至尾遍歷一次，同時判斷value[i]是否滿足Character.isLowSurrogate()，如果滿足的情況下，繼續(xù)判斷value[i+1]是否滿足Character.isHighSurrogate()，如果也滿足這種情況，則將第i位和第i+1位的字符互換?？赡苡械娜藭苫?，為什么要這么做，因?yàn)镴ava中的字符已經(jīng)采用Unicode代碼，每個字符可以放下一個漢字。為什么還要這么做？
一個完整的 Unicode 字符叫代碼點(diǎn)CodePoint，而一個 Java char 叫代碼單元 code unit。String 對象以UTF-16保存 Unicode 字符，需要用2個字符表示一個超大字符集的漢字，這這種表示方式稱之為 Surrogate，第一個字符叫 Surrogate High，第二個就是 Surrogate Low。具體需要注意的事宜如下：
判斷一個char是否是Surrogate區(qū)的字符，用Character的 isHighSurrogate()/isLowSurrogate()方法即可判斷。從兩個Surrogate High/Low 字符，返回一個完整的 Unicode CodePoint 用 Character.toCodePoint()/codePointAt()方法。
一個Code Point，可能需要一個也可能需要兩個char表示，因此不能直接使用 CharSequence.length()方法直接返回一個字符串到底有多少個漢字，而需要用String.codePointCount()/Character.codePointCount()。
要定位字符串中的第N個字符，不能直接將N作為偏移量，而需要從字符串頭部依次遍歷得到，需要用String/Character.offsetByCodePoints() 方法。
從字符串的當(dāng)前字符，找到上一個字符，也不能直接用offset-- 實(shí)現(xiàn)，而需要用 String.codePointBefore()/Character.codePointBefore()，或用 String/Character.offsetByCodePoints()
從當(dāng)前字符，找下一個字符，不能直接用 offset++實(shí)現(xiàn)，需要判斷當(dāng)前 CodePoint的長度后，再計(jì)算得到，或用String/Character.offsetByCodePoints()。

您可能感興趣的文章: