詳細(xì)談?wù)刬OS字符串翻轉(zhuǎn)
前言
字符串翻轉(zhuǎn)作為算法題已經(jīng)是一個不能再基礎(chǔ)的問題了,無非就是逆序遍歷、雙指針遍歷、遞歸,代碼也能分分鐘寫出來:
void strrev(char *str) {
size_t start = 0;
size_t end = start + strlen(str) - 1;
while (start < end) {
char ch = str[start];
str[start++] = str[end];
str[end--] = ch;
}
}
OK,上面的代碼放到 LeetCode 上絕對是能 AC 的,但是實際情況中能 AC 嗎?答案肯定是不能的!一個靠譜的字符串翻轉(zhuǎn)算法題放到 LeetCode 上至少是 Medium 的難度。
首先我們知道字符串有編碼規(guī)則,比如我們常用的 UTF-8,Windows 早期采用的 UTF-16(函數(shù)名有 W 后綴的 API 采用這種編碼)等等...對于英文字母等 ASCII 字符的情況,UTF-8 和 ASCII 編碼都是一個字節(jié),所以上述的方法沒有太大問題。然而對于有中文的情況,一個中文字符在 UTF-8 中會占 3 個字節(jié),如果單純的按字節(jié)翻轉(zhuǎn)就會出現(xiàn)亂碼。
那怎么解決呢?
最簡單的方法就是使用 mbstowcs 函數(shù)將 char * 類型的字符串轉(zhuǎn)換為 wchar_t 類型的寬字符串,wchar_t 這個類型在 Linux、UNIX 系統(tǒng)上占 4 個字節(jié),在 Windows 上占 2 個字節(jié)。4 個字節(jié)意味著字符將用 UTF-32 來編碼,不管是漢字還是 Emoji 都能存放下來。但對于 2 個字節(jié),也就是 UTF-16,漢字是能表示,但是 Emoji 這類位于輔助平面碼位的字符需要兩個碼元來表示,本文的方法就暫不適用了。
首先我們來看一下改進(jìn)版的字符串翻轉(zhuǎn):
static void strrev2(char *str) {
setlocale(LC_CTYPE, "UTF-8");
size_t len = mbstowcs(NULL, str, 0);
wchar_t *wcs = (wchar_t *) calloc(len + 1, sizeof(wchar_t));
mbstowcs(wcs, str, len + 1);
size_t start = 0;
size_t end = start + len - 1;
while (start < end) {
wchar_t wc = wcs[start];
wcs[start++] = wcs[end];
wcs[end--] = wc;
}
wcstombs(str, wcs, wcstombs(NULL, wcs, 0));
free(wcs);
}
使用 mbstowcs 這類轉(zhuǎn)換函數(shù)首先需要設(shè)置字符串的系統(tǒng)編碼,不然函數(shù)無法確定你傳入的 char * 是個什么東西,本文中不管是源碼還是系統(tǒng)環(huán)境的 std I/O 都采用 UTF-8 編碼。
接下來我們調(diào)用一次 mbstowcs 不傳入目標(biāo)地址和字符長度,這可以讓函數(shù)直接計算所需的 wchar_t 個數(shù)并返回回來以便我們申請內(nèi)存。
然后就是基于 wchar_t 的一個常規(guī)字符串翻轉(zhuǎn)了,最后別忘了轉(zhuǎn)換回去,釋放內(nèi)存即可。
Bonus: Cocoa 開發(fā)中的字符串翻轉(zhuǎn)
作為 iOS 開發(fā)者,當(dāng)然還要考慮 OC 中的解決方法了。
方案 1:
通過 API 遍歷子串,然后前向插入到新的 NSMutableString 中。
- (NSString *)my_stringByReversing {
NSMutableString *reversed = [NSMutableString stringWithCapacity:self.length];
NSRange range = NSMakeRange(0, self.length);
[self enumerateSubstringsInRange:range
options:NSStringEnumerationByComposedCharacterSequences
usingBlock:^(NSString * _Nullable substring, NSRange substringRange,
NSRange enclosingRange, BOOL * _Nonnull stop) {
[reversed insertString:substring atIndex:0];
}];
return [reversed copy];
}
這種方法是效果最好的,它會將 Composed Emoji(如 👨👩👧👧)也提取出來,因為這類 Emoji 是由多個 Unicode 字符組合而成的,所以即便是 4 個字節(jié)的 wchar_t 也容納不下。但這種方法的弊端就是開銷太大,稍后我們做一個比較。
方案 2:
通過 API 獲取到 C String,然后用文章開頭所述的方法處理,再重新用處理后的 C String 構(gòu)造 NSString。
- (NSString *)my_stringByReversing2 {
NSUInteger length = [self lengthOfBytesUsingEncoding:NSUTF8StringEncoding];
char *buf = calloc(length + 1, 1);
[self getCString:buf maxLength:length + 1 encoding:NSUTF8StringEncoding];
strrev2(buf);
NSString *reversed = [NSString stringWithCString:buf encoding:NSUTF8StringEncoding];
free(buf);
return reversed;
}
這種方法的好處就是高效,經(jīng)測試,它與遍歷的方法相比有 100 多倍的性能提升,但是問題就是無法處理復(fù)雜的 Emoji。
兩種方法,在使用中需要好好衡量一下。
方案 3:
Swift。Swift 的 String 的基本單位是 Character,它是 Unicode Scalar 的集合,表示了一個可渲染的字符,包括 Composed Emoji。并且,String 是實現(xiàn)了 BidirectionalCollection,擁有 reversed 方法,可以輕松實現(xiàn)字符串翻轉(zhuǎn)。另外要提醒大家一下,正由于 Swift 的 String 是基于 Character 的,對于取某個字符這樣的操作,能復(fù)用之前的 Index 就復(fù)用,我見過很多人喜歡寫
str.index(str.startIndex, offsetBy: i)
這樣是很費性能的,因為 Index 的移動操作需要從起點遍歷計算,用這種方法遍歷一遍字符串的復(fù)雜度近似是 O(n!)。
大家有興趣可以試試 Swift 的性能~
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
iOS應(yīng)用程序中通過dispatch隊列控制線程執(zhí)行的方法
Grand Central Dispatch簡稱(GCD)是蘋果公司開發(fā)的技術(shù),以優(yōu)化的應(yīng)用程序支持多核心處理器和其他的對稱多處理系統(tǒng)的系統(tǒng),iOS應(yīng)用程序中通過dispatch隊列控制線程執(zhí)行則是以并發(fā)來達(dá)到多核優(yōu)化的重要途徑.2016-05-05
iOS應(yīng)用開發(fā)中導(dǎo)航欄按鈕UIBarButtonItem的添加教程
這篇文章主要介紹了iOS應(yīng)用開發(fā)中導(dǎo)航欄按鈕UIBarButtonItem的添加教程,文中詳細(xì)介紹了使用UINavigationController導(dǎo)航控制器添加的過程,需要的朋友可以參考下2016-02-02
iOS bounds學(xué)習(xí)筆記以及仿寫UIScrollView部分功能詳解
這篇文章主要為大家詳細(xì)介紹了iOS bounds學(xué)習(xí)筆記,以及仿寫UIScrollView部分功能,具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-05-05
IOS使用UICollectionView實現(xiàn)無限輪播效果
這篇文章主要為大家詳細(xì)介紹了IOS使用UICollectionView實現(xiàn)無限輪播效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2016-03-03
CocoaPods 出現(xiàn)LoadError - cannot load such file -- nanaimo錯誤解決
這篇文章主要介紹了CocoaPods 出現(xiàn)LoadError - cannot load such file -- nanaimo錯誤解決辦法的相關(guān)資料,需要的朋友可以參考下2017-04-04

