關(guān)于在C程序中處理UTF-8文本的方法詳解
UTF-8
互聯(lián)網(wǎng)的普及, 強(qiáng)烈要求出現(xiàn)一種統(tǒng)一的編碼方式. UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種unicode的實(shí)現(xiàn)方式. 其他實(shí)現(xiàn)方式還包括UTF-16和UTF-32, 不過(guò)在互聯(lián)網(wǎng)上基本不用.
重復(fù)一遍, 這里的關(guān)系是, UTF-8是Unicode的實(shí)現(xiàn)方式之一.
UTF-8最大的一個(gè)特點(diǎn), 就是它是一種變長(zhǎng)的編碼方式. 它可以使用1~6個(gè)字節(jié)表示一個(gè)符號(hào), 根據(jù)不同的符號(hào)而變化字節(jié)長(zhǎng)度.
UTF-8的編碼規(guī)則
UTF-8的編碼規(guī)則很簡(jiǎn)單, 只有兩條:
1) 對(duì)于單字節(jié)的符號(hào), 字節(jié)的第一位設(shè)為0, 后面7位為這個(gè)符號(hào)的unicode碼. 因此對(duì)于英語(yǔ)字母, UTF-8編碼和ASCII碼是相同的.
2) 對(duì)于n字節(jié)的符號(hào)(n>1), 第一個(gè)字節(jié)的前n位都設(shè)為1, 第n+1位設(shè)為0, 后面字節(jié)的前兩位一律設(shè)為10. 剩下的沒(méi)有提及的二進(jìn)制位, 全部為這個(gè)符號(hào)的unicode碼.
如果你對(duì) UTF-8 編碼不是非常了解,就不要試圖在 C 程序中徒手處理 UTF-8 文本。如果你對(duì) UTF-8 非常了解,就更沒(méi)必要這樣做。找一個(gè)提供了 UTF-8 文本處理功能并且可以跨平臺(tái)運(yùn)行的 C 庫(kù)來(lái)做這件事吧!
GLib 就是這樣的庫(kù)。
從問(wèn)題出發(fā)
下面的這段文本是 UTF-8 編碼的(我之所以如此確定,是因?yàn)槲矣玫氖?Linux 系統(tǒng),系統(tǒng)默認(rèn)的文本編碼是 UTF-8):
我的 C81 每天都在口袋里 @
我需要在 C 程序中讀入這些文本。在讀到 '@' 字符時(shí),我需要判定 '@' 左側(cè)與之處于同一行的文本是否都是空白字符。
簡(jiǎn)單起見(jiàn),我忽略了文件讀取的過(guò)程,將上述文本表示為 C 字符串:
gchar *demo_text = "我的 C81 每天都在口袋里\n" " @";
注:在 GLib 中,gchar 就是 char,即 typedef char gchar;
下文,當(dāng)我說(shuō)『demo_text 字符串』時(shí),指的是以 demo_text 指針的值為基地址的 strlen(demo_text) + 1 個(gè)字節(jié)的內(nèi)存空間,這是 C 語(yǔ)言字符串的基本常識(shí)。
UTF-8 文本長(zhǎng)度與字符定位
為了模擬程序讀到 '@' 字符這一時(shí)刻,我需要用一個(gè) char * 類(lèi)型的指針對(duì) demo_text 字符串中的 '@' 字符進(jìn)行定位。
'@' 字符在 demo_text 的末尾。我需要一個(gè)偏移距離,而這個(gè)偏移距離就是 demo_text 字串在 UTF-8 編碼層次上的長(zhǎng)度,通過(guò)這個(gè)偏移距離,我可以從 demo_text 字符串的基地址跳到 '@' 字符的基地址。
GLib 提供了 g_utf8_strlen 函數(shù)計(jì)算 UTF-8 字符串長(zhǎng)度,因此我可以得到從 demo_text 字串的基地址到 '@' 字符基地址的偏移距離:
glong offset = g_utf8_strlen(demo_text, -1);
結(jié)果是 38,恰好是 demo_text 字符串在 UTF-8 編碼層次上的長(zhǎng)度(不含字串結(jié)尾的 null 字符,亦即 '\0' 字符)。
g_utf8_strlen 的原型如下:
glong g_utf8_strlen(const gchar *p, gssize max);
注:glong 即 long,而 gssize 即 signed long。
g_utf8_strlen 第二個(gè)參數(shù) max 的設(shè)定規(guī)則如下:
- 如果它是負(fù)數(shù),那么就假定字符串是以 null 結(jié)尾的(這是 C 字符串常識(shí)),然后統(tǒng)計(jì) UTF-8 字符的個(gè)數(shù)。
- 如果它為 0,就是不檢測(cè)字符串長(zhǎng)度……這個(gè)值純粹是出來(lái)打醬油的。
- 如果它為正數(shù),表示的是字節(jié)數(shù)。g_utf8_strlen 會(huì)按照字節(jié)數(shù)從字符串中截取字節(jié),然后再統(tǒng)計(jì)所截取的字節(jié)對(duì)應(yīng)的 UTF-8 字符的個(gè)數(shù)。
有了偏移距離,就可以在 demo_text 中定位 '@' 字符了,即:
gchar *tail = g_utf8_offset_to_pointer(demo_text, offset - 1);
此時(shí) tail 的值便是 '@' 字符的基地址。
在 UTF-8 文本中游走
現(xiàn)在已經(jīng)獲得了 '@' 的位置,接下來(lái)就是從這個(gè)位置開(kāi)始向左(也就是逆序)遍歷 demo_text 字符串的其它字符。GLib 為此提供了 g_utf8_prev_char 函數(shù):
gchar * g_utf8_prev_char(const gchar *str, const gchar *p);
借助 g_utf8_prev_char 函數(shù)可以從 str 中獲得 p 之前的一個(gè) UTF-8 字符的基地址(p 是當(dāng)前 UTF-8 字符的基地址)。如果 p 與 str 相同,即 p 已經(jīng)指向了字符串的基地址,那么 g_utf8_find_prev_char 會(huì)返回 NULL。
對(duì)于本文要解決的問(wèn)題而言,利用這個(gè)函數(shù),可以寫(xiě)出從 demo_text 中的 '@' 字符所在位置開(kāi)始逆序遍歷 '@' 之前的所有 UTF-8 字符的過(guò)程:
glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (1) {
viewer = g_utf8_prev_char(viewer);
if (viewer != demo_text) {
/* do somthing here */
} else {
break;
}
}
GLib 還提供了一個(gè) g_utf8_next_char,它可以返回當(dāng)前位置的下一個(gè) UTF-8 字符的基地址。
提取 UTF-8 字符
雖然借助 g_utf8_prev_char 與 g_utf8_next_char 可以讓指針在 UTF-8 文本中走動(dòng),但是只能將一個(gè)指針定位到某個(gè) UTF-8 字符的基地址,如果我們想得到這個(gè) UTF-8 字符,就不是那么容易了。
例如
viewer = g_utf8_prev_char(viewer);
此時(shí),雖然可以將 viewer 向前移動(dòng)一個(gè) UTF-8 字符寬度的距離,到達(dá)了一個(gè)新的 UTF-8 字符的基地址,但是如果我想將這個(gè)新的 UTF-8 字符打印出來(lái),像下面這樣做肯定是不行的:
g_print("%s", viewer);
注:g_print 函數(shù)與 C 標(biāo)準(zhǔn)庫(kù)中的 printf 函數(shù)功能基本等價(jià),只不過(guò) g_print 可以借助 g_set_print_handler 函數(shù)實(shí)現(xiàn)輸出的『重定向』。
因?yàn)?g_print 要通過(guò) viewer 打印單個(gè) UTF-8 字符,前提是這個(gè) UTF-8 字符之后需要有個(gè) '\0',這樣就是將一個(gè) UTF-8 字符作為一個(gè)普通的 C 字符串打印了出來(lái)。這個(gè) UTF-8 字符后面不可能有 '\0',除非它是 demo_text 字符串中的最后一個(gè)字符。
要解決這個(gè)問(wèn)題,只能是將 viewer 所指向的 UTF-8 字符相應(yīng)的字節(jié)數(shù)據(jù)提取出來(lái),放到一個(gè)字符數(shù)組或在堆中為其創(chuàng)建存儲(chǔ)空間,然后再打印這個(gè)字符數(shù)組或堆空間中的數(shù)據(jù)。例如:
gchar *new_viewer = g_utf8_next_char(viewer);
sizt_t n = new_viewer - viewer;
gchar *utf8_char = malloc(n + 1);
memcpy(utf8_char, viewer, n);
utf8_char[n] = '\0';
g_print("%s", utf8_char);
free(utf8_char);
這樣顯然太繁瑣了。不過(guò),這意味著我們應(yīng)該寫(xiě)一個(gè)函數(shù)專(zhuān)門(mén)做這件事。這個(gè)函數(shù)可取名為 get_utf8_char,定義如下:
static gchar * get_utf8_char(const gchar *base) {
gchar *new_base = g_utf8_next_char(base);
gsize n = new_base - base;
gchar *utf8_char = g_memdup(base, (n + 1));
utf8_char[n] = '\0';
return utf8_char;
}
借助這個(gè)函數(shù),就可以實(shí)現(xiàn)從 demo_text 的 '@' 所在位置開(kāi)始,逆序打印 '@' 之前的所有 UTF-8 字符:
glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (1) {
gchar outbuf[7] = {'\0'};
viewer = g_utf8_prev_char(viewer);
if (viewer != demo_text) {
gchar *utf8_char = get_utf8_char(viewer);
g_print("%s", utf8_char);
g_free(utf8_char);
} else {
break;
}
}
g_print("\n");
注:g_memdup 等價(jià)于 C 標(biāo)準(zhǔn)庫(kù)中的 malloc + memcpy,而 g_free 則等價(jià)與 C 標(biāo)準(zhǔn)庫(kù)中的 free。
空白字符比較
現(xiàn)在,假設(shè)給定一個(gè) UTF-8 字符 x,怎么判斷它與某個(gè) UTF-8 字符相等?
不要忘記,所謂的一個(gè) UTF-8 字符,本質(zhì)上只不過(guò)是 char * 類(lèi)型的指針引用的一段內(nèi)存空間?;谶@一事實(shí),利用 C 標(biāo)準(zhǔn)庫(kù)提供的 strcmp 函數(shù)即可實(shí)現(xiàn) UTF-8 字符的比較。
下面,我定義了函數(shù) is_space,用它判斷一個(gè) UTF-8 字符是否為空白字符。
static gboolean is_space(const gchar *s) {
gboolean ret = FALSE;
char *space_chars_set[] = {" ", "\t", " "};
size_t n = sizeof(space_chars_set) / sizeof(space_chars_set[0]);
for (size_t i = 0; i < n; i++) {
if (!strcmp(s, space_chars_set[i])) {
ret = TRUE;
break;
}
}
return ret;
}
注:gboolean 是 GLib 定義的布爾類(lèi)型,其值要么是 TRUE,要么是 FALSE。
在 is_space 函數(shù)中,我只是判斷了三種空白字符類(lèi)型——英文空格、中文全角空格以及制表符。
雖然回車(chē)符與換行符也是空白字符,但是為了解決這篇文章開(kāi)始時(shí)提出的問(wèn)題,我需要單獨(dú)為換行符定義一個(gè)判斷函數(shù):
static gboolean is_line_break(const gchar *s) {
return (!strcmp(s, "\n") ? TRUE : FALSE);
}
解決問(wèn)題
現(xiàn)在萬(wàn)事俱備,只欠東風(fēng),我們應(yīng)該著手解決問(wèn)題了。如果讀到此處已經(jīng)忘記了問(wèn)題是什么,那么請(qǐng)回顧第一節(jié)。
盡管下面這段代碼看上去挺丑,但是它能夠解決問(wèn)題。
gboolean is_right_at_sign = TRUE;
glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (viewer != demo_text) {
viewer = g_utf8_prev_char(viewer);
gchar *utf8_char = get_utf8_char(viewer);
if (!is_space(utf8_char)) {
if (!is_line_break(utf8_char)) {
is_right_at_sign = FALSE;
g_free(utf8_char);
break;
} else {
g_free(utf8_char);
break;
}
}
g_free(utf8_char);
}
if (is_right_at_sign) g_print("Right @ !\n");
對(duì)上述代碼略做簡(jiǎn)化,可得:
gboolean is_right_at_sign = TRUE;
glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (viewer != demo_text) {
viewer = g_utf8_prev_char(viewer);
gchar *utf8_char = get_utf8_char(viewer);
if (!is_space(utf8_char)) {
if (!is_line_break(utf8_char)) is_right_at_sign = FALSE;
g_free(utf8_char);
break;
}
g_free(utf8_char);
}
if (is_right_at_sign) g_print("Right @ !\n");
其實(shí),如果將 UTF-8 字符的提取與內(nèi)存釋放過(guò)程置入 is_space 與 is_line_break 函數(shù),即:
static gboolean is_space(const gchar *c) {
gboolean ret = FALSE;
gchar *utf8_char = get_utf8_char(c);
char *space_chars_set[] = {" ", "\t", " "};
size_t n = sizeof(space_chars_set) / sizeof(space_chars_set[0]);
for (size_t i = 0; i < n; i++) {
if (!strcmp(utf8_char, space_chars_set[i])) {
ret = TRUE;
break;
}
}
g_free(utf8_char);
return ret;
}
static gboolean is_line_break(const gchar *c) {
gboolean ret = FALSE;
gchar *utf8_char = get_utf8_char(c);
if (!strcmp(utf8_char, "\n")) ret = TRUE;
g_free(utf8_char);
return ret;
}
可以得到進(jìn)一步的簡(jiǎn)化結(jié)果:
gboolean is_right_at_sign = TRUE;
glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (viewer != demo_text) {
viewer = g_utf8_prev_char(viewer);
if (!is_space(viewer)) {
if (!is_line_break(viewer)) is_right_at_sign = FALSE;
break;
}
}
if (is_right_at_sign) g_print("Right @ !\n");
附:完整的代碼
#include <string.h>
#include <glib.h>
gchar *demo_text =
"我的 C81 每天都在口袋里\n"
" @";
static gchar * get_utf8_char(const gchar *base) {
gchar *new_base = g_utf8_next_char(base);
gsize n = new_base - base;
gchar *utf8_char = g_memdup(base, (n + 1));
utf8_char[n] = '\0';
return utf8_char;
}
static gboolean is_space(const gchar *c) {
gboolean ret = FALSE;
gchar *utf8_char = get_utf8_char(c);
char *space_chars_set[] = {" ", "\t", " "};
size_t n = sizeof(space_chars_set) / sizeof(space_chars_set[0]);
for (size_t i = 0; i < n; i++) {
if (!strcmp(utf8_char, space_chars_set[i])) {
ret = TRUE;
break;
}
}
g_free(utf8_char);
return ret;
}
static gboolean is_line_break(const gchar *c) {
gboolean ret = FALSE;
gchar *utf8_char = get_utf8_char(c);
if (!strcmp(utf8_char, "\n")) ret = TRUE;
g_free(utf8_char);
return ret;
}
int main(void) {
gboolean is_right_at_sign = TRUE;
glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (viewer != demo_text) {
viewer = g_utf8_prev_char(viewer);
if (!is_space(viewer)) {
if (!is_line_break(viewer)) is_right_at_sign = FALSE;
break;
}
}
if (is_right_at_sign) g_print("Right @ !\n");
return 0;
}
若是在 Bash 中使用 gcc 編譯這份代碼,可使用以下命令:
$ gcc `pkg-config --cflags --libs glib-2.0` utf8-demo.c -o utf8-demo
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
相關(guān)文章
C語(yǔ)言數(shù)組實(shí)現(xiàn)打磚塊游戲
這篇文章主要為大家詳細(xì)介紹了C語(yǔ)言數(shù)組實(shí)現(xiàn)打磚塊游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-05-05
c++連接mysql數(shù)據(jù)庫(kù)的兩種方法(ADO連接和mysql api連接)
現(xiàn)在正做一個(gè)接口,通過(guò)不同的連接字符串操作不同的數(shù)據(jù)庫(kù)。要用到mysql數(shù)據(jù)庫(kù),C++連接mysql有2種方法:利用ADO連接、利用mysql自己的api函數(shù)進(jìn)行連接,下面看看如何用吧2013-12-12
C語(yǔ)言 詳細(xì)講解接續(xù)符和轉(zhuǎn)義符的使用
接續(xù)符是用來(lái)告訴編譯器行為的符號(hào),那編譯器遇到接續(xù)符是什么行為呢,就是去掉接續(xù)符,然后把下一行連接到現(xiàn)在這行上面,轉(zhuǎn)義符是主要用于表示無(wú)回顯字符,也用于表示常規(guī)字符,轉(zhuǎn)義符必須放在單引號(hào)或者雙引號(hào)里面2022-04-04
C語(yǔ)言中動(dòng)態(tài)內(nèi)存管理初學(xué)者容易犯的6個(gè)錯(cuò)誤分享
本篇文章主要介紹了初學(xué)者使用C語(yǔ)言中動(dòng)態(tài)內(nèi)存管理的4個(gè)函數(shù)時(shí)最容易犯的6個(gè)錯(cuò)誤,以及如何避免這些錯(cuò)誤,文中的示例代碼講解詳細(xì),感興趣的可以了解一下2023-04-04
形參出現(xiàn)在函數(shù)定義中,在整個(gè)函數(shù)體內(nèi)都可以使用, 離開(kāi)該函數(shù)則不能使用。實(shí)參出現(xiàn)在主調(diào)函數(shù)中,進(jìn)入被調(diào)函數(shù)后,實(shí)參變量也不能使用,形參和實(shí)參的功能是作數(shù)據(jù)傳送。發(fā)生函數(shù)調(diào)用時(shí), 主調(diào)函數(shù)把實(shí)參的值傳送給被調(diào)函數(shù)的形參從而實(shí)現(xiàn)主調(diào)函數(shù)向被調(diào)函數(shù)的數(shù)據(jù)傳送2023-02-02
C++類(lèi)模板實(shí)戰(zhàn)之vector容器的實(shí)現(xiàn)
本文我們將做一個(gè)類(lèi)模板實(shí)戰(zhàn)-手寫(xiě)精簡(jiǎn)版vector容器。讓我們自己封裝一個(gè)數(shù)組類(lèi),可以適應(yīng)基本數(shù)據(jù)類(lèi)型和自定義數(shù)據(jù)類(lèi)型,感興趣的可以了解一下2022-07-07
C語(yǔ)言開(kāi)發(fā)中的常見(jiàn)錯(cuò)誤詳解
這個(gè)分欄是對(duì)于使用C語(yǔ)言編程過(guò)程中可能會(huì)出現(xiàn)的一些錯(cuò)誤而進(jìn)行的說(shuō)明,更多的錯(cuò)誤示例將會(huì)在后面的內(nèi)容里進(jìn)行演示。希望這個(gè)分欄的內(nèi)容可以幫助剛學(xué)編程的小白少走一些彎路,以及吸取更多的編碼經(jīng)驗(yàn)2022-05-05
VS Code C/C++環(huán)境配置教程(無(wú)法打開(kāi)源文件“xxxxxx.h”或者檢測(cè)到 #include 錯(cuò)誤,請(qǐng)更新in
這篇文章主要介紹了VS Code C/C++環(huán)境配置教程(無(wú)法打開(kāi)源文件“xxxxxx.h” 或者 檢測(cè)到 #include 錯(cuò)誤。請(qǐng)更新includePath) (POSIX API),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-08-08

