C#中字符串編碼處理
GB2312是簡(jiǎn)體中文系統(tǒng)的標(biāo)準(zhǔn)編碼 用“區(qū)” 跟“位”的概念表示 稱之為區(qū)位碼
區(qū)指代大的范圍 位相當(dāng)于偏移量。
每個(gè)漢字占兩個(gè)字節(jié)
高位字節(jié)”的范圍是0xB0-0xF7,“低位字節(jié)”的范圍是0xA1-0xFE。
它的規(guī)律好像是按拼音a到z的順序排列的
“啊”字是GB2312之中的第一個(gè)漢字,它的區(qū)位碼就是1601
為此我們現(xiàn)在用代碼的方式輸出一個(gè)漢字
c#下是little字節(jié)序 b0跑后面去了。
ushort u = 0xa1b0;
byte[] chs =BitConverter.GetBytes(u);
Console.Write(Encoding.GetEncoding("GB2312").GetString(chs));
屏幕上輸出的是漢字“啊”
但是注意并不代表 寫個(gè)循環(huán)從0xbA1 到0xf7fe就可以輸出所有的漢字,這個(gè)很簡(jiǎn)單比如高位從1到9 低位從1到9 只有81種組合。
并不代表99-11就是結(jié)果 這么二的問題 暈。實(shí)際上通過(guò)這種方式漢字的個(gè)數(shù)總共是6768個(gè),理解了區(qū)位碼的概念后你就知道怎樣去處理gb2312的漢字編碼了。
下面我們就用這種方式來(lái)輸出所有的漢字
//gb2312
//B0-F7,低字節(jié)從A1-FE
//byte hi = 0xB0;
//byte lo = 0xA1;
for (byte i = 0xB0; i <= 0xF7; i++)
{
for (byte j = 0xA1; j <= 0xFE; j++)
{
//byte t = (byte)(j | (byte)0x01);
Console.Write(Encoding.GetEncoding("GB2312").GetString(new byte[] { i, j }));
}
}

關(guān)于GB2312的解釋:http://www.dhdzp.com/article/34630.htm
ASCII是美國(guó)信息交換標(biāo)準(zhǔn)碼 他是從0~127,一個(gè)字節(jié)8位最高是255 就是說(shuō)一個(gè)字節(jié)都用不完。
GB2312里也有字母 稱之為全角字符 ,gb2312里也包括ascii碼稱之為半角字符。
全角字符看上去怪怪的 感覺有點(diǎn)不一樣 就像這樣 全角: A半角:A 全角:a 半角:a
全角字符除了在文字系統(tǒng)里用到?jīng)]什么實(shí)際作用。
全角字符的第一個(gè)字節(jié)總是被置為163,而第二個(gè)字節(jié)則是相同半角字符碼加上128(不包括空格)。
如半角A為65,則全角A則是163(第一個(gè)字節(jié))、193(第二個(gè)字節(jié),128+65)。
知道這個(gè)規(guī)律 那么我們也可以遍歷處所有ascii對(duì)應(yīng)的全角字符:
/**
*實(shí)際上,全角字符的第一個(gè)字節(jié)總是被置為163,
*而第二個(gè)字節(jié)則是相同半角字符碼加上128(不包括空格)。
*如半角A為65,則全角A則是163(第一個(gè)字節(jié))、193(第二個(gè)字節(jié),128+65)。
*/
for (byte k = 0x00; k < 0x7f; k++)
{
byte[] ch = new byte[2];
ch[0] = 163;
ch[1] = (byte)(128 + k);
Console.Write(Encoding.GetEncoding("GB2312").GetString(ch));
}

winXp下文本文件默認(rèn)的保存編碼是ansi ,注意 這個(gè)ansi 他的概念跟GB2312又有不同,除此之外還有unicode 、utf-8
他們之間的關(guān)系是:
不同的國(guó)家和地區(qū)制定了不同的標(biāo)準(zhǔn),由此產(chǎn)生了 GB2312, BIG5, JIS 等各自的編碼標(biāo)準(zhǔn)。
這些使用 2 個(gè)字節(jié)來(lái)代表一個(gè)字符的各種漢字延伸編碼方式,稱為 ANSI 編碼。
在簡(jiǎn)體中文系統(tǒng)下,ANSI 編碼代表 GB2312 編碼,在日文操作系統(tǒng)下,ANSI 編碼代表 JIS 編碼
C#進(jìn)行文本讀取時(shí)新同學(xué)最容易出現(xiàn)不理解為什么文本文件讀取時(shí)是亂碼
StreamReader sr = new StreamReader(Application.StartupPath + @"\config.txt");
string line;
while ((line = sr.ReadLine()) != null)
{
Console.WriteLine(line);
}
因?yàn)樽x取的方式 也就是解碼的方式跟文本存儲(chǔ)時(shí)不一樣,所以初始化streamReader時(shí)最好指定編碼,Default即ANSI
StreamReader sr = new StreamReader(Application.StartupPath + @"\config.txt", System.Text.Encoding.Default);
相關(guān)文章
c# NPOI 如何在指定單元格導(dǎo)入導(dǎo)出圖片
這篇文章主要介紹了c# NPOI 如何在指定單元格導(dǎo)入導(dǎo)出圖片,幫助大家更好的理解和學(xué)習(xí)使用c#,感興趣的朋友可以了解下2021-03-03
C#通過(guò)子窗體刷新父窗體的實(shí)現(xiàn)方法
在一些軟件,比如,進(jìn)銷存管理系統(tǒng)中添加銷售單信息時(shí),每個(gè)銷售單都可能對(duì)應(yīng)多種商品,而且在向銷售單中添加商品時(shí),一般都是在新彈出的窗體中選擇商品,這時(shí)就涉及通過(guò)子窗體刷新父窗體的問題,本文給大家介紹了C#通過(guò)子窗體刷新父窗體的實(shí)現(xiàn)方法,需要的朋友可以參考下2024-04-04
基于WPF簡(jiǎn)單實(shí)現(xiàn)Meesage消息提醒
這篇文章主要介紹了如何利用WPF簡(jiǎn)單實(shí)現(xiàn)Meesage消息提醒,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)或工作有一定幫助,需要的可以參考一下2023-07-07
Unity3D控件Easytouch控制主角移動(dòng)
這篇文章主要為大家詳細(xì)介紹了Unity3D控件Easytouch控制主角移動(dòng),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-02-02
C#實(shí)現(xiàn)讀取和設(shè)置文件與文件夾的權(quán)限
這篇文章主要為大家詳細(xì)介紹了如何使用C#實(shí)現(xiàn)讀取和設(shè)置文件與文件夾的權(quán)限,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2024-03-03
C#實(shí)現(xiàn)把圖片轉(zhuǎn)換成二進(jìn)制以及把二進(jìn)制轉(zhuǎn)換成圖片的方法示例
這篇文章主要介紹了C#實(shí)現(xiàn)把圖片轉(zhuǎn)換成二進(jìn)制以及把二進(jìn)制轉(zhuǎn)換成圖片的方法,結(jié)合具體實(shí)例形式分析了基于C#的圖片與二進(jìn)制相互轉(zhuǎn)換以及圖片保存到數(shù)據(jù)庫(kù)的相關(guān)操作技巧,需要的朋友可以參考下2017-06-06

