java 實(shí)現(xiàn)文件編碼檢測(cè)的幾種方式匯總
一、前言
在實(shí)際開發(fā)中,我們常常涉及某些場(chǎng)景需要對(duì)文件的讀取,但是因?yàn)椴恢谰唧w的編碼格式,導(dǎo)致讀取到的文件內(nèi)容亂碼,因此在讀取文件內(nèi)容之前,需要解析獲取文件的編碼,這樣讀取的內(nèi)容就不會(huì)出現(xiàn)亂碼了,下面是常見的幾種獲取文件編碼的方式。
二、java實(shí)現(xiàn)獲取文件編碼的幾種方式。
1.引入第三方依賴庫(kù)juniversalchardet實(shí)現(xiàn)編碼獲取。
(1)首先添加juniversalchardet Maven依賴。
<dependency>
<groupId>com.github.albfernandez</groupId>
<artifactId>juniversalchardet</artifactId>
<version>2.4.0</version>
</dependency>(2)定義一個(gè)FileEncodeUtils類。
import org.mozilla.universalchardet.UniversalDetector;
import java.io.*;
import java.nio.charset.Charset;
import java.util.Objects;
public static Charset getCharset(File file) {
try (InputStream in = new FileInputStream(file)) {
String encoding = UniversalDetector.detectCharset(in);
if (encoding != null) {
return Charset.forName(encoding);
}
} catch (Exception e) {
e.printStackTrace();
}
return Charset.defaultCharset();
}
public static void main(String[] args) {
File file = new File("D:\\111.csv");
System.err.println(getCharset(file).name());
}運(yùn)行下main方法就可以獲取對(duì)應(yīng)的文件編碼了。
2.使用hutool工具包獲取文件編碼。
(1).添加maven依賴
<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-all</artifactId>
</dependency>(2)定義一個(gè)方法獲取文件編碼。
public static Charset getFileCharset(File file) {
try (InputStream in = new FileInputStream(file);
ByteArrayOutputStream baos = new ByteArrayOutputStream()) {
//最多循環(huán)3次,每次2kb,主要是防止一次不能獲取到編碼
int cycleNum = 0;
Charset charset = null;
byte[] buffer = new byte[4096];
int len;
while (cycleNum < 3 && (len = in.read(buffer)) > -1) {
baos.write(buffer, 0, len);
baos.flush();
cycleNum++;
charset = CharsetDetector.detect(1024 * cycleNum, new ByteArrayInputStream(baos.toByteArray()), null);
if (Objects.nonNull(charset)) {
break;
}
}
if (charset != null) {
} else {
return Charset.defaultCharset();
}
return charset;
} catch (Exception e) {
//使用默認(rèn)編碼utf-8
return Charset.defaultCharset();
}
}
public static void main(String[] args) {
File file = new File("D:\\111.csv");
System.err.println(getFileCharset(file).name());
}
運(yùn)行main方法即可獲取編碼。
3.基于 Java 原生 API獲取編碼
(1)通過(guò) InputStreamReader 獲取文件編碼。
public static Charset getCharset(File file) {
try (InputStream in = new FileInputStream(file);
InputStreamReader isr = new InputStreamReader(in)) {
String encoding = isr.getEncoding(); // 返回當(dāng)前流的編碼(如 "UTF8")
if (encoding != null) {
return Charset.forName(encoding);
}
} catch (Exception e) {
e.printStackTrace();
}
return Charset.defaultCharset();
}
public static void main(String[] args) {
File file = new File("D:\\111.csv");
System.err.println(getCharset(file).name());
}這個(gè)不需要依賴第三方包,但僅適用于流未被修改且編碼已知的場(chǎng)景,對(duì)未知編碼可能返回默認(rèn)值(如系統(tǒng)編碼)。
4.手動(dòng)解析字節(jié)特征判斷是否是utf8。
/**
* 判斷文件內(nèi)容是否為 UTF-8 編碼
* @author
*/
public static boolean checkUTF8(InputStream fis) {
//請(qǐng)注意fis是流,是不能復(fù)用的!
try {
while (true) {
int curr = fis.read();
if (curr == -1) {
return true;
}
if (curr < 0x80) {// (10000000): 值小于0x80的為ASCII字符
return false;
} else if (curr < (0xC0)) { // (11000000): 值介于0x80與0xC0之間的為無(wú)效UTF-8字符
return false;
} else if (curr < (0xE0)) { // (11100000): 此范圍內(nèi)為2字節(jié)UTF-8字符
if ((fis.read() & (0xC0)) != 0x80) {
return false;
}
return true;
} else if (curr < (0xF0)) { // (11110000): 此范圍內(nèi)為3字節(jié)UTF-8字符
if ((fis.read() & (0xC0)) != 0x80 || (fis.read() & (0xC0)) != 0x80) {
return false;
}
return true;
} else {
return false;
}
}
} catch (IOException e) {
return true;
}
}這種方式可以簡(jiǎn)單判斷是否為utf-8編碼,但實(shí)現(xiàn)復(fù)雜,需編碼知識(shí),一般不推薦。
總結(jié):
1.第三方庫(kù)juniversalchardet 準(zhǔn)確性高(需足夠數(shù)據(jù)支撐統(tǒng)計(jì)分析),同時(shí)由于局限性:可能由于訓(xùn)練數(shù)據(jù)或算法原因,對(duì)某些GBK變體支持不足。
2.Hutool CharsetDetector實(shí)現(xiàn)較為基礎(chǔ),如通過(guò) BOM 頭或 ASCII 范圍快速判斷,缺乏復(fù)雜編碼的統(tǒng)計(jì)分析能力。適用于簡(jiǎn)單場(chǎng)景(如明確已知 UTF-8 或 ASCII 編碼)以及快速開發(fā)且對(duì)編碼檢測(cè)精度要求不高時(shí)。
到此這篇關(guān)于java 實(shí)現(xiàn)文件編碼檢測(cè)的幾種方式匯總的文章就介紹到這了,更多相關(guān)java文件編碼檢測(cè)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Spring框架學(xué)習(xí)筆記之方法注解@Bean的使用
這篇文章主要給大家介紹了關(guān)于Spring框架學(xué)習(xí)筆記之方法注解@Bean使用的相關(guān)資料,這是一個(gè)我們很常用的注解,作用是指示一個(gè)方法生成一個(gè)由Spring管理的Bean,文中通過(guò)代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-12-12
java簡(jiǎn)單網(wǎng)頁(yè)抓取的實(shí)現(xiàn)方法
這篇文章主要介紹了java簡(jiǎn)單網(wǎng)頁(yè)抓取的實(shí)現(xiàn)方法,詳細(xì)分析了與Java網(wǎng)頁(yè)抓取相關(guān)的tcp及URL相關(guān)概念,以及對(duì)應(yīng)的類文件原理,具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2014-12-12
java批量采集豌豆莢網(wǎng)站Android應(yīng)用圖標(biāo)和包名
這篇文章主要介紹了java批量采集豌豆莢網(wǎng)站Android應(yīng)用圖標(biāo)和包名,主要用在做主題時(shí)替換這些常見應(yīng)用的圖片,需要的朋友可以參考下2014-06-06
Java?8?的異步編程利器?CompletableFuture的實(shí)例詳解
這篇文章主要介紹了Java?8?的異步編程利器?CompletableFuture?詳解,本文通過(guò)一個(gè)例子給大家介紹下Java?8??CompletableFuture異步編程的相關(guān)知識(shí),需要的朋友可以參考下2022-03-03
Java多線程編程中的并發(fā)安全問(wèn)題及解決方法
保障多線程并發(fā)安全,解決線程同步與鎖競(jìng)爭(zhēng)問(wèn)題,提高應(yīng)用性能與可靠性。多線程編程需要考慮線程安全性,使用同步機(jī)制保證共享變量的一致性,避免線程競(jìng)爭(zhēng)導(dǎo)致的數(shù)據(jù)不一致與死鎖等問(wèn)題。常用的同步機(jī)制包括synchronized、ReentrantLock、volatile等2023-04-04

