java獲取一個(gè)文本文件的編碼(格式)信息
前言:
文本文件是我們?cè)趙indows平臺(tái)下常用的一種文件格式,
這種格式會(huì)隨著操作系統(tǒng)的語(yǔ)言不同,而出現(xiàn)其默認(rèn)的編碼不同
那么如何使用程序獲取“文本文件”的編碼方式呢?
文件編碼的格式?jīng)Q定了文件可存儲(chǔ)的字符類型,所以得到文件的類型至關(guān)重要
下文筆者講述獲取一個(gè)文本文件的格式信息的方法分享,如下所示:
現(xiàn)思路:
- 通過獲取文件流的前3個(gè)字節(jié)
- 判斷其值的方式,即可獲取文本文件的編碼方式
例:
package com.java265.other;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class Test {
/*
* java265.com 獲取文本文件的編碼方式
*
**/
public static void main(String[] args) {
File file = new File("E://person/java265.com/java.txt");
System.out.println(GetEncoding(file));
}
public static String GetEncoding(File file)
{
String charset = "GBK";
byte[] first3Bytes = new byte[3];
try {
boolean checked = false;
InputStream is = new FileInputStream(file);
int read = is.read(first3Bytes, 0, 3);
if (read == -1)
return charset;
if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) {
charset = "UTF-16LE";
checked = true;
} else if (first3Bytes[0] == (byte) 0xFE
&& first3Bytes[1] == (byte) 0xFF) {
charset = "UTF-16BE";
checked = true;
} else if (first3Bytes[0] == (byte) 0xEF
&& first3Bytes[1] == (byte) 0xBB
&& first3Bytes[2] == (byte) 0xBF) {
charset = "UTF-8";
checked = true;
}else if (first3Bytes[0] == (byte) 0xA
&& first3Bytes[1] == (byte) 0x5B
&& first3Bytes[2] == (byte) 0x30) {
charset = "UTF-8";
checked = true;
}else if (first3Bytes[0] == (byte) 0xD
&& first3Bytes[1] == (byte) 0xA
&& first3Bytes[2] == (byte) 0x5B) {
charset = "GBK";
checked = true;
}else if (first3Bytes[0] == (byte) 0x5B
&& first3Bytes[1] == (byte) 0x54
&& first3Bytes[2] == (byte) 0x49) {
charset = "windows-1251";
checked = true;
}
//bis.reset();
InputStream istmp = new FileInputStream(file);
if (!checked) {
int loc = 0;
while ((read = istmp.read()) != -1) {
loc++;
if (read >= 0xF0)
break;
if (0x80 <= read && read <= 0xBF)
break;
if (0xC0 <= read && read <= 0xDF) {
read = istmp.read();
if (0x80 <= read && read <= 0xBF)
continue;
else
break;
} else if (0xE0 <= read && read <= 0xEF) {
read = istmp.read();
if (0x80 <= read && read <= 0xBF) {
read = istmp.read();
if (0x80 <= read && read <= 0xBF) {
charset = "UTF-8";
break;
} else
break;
} else
break;
}
}
}
is.close();
istmp.close();
} catch (Exception e) {
e.printStackTrace();
}
return charset;
}
}到此這篇關(guān)于java獲取一個(gè)文本文件的編碼(格式)信息的文章就介紹到這了,更多相關(guān)java獲取文本編碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
淺談Mybatis+mysql 存儲(chǔ)Date類型的坑
這篇文章主要介紹了淺談Mybatis+mysql 存儲(chǔ)Date類型的坑,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-11-11
SpringBoot中@Conditional注解的介紹及實(shí)踐
在 Spring Boot 中,@Conditional 注解用于實(shí)現(xiàn) 條件化 Bean 裝配,本文將詳細(xì)介紹 @Conditional 相關(guān)的注解,并結(jié)合實(shí)際應(yīng)用示例講解其使用方式,感興趣的小伙伴可以了解下2025-03-03
詳解利用SpringMVC攔截器控制Controller返回值
這篇文章主要介紹了詳解利用SpringMVC攔截器控制Controller返回值,通過定義一個(gè)StringResult注解,在訪問方法的時(shí)候返回StringResult中的內(nèi)容,有興趣的可以了解一下。2017-01-01
SpringBoot中@ConditionalOnProperty注解的使用方法詳解
這篇文章主要介紹了SpringBoot中@ConditionalOnProperty注解的使用方法詳解,在開發(fā)基于SpringBoot框架的項(xiàng)目時(shí),會(huì)用到下面的條件注解,有時(shí)會(huì)有需要控制配置類是否生效或注入到Spring上下文中的場(chǎng)景,可以使用@ConditionalOnProperty注解來控制,需要的朋友可以參考下2024-01-01

