java读取txt文件解决乱码问题

发布日期：2023-07-30 18:34:30 来源：博客园

(资料图)

说明：由于txt文件有bom和不同的编码方式，导致导入数据时产生乱码，以下代码完美解决乱码问题。参考他人代码，结合自己的业务加工完成，费了大半天功夫完成，希望对大家有点用处。废话不多说，直接上代码：

/**     * 从txt文件流读取数据     *     * @param txtStream     * @return     * @throws IOException     */    public static List readFromTxt(InputStream txtStream) throws IOException {        List paragraphList = new ArrayList<>();        LabelValuePair result = getStreamCharset(txtStream);        Charset cs = result.getValue();        BOMInputStream bomInputStream = new BOMInputStream(result.getLabel());        boolean hasBom = bomInputStream.hasBOM();        InputStreamReader sr = hasBom ?                new InputStreamReader(bomInputStream, Charset.forName(bomInputStream.getBOMCharsetName())) :                new InputStreamReader(bomInputStream, cs);        BufferedReader br = new BufferedReader(sr);        String line = null;        Integer lineIndex = 0;        while ((line = br.readLine()) != null) {            if (!hasBom && lineIndex == 0) {                lineIndex++;                if (StringUtils.isNotEmpty(line)) {                    byte[] bts = line.getBytes(cs);                    if ((bts[0] == -1 && bts[1] == -2) || bts[0] == -2 && bts[1] == -1) {                        byte[] newBts = new byte[bts.length - 2];                        for (int i = 2; i < bts.length; i++) {                            newBts[i - 2] = bts[i];                        }                        line = new String(newBts, cs);                    }                }            }            if (StringUtils.isNotEmpty(line) && StringUtils.isNotEmpty(line.trim())) {                paragraphList.add(line);                log.info("读取数据：{}，长度：{}，value：{}", line, line.trim().length(), line.getBytes(cs));            }        }        br.close();        sr.close();        return paragraphList;    } /**     * 判断获取字节流 编码格式，主要用于txt文件内容读取     * 再次读取流，使用返回结果中的流     *     * @param stream     * @return     */    public static LabelValuePair getStreamCharset(InputStream stream) throws IOException {        LabelValuePair result = readSteam(stream, true);        byte[] buffer = result.getValue();        if (buffer.length < 2)            return new LabelValuePair<>(result.getLabel(), CharsetKit.CHARSET_GBK);        String encode = getFileCharSet(new BufferedInputStream(new ByteArrayInputStream(result.getValue())));// getBytesCharset(buffer);        return new LabelValuePair<>(result.getLabel(), CharsetKit.charset(encode));    }  /**     * 判断txt编码格式方法     *     * @param bis     * @return     */    public static String getFileCharSet(BufferedInputStream bis) {        String charset = "GBK";        byte[] first3Bytes = new byte[3];        try {            boolean checked = false;            bis.mark(0);            int read = bis.read(first3Bytes, 0, 3);            if (read == -1) {                return charset; //文件编码为 ANSI            } else if (first3Bytes[0] == (byte) 0xFF                    && first3Bytes[1] == (byte) 0xFE) {                charset = "UTF-16LE"; //文件编码为 Unicode                checked = true;            } else if (first3Bytes[0] == (byte) 0xFE                    && first3Bytes[1] == (byte) 0xFF) {                charset = "UTF-16BE"; //文件编码为 Unicode big endian                checked = true;            } else if (first3Bytes[0] == (byte) 0xEF                    && first3Bytes[1] == (byte) 0xBB                    && first3Bytes[2] == (byte) 0xBF) {                charset = "UTF-8"; //文件编码为 UTF-8                checked = true;            }            bis.reset();            if (!checked) {                int loc = 0;                while ((read = bis.read()) != -1) {                    loc++;                    if (read >= 0xF0)                        break;                    if (0x80 <= read && read <= 0xBF) // 单独出现BF以下的，也算是GBK                        break;                    if (0xC0 <= read && read <= 0xDF) {                        read = bis.read();                        if (0x80 <= read && read <= 0xBF) // 双字节 (0xC0 - 0xDF)                            // (0x80                            // - 0xBF),也可能在GB编码内                            continue;                        else                            break;                    } else if (0xE0 <= read && read <= 0xEF) {// 也有可能出错，但是几率较小                        read = bis.read();                        if (0x80 <= read && read <= 0xBF) {                            read = bis.read();                            if (0x80 <= read && read <= 0xBF) {                                charset = "UTF-8";                                break;                            } else                                break;                        } else                            break;                    }                }            }            bis.close();        } catch (Exception e) {            log.error("获取文件编码方式异常", e);        }        return charset;    }    /**     * 读取流     *     * @param inputStream 输入流     * @param isRepeat    是否重复读取     * @return     */    public static LabelValuePair readSteam(InputStream inputStream, boolean isRepeat) throws IOException {        ByteArrayOutputStream outSteam = new ByteArrayOutputStream();        byte[] buffer = new byte[1024];        int len = -1;        inputStream.mark(0);        while ((len = inputStream.read(buffer)) != -1) {            outSteam.write(buffer);        }        byte[] fs = outSteam.toByteArray();        outSteam.close();        inputStream.close();        InputStream newSteam = null;        if (isRepeat) {            newSteam = new ByteArrayInputStream(fs);        }        return new LabelValuePair<>(newSteam, fs);    }

标签：

上一篇:行政诉讼开庭审理后是不是会公开判决 下一篇:行政诉讼开庭审理后是不是会公开判决

签注恢复在即旅游业摩拳港澳游

阳坤公司创始人孟祥坤：做世人买得起、用着好的家用医疗器械

盈盛控股乔迎宾：不显山露水潜心打造“智能办公”

郑州聚诚医院院长楚天元：大医精诚演绎“骨科风云”

中沃防火门马忠良：前半生守国门后半生护家门

行业动态更多>>

天天观察：华熙生物: 华熙生物关于使用部分闲置募集资金进行现金管理的公告

x 广告

java读取txt文件解决乱码问题

java读取txt文件解决乱码问题

说明：由于txt文件有bom和不同的编码方式，导致导入数据时产生乱码，以

行政诉讼开庭审理后是不是会公开判决

一、行政诉讼开庭审理后是不是会公开判决人民法院对公开审理和不公开审

纪委通报！一县24个乡镇为何都在同一个打印店花钱？因为是某官员儿子开的

7月29日，湖南岳阳市纪委监委在微信公众号上通报了近年来查处的5起领导

2023年空气炸锅行业发展分析 未来市场规模整体呈下降趋势

近年来，空气炸锅、早餐机、煮蛋器等小巧、精致的厨房小家电，在“Z世

水利部人力资源研究院 关于水利部人力资源研究院介绍

1、水利部人力资源研究院，依托河海大学人力资源研究中心组建，揭牌仪

乘客推搡打骂司机，东营公交集团通报：乘客已被带至派出所调查处理

据东营公交集团官微消息，7月29日，山东省东营公交集团就乘客推搡打骂

河北升级重大气象灾害（暴雨）应急响应至Ⅰ级

根据河北省气象台最新发布的天气预报和暴雨红色预警信号，结合河北省降

三国志战略版武将排行，三国志战略版T0武将强度榜

《三国志：战略版》是一款备受相声艺术家郭德纲推崇的游戏，它以真实的

29号直播带货日榜：疯狂小杨哥登抖音榜首，快手李闪闪Jeremy销量第一

【直播带货日榜】是鞭牛士和三言科技推出的多个平台达人每日直播带货榜

专科学校在湖南排名 湖南专科学校排名2022最新排名

今天，大学路小编为大家带来了专科学校在湖南排名湖南专科学校排名2022

上海航运交易所：受台风“杜苏芮”影响 本周沿海散货运输市场涨跌不一

每经AI快讯，上海航运交易所7月29日发布沿海（散货）运输市场周度报告

三星手机5885（5830三星手机）

来为大家解答以上问题，三星手机5885，5830三星手机很多人还不知道，现

（图文互动）台风“杜苏芮”已造成福建88万余人受灾

记者29日从福建省防汛抗旱指挥部获悉，截至7月29日8时，台风“杜苏芮”

T1大战榜首KT，Zeus贡献离谱操作，Faker缺席后战绩1胜7负！

T1大战榜首KT，Zeus贡献离谱操作，Faker缺席后战绩1胜7负！,kt,lck,zeus,faker

迷你主机惊现价格屠夫：i7仅需2999元

前几天，Intel宣布放弃迷你电脑NUC业务，将其授权给华硕接手。尽管Inte

第五人格IVL：GG_xawm两局四抓，帮助队伍二比零战胜WBG！

成都GG的求生者选择了杂技演员、佣兵、古董商、“心理学家”；WBG的监

梦幻诛仙手游怎么卡级_梦幻诛仙要点卡吗

梦幻诛仙手游怎么卡级，梦幻诛仙要点卡吗这个很多人还不知道,现在让我

气象专家分析本轮极端降水特点：台风等因素叠加，致灾风险高

受“杜苏芮”残余环流继续北上影响，华北、黄淮等地将有极端强降雨过程

国家税务局：卖房可免增值税，买房可免契税

近日，国家税务总局发布《支持协调发展税费优惠政策指引》及《支持共享

罗曼股份：为成都打造大运会特色夜景灯光

罗曼股份消息，公司作为国内领先的城市景观照明整体解决方案提供商，充

冷柜温控器APP小程序

冷柜温控器APP 小程序：重新定义冷链管理： 在现代社会，冷链物流管

欧央行“九连加”难解通胀压力

欧央行“九连加”难解通胀压力

合肥园区动物保护小分队第二次暑期实践

“理论是实践的眼睛，而实践检验真理。”7月26日，“合肥园区动物保护

国家防总对京津冀晋鲁豫启动防汛三级应急响应

央视新闻客户端报道国家防总决定于7月29日12时将针对北京、天津、河北

山塘街开出5条非遗研学线路

山塘街开出5条非遗研学线路

中国大学生体育代表团夺成都大运会首金，教育部发来贺信

271亿收购告吹：迈凌科技突然宣布终止收购 慧荣股东否认隐瞒

经济日报携手京东发布数据——个性化服务消费加快兴起

湖南日报｜湖南数字乡村试点在邵阳启动 打造数字乡村建设“湖南样板”

阿斯利康首席财务官发声：地缘政治未影响在华业务

老头乐“一哥”雷丁汽车实名举报县委书记，结果如何？

新生代奥特曼中你认为称得上颜值巅峰的形态真特利迦确实很帅

举例子的好处10字（举例子的好处是什么）

防范电信诈骗，传递金融之声

美国邀84国开会，中国代表不在列，拜登用取消制裁，换中国的点头

世界气象组织：7月预计将成为有气象记录以来最热月份

智能盒子销量暴跌！苹果小米都救不回来？

暴雨来袭！民警紧急帮助群众转运物资

2023贺州非法行医罪定罪标准如何规定

避暑度假到贵州丨7月，避开炎热，到贵州过一个凉爽的夏天！

如何挑翡翠手镯（翡翠镯子怎么看品质）

创新条例修正公听会 期待打造新“护国神山”

延津警方全力维护夏季治安社会秩序稳定

荣盛发展今日涨停 作手新一席位净买入1.14亿元

SMM日评：金属内外分化 铁矿跌近3% 沪锡跌1.91%

联想yoga27一体机循环自动重启解决方法

高质量发展调研行丨山东海阳：崛起一座商业航天海上发射母港

一大波造车新势力停产或在浑水摸鱼，盘点那些值得避雷的品牌！

福州特色菜（福州的特色菜有哪些）

大运会遇上三星堆！超燃国风MV太安逸了

武汉市中医医院：五代妇科专家传承 中西医结合薪火相传

台风“杜苏芮”登陆福建晋江沿海 中国气象局：需做好灾害防御和应对

C视觉·遥望雪山丨喜迎大运 今日份成都雪山朝霞请查收！

ETF基金日报（7月27日）丨旅游类ETF涨幅居前 机构预计下半年旅游业前景继续向好

2023年空气炸锅行业发展分析未来市场规模整体呈下降趋势

水利部人力资源研究院关于水利部人力资源研究院介绍

专科学校在湖南排名湖南专科学校排名2022最新排名

上海航运交易所：受台风“杜苏芮”影响本周沿海散货运输市场涨跌不一

冷柜温控器APP 小程序：重新定义冷链管理：在现代社会，冷链物流管

271亿收购告吹：迈凌科技突然宣布终止收购慧荣股东否认隐瞒

湖南日报｜湖南数字乡村试点在邵阳启动打造数字乡村建设“湖南样板”

创新条例修正公听会　期待打造新“护国神山”

荣盛发展今日涨停作手新一席位净买入1.14亿元

SMM日评：金属内外分化铁矿跌近3% 沪锡跌1.91%

武汉市中医医院：五代妇科专家传承中西医结合薪火相传

台风“杜苏芮”登陆福建晋江沿海中国气象局：需做好灾害防御和应对

C视觉·遥望雪山丨喜迎大运今日份成都雪山朝霞请查收！

ETF基金日报（7月27日）丨旅游类ETF涨幅居前机构预计下半年旅游业前景继续向好

美芯片公司突然宣布终止收购慧荣科技回应：未违反合并协议

山西夏县：天然氧吧消夏佳处

真金白银助力乡村特色产业发展厦门出台若干措施

东水食品股东单锟减持1.22万股同时也增持43.8万股权益变动后直接持股比例为10.27%

香港赛马会推优秀运动员奖励计划为杭州亚运会中国香港代表团打气

签注恢复在即旅游业摩拳港澳游

盈盛控股乔迎宾：不显山露水潜心打造“智能办公”

中沃防火门马忠良：前半生守国门后半生护家门

商家花10万请人直播带货结果3个月卖了不到700元