`

java 中String编码和byte 解码 总结

    博客分类:
  • java
 
阅读更多
1、InputStreamReader 是字节流通向字符流的桥梁:它使用指定的 charset 读取字节并将其解码为字符
InputStreamReader(InputStream in, String charsetName)


2、OutputStreamWriter 是字符流通向字节流的桥梁:可使用指定的 charset 将要写入流中的字符编码成字节。它使用的字符集可以由名称指定或显式给定,否则将接受平台默认的字符集。
OutputStreamWriter(OutputStream out, String charsetName)

3、String(byte[] bytes, Charset charset)
          通过使用指定的 charset解码指定的 byte数组,构造一个新的 String。

4、byte[] getBytes(Charset charset)
          把JVM内存中unicode形式的String按encoding制定的编码,转成字节流
          使用给定的 charset 将此 String 编码到 byte 序列,并将结果存储到新的 byte 数组。

5、URLEncoder。encode(String s, String enc)
       
        使用指定的编码机制将字符串转换为 application/x-www-form-urlencoded 格式。
        对 String 编码时,使用以下规则:

字母数字字符 "a" 到 "z"、"A" 到 "Z" 和 "0" 到 "9" 保持不变。
特殊字符 "."、"-"、"*" 和 "_" 保持不变。
空格字符 " " 转换为一个加号 "+"。
所有其他字符都是不安全的,因此首先使用一些编码机制将它们转换为一个或多个字节。然后每个字节用一个包含 3 个字符的字符串 "%xy" 表示,其中 xy 为该字节的两位十六进制表示形式。推荐的编码机制是 UTF-8。但是,出于兼容性考虑,如果未指定一种编码,则使用相应平台的默认编码。
例如,使用 UTF-8 编码机制,字符串 "The string ü@foo-bar" 将转换为 "The+string+%C3%BC%40foo-bar",因为在 UTF-8 中,字符 ü 编码为两个字节,C3 (十六进制)和 BC (十六进制),字符 @ 编码为一个字节 40 (十六进制)。

6、URLDecoder.decode(String s, String enc)

        使用指定的编码机制对 application/x-www-form-urlencoded 字符串解码。
转换中使用以下规则:

字母数字字符 "a" 到 "z"、"A" 到 "Z" 和 "0" 到 "9" 保持不变。
特殊字符 "."、"-"、"*" 和 "_" 保持不变。
加号 "+" 转换为空格字符 " "。
将把 "%xy" 格式序列视为一个字节,其中 xy 为 8 位的两位十六进制表示形式。然后,所有连续包含一个或多个这些字节序列的子字符串,将被其编码可生成这些连续字节的字符所代替。可以指定对这些字符进行解码的编码机制,或者如果未指定的话,则使用平台的默认编码机制。
该解码器处理非法字符串有两种可能的方法。一种方法是不管该非法字符,另一种方法是抛出 IllegalArgumentException 异常。解码器具体采用哪种方法取决于实现。




案例:
1.JVM内部的String,Char都是用unicode存储(没有任何编码),比如:
"分"的unicode=20998(十进制)String=[20998],String中有1个char
"分享"的unicode=20998,20139 (十进制)String=[20998,20139],String中有2个char
无论系统编码是什么,"分"这个字在JVM中都是20998


2.String.getBytes("encoding")的意思:
把JVM内存中unicode形式的String按encoding制定的编码,转成字节流,比如汉字"分":
String="分"
String.getBytes("utf-8")//把String转成utf-8字节流,汉字"分"为3个字节[0xe5,0x88,0x86]

String.getBytes("gbk")//把String转成gbk字节流,汉字"分"为2个字节[0xb7,0xd6]

String.getBytes()//按JVM默认编码转成字节流。linux,如果LANG=en_US,就是iso8859-1,如果是windows eclipse就是UTF-8

3.String std=new String(byte b[],"encoding")的意思
把是encoding编码的字节流b,转换成String,比如:

b=[0xe5,0x88,0x86]
String std=new String(byte b[],"utf-8")//把utf-8的字节数组b,转成string。b中是3个字节的utf8编码。执行后string=[20998]

b=[0xb7,0xd6]
String std=new String(byte b[],"gbk")//把gbk的字节数组b,转成string。b中是2个字节的gbk编码。执行后string=[20998]


4.在linux,LANG=en_US的环境下打印utf8的汉字:
因为终端(secretCRT)只能认单字节流的utf8,若以直接打印utf8的多字节String就会是“???”
需要把utf8的string转换成单字节流编码的iso8859-1,secretCRT才能按utf8显示成汉字,比如:
s1="分"//s1中有一个char=[20998]
String s2=new String(s1.getBytes("utf-8"),"iso8859-1")//获取utf-8编码的s1字节流,并编码成iso8859-1,s2中有三个char,分别是[0xe5,0x88,0x86]
println(s2)//在utf8终端控制台上打印s2

如果终端(secretCRT)的显示编码是default(其实就是iso8859-1能显示GBK),那执行以下代码:
s1="分"//s1中有一个char=[20998]
String s2=new String(s1.getBytes("gbk"),"iso8859-1")//获取gbk编码的s1字节流,并编码成iso8859-1,s2中有两个char,分别是[0xb7,0xd6]
println(s2)//在gbk终端控制台上打印s2

在windows上,因为eclipse控制台系统默认编码是utf8。所以直接打印就可以了
分享到:
评论

相关推荐

    java实现BASE64编码和解码程序

    实现BASE64编码和解码程序, 在类中实现如下函数并运行测试正确。 BASE64编码算法请在网上查询。 public String encode(byte[] data) { } public byte[] decode(String b) { }

    二维码编码解码器源码

    本源码实现可以在C#中使用的1D/2D编码解码器。条形码的应用已经非常普遍,几乎所有超市里面的商品上面都印有条形码;二维码也开始应用到很多场合,如火车票有二维码识别、网易的首页有二维码图标,用户只需要用手机...

    史上最全的java基础总结大全

    //编码解码1:默认编码 String str1 = "你好"; byte[] buf1 = str1.getBytes();//默认解码:Unicode,四个字节 //编码解码2:指定编码 String str2 = "你好"; byte[] buf2 = str2.getBytes("UTF-8");//指定...

    二维码编码解码器源码20130905

    System.String DEFAULT_BYTE_MODE_ENCODING = "UTF-8"; 此处之前是"ISO-8859-1",之所以改成UTF-8是因为,在解码的时候程序会猜测可能的编码,如果猜测失败则默认是UTF-8,代码在...

    808协议的编码解码

    这段时间公司在做808协议的编码与解码,就专门做了一个工具类,方便自己的调用,有byte,Word,DWord,BCD类型的编码解码,还有普通的byte,int,string转换/2进制10进制16进制....等等

    Reed-Solomon-error-correction:Reed – Java中的Solomon编码器和解码器

    Reed – Java中的Solomon纠错,提供RS(255,223)编码和解码方法。 #在网络传输或本地存储之前使用字符串编码: RSEncoder encoder=new RSEncoder(); byte[] bytes=encoder.encode(string); 从网络接收或从磁盘...

    javabiginteger源码-gcdc-asn1:ASN.1数据类型和UPER编码器/解码器

    java biginteger源码ASN.1 数据类型 用来自规范的信息来扩充 Java 类的 Java 注释。 这些注释以后可以被像 . 目录: 地位 数据类型足以处理 . 目前还没有编译器,因此必须手动创建和添加 Java 类和注释。 支持的 ASN...

    java 编写文件上传类简单易用

    这种编码的具体规则可以在 rfc2231 里查到, 通常使用的表单也是采用这种方式编码的,Servlet 的 API 提供了对这种 编码方式解码的支持,只需要调用 ServletRequest 类中的方法就可以得到 用户表单中的字段和数据。...

    Java之IO流学习总结

    Java IO流学习总结 Java流操作有关的类或接口: Java流类图结构: 流的概念和作用 流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象。即数据在两设备间的传输称为流,流的本质是数据...

    Android开发人员不得不收集的代码

    编码解码相关→EncodeUtils.java→Test URL编码 urlEncode URL解码 urlDecode Base64编码 base64Encode base64Encode2String Base64解码 base64Decode Base64URL安全编码 base64UrlSafeEncode Html编码 htmlEncode ...

    JAVA基础之java的移位运算

    但这样使1位太靠左而不适合返回到byte 类型的值,因此人们规定,-0和0的表示方法一样,-1的解码为11111111 。尽管我们在这个例子使用了byte 类型的值,但同样的基本的原则也适用于所有Java 的整数类型。 因为Java ...

    Bencode:适用于Java的Bencode库

    这是Bencode for Java的实现。 Bencode用于DHT,Torrent和Google DataServer。 它是一种轻量级的快速数据序列化。 基准测试 这里是与其他主要数据序列化方法相比该库的一些示例。 序列化/编码 方法 时间在米尔斯 ...

    delphi与java 加密解密 DES/CBC/PKCS5Padding

    最近做一个接口,与JAVA的关于DES/CBC/PKCS5Padding 互相解密。在网上找了很多资料,摸索了3天才摸索出来。同样的明文,用JAVA加密的密文死活都跟用DELPHI加密的不相等,有时候少于8个字符的就正常,多了8个字符的就...

    base45-java:Qr代码的base45的Java实现

    然后解码回去: byte[] decodedBytes = Base44.getDecoder().decode(encodedString);String decodedString = new String(decodedBytes);如何建造这是一个典型的maven项目,在/ target中创建一个jar mvn clean ...

    day019-io笔记和代码.rar

    * 1、因为字符集不统一,即编码和解码new String(b,0,read,"gbk")字符集不一致 * 2、因为字节流读取汉字的时候,字节数组长度不够,将一个汉字拆开了 * 解决: * 1. 用字符流用统一的字符集(最...

    pkcs1Topkcs8.txt

    java和ios联调RSA加签验。亲测可用 public static String pkcs1Topkcs8(String validKey) { // validKey = "MIGJAoGBAJzzXZJN+mMuFwUhPba10Ayn/GRameR57fH3LW8W76RF33vKyL3hAxXhY0QrFDu+zsVCKXRZg35ieDng2Ugg5mmdqH...

    Anroid 中 RSA、AES 加密

     解码:结果是byte String Tag=denganzhi1; @RequiresApi(api = Build.VERSION_CODES.O) public void base64Show(View view){ String encode = null; try { // 编码, 编码的结果是字符串 encode = java....

    freemarker总结

    options:该参数可以省略,指定包含时的选项,包含encoding和parse两个选项,其中encoding指定包含页面时所用的解码集,而parse指定被包含文件是否作为FTL文件来解析,如果省略了parse选项值,则该选项默认是true. ...

Global site tag (gtag.js) - Google Analytics