java 中String编码和byte 解码总结

wanxw2001

浏览: 157167 次
来自: ...

最近访客更多访客>>

cash1999

lbyzx123

jack1007

xklc

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

1、InputStreamReader 是字节流通向字符流的桥梁：它使用指定的 charset 读取字节并将其解码为字符
InputStreamReader(InputStream in, String charsetName)

2、OutputStreamWriter 是字符流通向字节流的桥梁：可使用指定的 charset 将要写入流中的字符编码成字节。它使用的字符集可以由名称指定或显式给定，否则将接受平台默认的字符集。
OutputStreamWriter(OutputStream out, String charsetName)

3、String(byte[] bytes, Charset charset)
          通过使用指定的 charset解码指定的 byte数组，构造一个新的 String。

4、byte[] getBytes(Charset charset)
          把JVM内存中unicode形式的String按encoding制定的编码，转成字节流
          使用给定的 charset 将此 String 编码到 byte 序列，并将结果存储到新的 byte 数组。

5、URLEncoder。encode(String s, String enc)

        使用指定的编码机制将字符串转换为 application/x-www-form-urlencoded 格式。
        对 String 编码时，使用以下规则：

字母数字字符 "a" 到 "z"、"A" 到 "Z" 和 "0" 到 "9" 保持不变。
特殊字符 "."、"-"、"*" 和 "_" 保持不变。
空格字符 " " 转换为一个加号 "+"。
所有其他字符都是不安全的，因此首先使用一些编码机制将它们转换为一个或多个字节。然后每个字节用一个包含 3 个字符的字符串 "%xy" 表示，其中 xy 为该字节的两位十六进制表示形式。推荐的编码机制是 UTF-8。但是，出于兼容性考虑，如果未指定一种编码，则使用相应平台的默认编码。
例如，使用 UTF-8 编码机制，字符串 "The string ü@foo-bar" 将转换为 "The+string+%C3%BC%40foo-bar"，因为在 UTF-8 中，字符 ü 编码为两个字节，C3 （十六进制）和 BC （十六进制），字符 @ 编码为一个字节 40 （十六进制）。

6、URLDecoder.decode(String s, String enc)

        使用指定的编码机制对 application/x-www-form-urlencoded 字符串解码。
转换中使用以下规则：

字母数字字符 "a" 到 "z"、"A" 到 "Z" 和 "0" 到 "9" 保持不变。
特殊字符 "."、"-"、"*" 和 "_" 保持不变。
加号 "+" 转换为空格字符 " "。
将把 "%xy" 格式序列视为一个字节，其中 xy 为 8 位的两位十六进制表示形式。然后，所有连续包含一个或多个这些字节序列的子字符串，将被其编码可生成这些连续字节的字符所代替。可以指定对这些字符进行解码的编码机制，或者如果未指定的话，则使用平台的默认编码机制。
该解码器处理非法字符串有两种可能的方法。一种方法是不管该非法字符，另一种方法是抛出 IllegalArgumentException 异常。解码器具体采用哪种方法取决于实现。

案例：
1.JVM内部的String，Char都是用unicode存储(没有任何编码)，比如：
"分"的unicode=20998(十进制）String=[20998]，String中有1个char
"分享"的unicode=20998，20139 (十进制）String=[20998，20139]，String中有2个char
无论系统编码是什么，"分"这个字在JVM中都是20998

2.String.getBytes("encoding")的意思:
把JVM内存中unicode形式的String按encoding制定的编码，转成字节流，比如汉字"分"：
String="分"
String.getBytes("utf-8")//把String转成utf-8字节流，汉字"分"为3个字节[0xe5,0x88,0x86]

String.getBytes("gbk")//把String转成gbk字节流，汉字"分"为2个字节[0xb7,0xd6]

String.getBytes()//按JVM默认编码转成字节流。linux，如果LANG=en_US，就是iso8859-1，如果是windows eclipse就是UTF-8

3.String std=new String(byte b[],"encoding")的意思
把是encoding编码的字节流b，转换成String，比如：

b=[0xe5,0x88,0x86]
String std=new String(byte b[],"utf-8")//把utf-8的字节数组b，转成string。b中是3个字节的utf8编码。执行后string=[20998]

b=[0xb7,0xd6]
String std=new String(byte b[],"gbk")//把gbk的字节数组b，转成string。b中是2个字节的gbk编码。执行后string=[20998]

4.在linux,LANG=en_US的环境下打印utf8的汉字：
因为终端（secretCRT）只能认单字节流的utf8，若以直接打印utf8的多字节String就会是“???”
需要把utf8的string转换成单字节流编码的iso8859-1，secretCRT才能按utf8显示成汉字，比如：
s1="分"//s1中有一个char=[20998]
String s2=new String(s1.getBytes("utf-8"),"iso8859-1")//获取utf-8编码的s1字节流，并编码成iso8859-1,s2中有三个char，分别是[0xe5,0x88,0x86]
println(s2)//在utf8终端控制台上打印s2

如果终端（secretCRT）的显示编码是default(其实就是iso8859-1能显示GBK),那执行以下代码：
s1="分"//s1中有一个char=[20998]
String s2=new String(s1.getBytes("gbk"),"iso8859-1")//获取gbk编码的s1字节流，并编码成iso8859-1,s2中有两个char，分别是[0xb7,0xd6]
println(s2)//在gbk终端控制台上打印s2

在windows上，因为eclipse控制台系统默认编码是utf8。所以直接打印就可以了

分享到：

(emoji表情） unicode5与unicode6互换 | kestrel 守护启动

2012-06-28 19:51
浏览 17267
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论