Python Unicode 字符串初步

作者：我就是个世界发表于：2008-04-03

从Python2.0开始，程序员们可以使用一种新的数据类型来存储文本数据：Unicode 对象。它可以用于存储多种Unicode数据（请参阅 http://www.unicode.org/ ），并且，通过必要时的自动转换，它可以与现有的字符串对象良好的结合。

Unicode针对现代和旧式的文本中所有的字符提供了一个序列。以前，字符只能使用256个序号，文本通常通过绑定代码页来与字符映射。这很容易导致混乱，特别是软件的国际化（internationalization－－通常写做“i18n”－－“i”+18 characters +“n”）。Unicode通过为所有字符定义一个统一的代码页解决了这个问题。

Python中定义一个Unicode字符串和定义一个普通字符串一样简单：

[code]>>> u'Hello World !'
u'Hello World !'[/code]  [separator]

引号前小写的“u”表示这里创建的是一个Unicode字符串。如果你想加入一个特殊字符，可以使用Python的 Unicode-Escape 编码。如下例所示：

[code]>>> u'Hello\u0020World !'
u'Hello World !'[/code]

被替换的 \u0020 标识表示在给定位置插入编码值为 0x0020 的 Unicode字符（空格符）。

其它字符也会被直接解释成对应的Unicode码。如果你有一个在西方国家常用的Latin-1编码字符串，你可以发现Unicode字符集的前256个字符与Lation-1的对应字符编码完全相同。

另外，有一种与普通字符串相同的行模式。想要使用Python的Raw-Unicode-Escape 编码，你需要在字符串的引号前加上 ur 前缀。如果在小写“u”前可能有不止一个反斜杠，它只会把那些单独的 \uXXXX 转化为Unicode字符。

[code]
>>> ur'Hello\u0020World !'
u'Hello World !'
>>> ur'Hello\\u0020World !'
u'Hello\\\\u0020World !'[/code]行模式在你需要输入很多个反斜杠时很有用，可能会用于正规表达式。

作为这些编码标准的一部分，Python提供了一个完备的方法集用于从已知的编码集创建Unicode字符串。

内置函数unicode() 提供了访问（编码和解码）所有已注册的Unicode编码的方法。它能转换众所周知的 Latin-1, ASCII, UTF-8, 和 UTF-16。后面的两个可变长编码字符集用一个或多个byte存储Unicode字符。默认的字符集是 ASCII ，它只处理0到127的编码，拒绝其它的字符并返回一个错误。当一个Unicode字符串被打印、写入文件或通过str()转化时，它们被替换为默认的编码。

[code]>>> u"abc"
u'abc'
>>> str(u"abc")
'abc'
>>> u"äöü"
u'\xe4\xf6\xfc'
>>> str(u"äöü")
Traceback (most recent call last):
  File "<stdin>", line 1, in ?
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)[/code]
要把一个Unicode字符串用指定的字符集转化成8位字符串，可以使用Unicode对象提供的encode()方法，它有一个参数用以指定编码名称。编码名称小写。

>>> u"äöü".encode('utf-8')
'\xc3\xa4\xc3\xb6\xc3\xbc'
如果你有一个特定编码的字符串，想要把它转为Unicode字符集，，可以使用uncode()函数，它以编码名做为第二个参数。

>>> unicode('\xc3\xa4\xc3\xb6\xc3\xbc', 'utf-8')
u'\xe4\xf6\xfc'

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

[color=#008000]Python中文问题[/color]

Python中有两种字符串，分别是一般的字符串（每个字符用8 bits表示）和Unicode字符串（每个字符用一个或者多个字节表示），它们可以相互转换。关于Unicode，Joel Spolsky 在 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 中有生动的说明，Jason Orendorff 在 Unicode for programmers 有着更为全面的描述。

来看下面的代码：
x = u"中文你好"
print s

    运行上述代码，Python会给出下面的错误提示

SyntaxError: Non-ASCII character '\xd6' in file G:\workspace\chinese_problem\src\test.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

   说是遇到非ASCII字符了，并让参考pep-0263。PEP-0263（Python Enhancement Proposal）上面说得很清楚了，Python也意识到了国际化问题，并提出了解决方案。根据提案上面的要求，有如下代码

[code] # -*- coding:gb2312 -*- ＃必须在第一行或者第二行
print "-------------code 1----------------"
a = "中文a我爱你"
print a
print a.find("我")
b = a.replace("爱", "喜欢")
print b
print "--------------code 2----------------"
x = "中文a我爱你"
y = unicode(x, "gb2312")
print y.encode("gb2312")
print y.find(u"我")
z = y.replace(u"爱", u"喜欢")
print z.encode("gb2312")
print "---------------code 3----------------"
print y[/code]

    程序运行的结果如下：

[code]
-------------code 1----------------
中文a我爱你
5
中文a我喜欢你
--------------code 2----------------
中文a我爱你
3
中文a我喜欢你
---------------code 3----------------
Traceback (most recent call last):
  File "G:\Downloads\eclipse\workspace\p\src\hello.py", line 16, in <module>
    print y
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)[/code]

   可以看到，通过引入编码声明，可以正常地在使用中文，而且在code 1和2中，控制台也能正确的把中文打印出来。但是，很明显，上面的代码也反映出了不少的问题：
    1、code 1 和 2在使用print时采用了不同的方式，1是直接print，而2在print之前先进行编码
    2、code 1 和 2中在同样的字符串查找同一个字符“我”，得出的结果不一样（分别是5和3）
    3、code 3 中直接打印unicode字符串 y时出现错误（这也是为什么code 2中要先进行编码的原因）



    回顾一下使用Python的流程：首先，先用编辑器编写好源代码，保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法，那么该文件就以相应的编码方式保存在磁盘中。注意：编码声明和源文件的编码不一定是一致的，完全可以在编码声明中声明编码为UTF-8，但是用GB2312来保存源文件。当然，这是自寻烦恼，而且好的IDE也应该保证两者的一致性。但是，如果。用记事本或者EditPlus等编辑器来编写代码的话，可能就会出现这种问题的。
    得到一个.py文件后，可以运行它。这是把代码交给Python解析器来完成解析工作。解析器读入文件时，先解析文件中的编码声明，假设文件的编码为gb2312，那么先将文件中的内容由gb2312转换成Unicode，然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后，解析器把这些UTF-8字节串分段，解析。如果遇到使用Unicode字符串，那么就使用相应的UTF-8字节串创建Unicode字符串，如果程序中使用的是一般的字符串，那么解析器先将UTF-8字节串通过Unicode转换成相应编码（这里就是gb2312编码）的字节串，并用其创建一般的字符串对象。也就是说，Unicode字符串跟一般字符串在内存中的存放格式是不一样的，前者使用UTF-8的格式，后者使用GB2312格式。

    现在已经知道了内存中的字符串存放格式，下面要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统，让操作系统相应的程序进行显示。这里有两种情况：
   1、若字符串是一般的字符串，那么print只需把内存中相应的字节串推送给操作系统。如例子中的code 1。
    2、如果字符串是Unicode字符串，那么print在推送之前先进行相应的encode：可以显式使用Unicode的encode方法使用合适的编码方式来编码（例子中code 2），否则Python使用默认的编码方式进行编码，也就是ASCII（例子中的code 3）。当然ASCII是不可能正确编码中文的，因此Python报错。
    至此，上面的三个问题已经可以解释第一和第三个了。至于第二个问题，因为Python中有两种字符串，一般字符串和Unicode字符串，两者都有各自的字符处理方法。对于前者，方法是以字节的方式进行的，而且在GB2312中，每个汉字占用两个字节，因此得到的结果是5；对于后者，也就是Unicode字符串，所有字符都是统一看待的，因此得到3。
     虽然上面只提到了控制台程序的中文问题，但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题，同时Python为Unicode提供了极为良好的支持，因此建议在编写Python的程序时，都统一使用Unicode方式。保存文件时使用UTF-8的编码方式。How to Use UTF-8 with Python有详细的描述，可以参考。

请发表您的评论