当前位置:Linux教程 - Linux - 让Netatalk支持双字节和多字节字符集

让Netatalk支持双字节和多字节字符集



        

    让Netatalk支持双字节和多字节字符集


    作者:廖中熙



    简介
    Netatalk是Linux上提供Appletalk网络协议服务的服务器。可以令Linux“伪装”成为苹果机服务器,提供文件及打印服务。但是中文名文件却无法传输,这带来了一些不便,但Netatalkr提供了的一个nls机制,但是没有中文(多字节编码)支持,我通过制作的这个字符映射表maccode.Asia,问题解决了。
    关键字
    Linux, netatalk, appletalk, 双字节, 多字节, 中文, 汉化
    所用Netatalk版本
    首先,我要告诉您的是我用的Netatalk版本是netatalk-1.4b2+asun2.1.2-2 rpm,其下所提到的路径都符合这一版本,如果您所用的不一样,则需要劳烦您自行查找了。

    一、 问题出现
    通过安装samba 和netatalk,实现了PC与苹果机通过Linux共享的问题。但是苹果机传中文文件名到Linux, 但是Linux及windows却看不见中文;PC存中文文件名在共享路径,苹果机看得见,但却无法拷备,错误返回:文件找不到。列表举例描述如下:
    PC(Linux)文件名 操作: 由苹果机拷贝文件 苹果机 (Mac OS)
    Abc  Abc
    Abc  Abc
    :0B:0B  薄(HEX 0x0B0x0B)
    薄(HEX 0x0B0x0B)  看得见文件名,但是找不到文件

    二、 分析问题
    由上表可见,
    当文件名中的字符都在美国标准ASC码(码值小于或等于0x7F)则可以正常显示。
    当文件名中的字符不在美国标准ASC码(码值大于0x7F小于0xFF)则不能正常显示。
    Netatalk 有没有自已的解决办法呢?
    我查看它的配置文件/etc/atalk/AppleVolumes.default
    很幸运,我看见它有一个codepage参数,形式如下
    codepage=文件名 文件是在nls 路径下
    我想这下可解决了,我立即作起实验来。
    第一次codepage=936
    第二次codepage=cp936
    注:cp936是GB2312-1980的代码页
    nls 是 nls(National Language Sopport)子系统它是基于ASC的提供国际化本地化的一种机制。只要通过正确的字符映射表就可以正确处理本地语言编码了。
    结果如何?全部失败。
    结论:Netatalk另有一套nls机制来解决本地化问题。

    三、解决问题
    1. 目标
    PC[Linux]下的文件名 操作(由苹果机拷贝文件) 苹果机[MAX OS]下的文件名
    薄(HEX 0x0B0x0B) , 薄(HEX 0x0B0x0B)

    2. 查找路径nls
    找到路径/usr/lib/atalk/nls
    其中有三个文件maccode.437, maccode.850,maccode.iso8550-1
    用这些codepage来试,都不行。中文在苹果机看比原来还糟,当然了映射的不对嘛!
    3. 上网找一找,也没有支持中文的maccode
    4. 只有自己做一个了。
    5. 用二进制查看器分别查看了maccode.437,maccode.850,iso8550-1找出了规律。因为十分简单,不必细说。有兴趣的朋友,可以自己去看看。
    6. 我首先用GB2312的编码来作实验。大家都很熟悉,它的编码范围是0xA1----0xFE,思想再简单不过了,就是让中文编码的ASC码在传送后保持不变即可。
    7. 实验成功。
    8. 扩展。我查阅了亚洲文字集的编码(双字节编码或多字节编码)范围。认为将映射扩大到 0x80----0xFE应该可以支持所有的亚州文字。
    标准 编码范围 最小值 最大值
    GB2312-1989 第一个字节:0xA1----0xF7 0xA1 0xFE
    第二个字节:0xA1----0xFE
    GBK 第一个字节:0x81----0xFE 0x40 0xFE
    第二个字节:0x40----0x7E
    0x80-----0xFE
    BIG-5 第一个字节:0x81-0xFE 0x40 0xFE
    第二个字节:0x40-0x7E
    0x81----0xFE
    Shift-JIS 第一个字节:0x81-0x9F
    0xE0-0xFC 0x40 0xFC
    第二个字节:0x40—0xfc(少0x7F)
    KSC-5601-1987 第一个字节:0x81-0xFE 0x41 0xFE
    第二个字节: 0x41-0x5A,
    0x61-0x7A,
    0x81-0xFE
    由于当ASC码小于0x7F都可以正常转化,所以我们可以不去理它,只考虑ASC码大于0x80以上的。得到映射范围是0x80----0xFE.

    四、 如何使用maccode.Asia
    1.找到nls路径, 例如,我的机是/usr/lib/atalk/nls
    2.将maccode.Asia拷贝下去
    3.找到appletalk的配置文件AppleVolumes.default并修改之。 例如:我的机上是/etc/atalk/AppleVolumes.default
    例如:/mnt/appletalk是你共享给苹果机的路径
    你原来写 /mnt/appletalk
    现在加一点 /mnt/appletalk codepage=maccode.Asia存盘即可.
    五、 后记
    我后来又查阅了netatalk1.5的关于制作maccode的代码,发现它与1.4版本完全不同,所以上面作的那一个不支持1.5,我也仿照它的程式写了一个但没有地方试验。
    注:1.5的maccode可以只作某个方向的转化,我真不知什么时候编码会只作单向转化。包括他自己的三个maccode都没用上这个单向转化机制(都是双向的)。他们想的真是够长远的。
    六、总结
     通过这次学习和练习,我觉得它的这个nls机制真好,令字符集支持扩展特别简单。
     亚州文字的字符集多是双字节的(现在也有多字节的了),主要是利用两个字节组合来表示一个双字节字的编码的,对于每个字节来讲并没转化成其它的ASC码。所以也使得多种亚州文字的字符集(双字节字符集、多字节字符集)都可以利用同一张映射表来解问题。
     苹果的字符集编码与PC[Linux]的并不完全相同,Netatalk给出的几个映射表maccode.437,maccode.850,maccode.iso8559-1可以看出它们将0x80以后的都转化为其它的ASC码了。




    作者:廖中熙


    Email: [email protected]


    发布人:newstudy 来自:(原创)