Back to index

lightning-sunbird  0.9+nobinonly
nsMBCSSM.cpp
Go to the documentation of this file.
00001 /* -*- Mode: C; tab-width: 4; indent-tabs-mode: nil; c-basic-offset: 2 -*- */
00002 /* ***** BEGIN LICENSE BLOCK *****
00003  * Version: MPL 1.1/GPL 2.0/LGPL 2.1
00004  *
00005  * The contents of this file are subject to the Mozilla Public License Version
00006  * 1.1 (the "License"); you may not use this file except in compliance with
00007  * the License. You may obtain a copy of the License at
00008  * http://www.mozilla.org/MPL/
00009  *
00010  * Software distributed under the License is distributed on an "AS IS" basis,
00011  * WITHOUT WARRANTY OF ANY KIND, either express or implied. See the License
00012  * for the specific language governing rights and limitations under the
00013  * License.
00014  *
00015  * The Original Code is mozilla.org code.
00016  *
00017  * The Initial Developer of the Original Code is
00018  * Netscape Communications Corporation.
00019  * Portions created by the Initial Developer are Copyright (C) 1998
00020  * the Initial Developer. All Rights Reserved.
00021  *
00022  * Contributor(s):
00023  *
00024  * Alternatively, the contents of this file may be used under the terms of
00025  * either the GNU General Public License Version 2 or later (the "GPL"), or
00026  * the GNU Lesser General Public License Version 2.1 or later (the "LGPL"),
00027  * in which case the provisions of the GPL or the LGPL are applicable instead
00028  * of those above. If you wish to allow use of your version of this file only
00029  * under the terms of either the GPL or the LGPL, and not to allow others to
00030  * use your version of this file under the terms of the MPL, indicate your
00031  * decision by deleting the provisions above and replace them with the notice
00032  * and other provisions required by the GPL or the LGPL. If you do not delete
00033  * the provisions above, a recipient may use your version of this file under
00034  * the terms of any one of the MPL, the GPL or the LGPL.
00035  *
00036  * ***** END LICENSE BLOCK ***** */
00037 #include "nsCodingStateMachine.h"
00038 
00039 /*
00040 Modification from frank tang's original work:
00041 . 0x00 is allowed as a legal character. Since some web pages contains this char in 
00042   text stream.
00043 */
00044 
00045 // BIG5 
00046 
00047 static PRUint32 BIG5_cls [ 256 / 8 ] = {
00048 //PCK4BITS(0,1,1,1,1,1,1,1),  // 00 - 07 
00049 PCK4BITS(1,1,1,1,1,1,1,1),  // 00 - 07    //allow 0x00 as legal value
00050 PCK4BITS(1,1,1,1,1,1,0,0),  // 08 - 0f 
00051 PCK4BITS(1,1,1,1,1,1,1,1),  // 10 - 17 
00052 PCK4BITS(1,1,1,0,1,1,1,1),  // 18 - 1f 
00053 PCK4BITS(1,1,1,1,1,1,1,1),  // 20 - 27 
00054 PCK4BITS(1,1,1,1,1,1,1,1),  // 28 - 2f 
00055 PCK4BITS(1,1,1,1,1,1,1,1),  // 30 - 37 
00056 PCK4BITS(1,1,1,1,1,1,1,1),  // 38 - 3f 
00057 PCK4BITS(2,2,2,2,2,2,2,2),  // 40 - 47 
00058 PCK4BITS(2,2,2,2,2,2,2,2),  // 48 - 4f 
00059 PCK4BITS(2,2,2,2,2,2,2,2),  // 50 - 57 
00060 PCK4BITS(2,2,2,2,2,2,2,2),  // 58 - 5f 
00061 PCK4BITS(2,2,2,2,2,2,2,2),  // 60 - 67 
00062 PCK4BITS(2,2,2,2,2,2,2,2),  // 68 - 6f 
00063 PCK4BITS(2,2,2,2,2,2,2,2),  // 70 - 77 
00064 PCK4BITS(2,2,2,2,2,2,2,1),  // 78 - 7f 
00065 PCK4BITS(4,4,4,4,4,4,4,4),  // 80 - 87 
00066 PCK4BITS(4,4,4,4,4,4,4,4),  // 88 - 8f 
00067 PCK4BITS(4,4,4,4,4,4,4,4),  // 90 - 97 
00068 PCK4BITS(4,4,4,4,4,4,4,4),  // 98 - 9f 
00069 PCK4BITS(4,3,3,3,3,3,3,3),  // a0 - a7 
00070 PCK4BITS(3,3,3,3,3,3,3,3),  // a8 - af 
00071 PCK4BITS(3,3,3,3,3,3,3,3),  // b0 - b7 
00072 PCK4BITS(3,3,3,3,3,3,3,3),  // b8 - bf 
00073 PCK4BITS(3,3,3,3,3,3,3,3),  // c0 - c7 
00074 PCK4BITS(3,3,3,3,3,3,3,3),  // c8 - cf 
00075 PCK4BITS(3,3,3,3,3,3,3,3),  // d0 - d7 
00076 PCK4BITS(3,3,3,3,3,3,3,3),  // d8 - df 
00077 PCK4BITS(3,3,3,3,3,3,3,3),  // e0 - e7 
00078 PCK4BITS(3,3,3,3,3,3,3,3),  // e8 - ef 
00079 PCK4BITS(3,3,3,3,3,3,3,3),  // f0 - f7 
00080 PCK4BITS(3,3,3,3,3,3,3,0)   // f8 - ff 
00081 };
00082 
00083 
00084 static PRUint32 BIG5_st [ 3] = {
00085 PCK4BITS(eError,eStart,eStart,     3,eError,eError,eError,eError),//00-07 
00086 PCK4BITS(eError,eError,eItsMe,eItsMe,eItsMe,eItsMe,eItsMe,eError),//08-0f 
00087 PCK4BITS(eError,eStart,eStart,eStart,eStart,eStart,eStart,eStart) //10-17 
00088 };
00089 
00090 static const PRUint32 Big5CharLenTable[] = {0, 1, 1, 2, 0};
00091 
00092 SMModel Big5SMModel = {
00093   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, BIG5_cls },
00094     5,
00095   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, BIG5_st },
00096   Big5CharLenTable,
00097   "Big5",
00098 };
00099 
00100 static PRUint32 EUCJP_cls [ 256 / 8 ] = {
00101 //PCK4BITS(5,4,4,4,4,4,4,4),  // 00 - 07 
00102 PCK4BITS(4,4,4,4,4,4,4,4),  // 00 - 07 
00103 PCK4BITS(4,4,4,4,4,4,5,5),  // 08 - 0f 
00104 PCK4BITS(4,4,4,4,4,4,4,4),  // 10 - 17 
00105 PCK4BITS(4,4,4,5,4,4,4,4),  // 18 - 1f 
00106 PCK4BITS(4,4,4,4,4,4,4,4),  // 20 - 27 
00107 PCK4BITS(4,4,4,4,4,4,4,4),  // 28 - 2f 
00108 PCK4BITS(4,4,4,4,4,4,4,4),  // 30 - 37 
00109 PCK4BITS(4,4,4,4,4,4,4,4),  // 38 - 3f 
00110 PCK4BITS(4,4,4,4,4,4,4,4),  // 40 - 47 
00111 PCK4BITS(4,4,4,4,4,4,4,4),  // 48 - 4f 
00112 PCK4BITS(4,4,4,4,4,4,4,4),  // 50 - 57 
00113 PCK4BITS(4,4,4,4,4,4,4,4),  // 58 - 5f 
00114 PCK4BITS(4,4,4,4,4,4,4,4),  // 60 - 67 
00115 PCK4BITS(4,4,4,4,4,4,4,4),  // 68 - 6f 
00116 PCK4BITS(4,4,4,4,4,4,4,4),  // 70 - 77 
00117 PCK4BITS(4,4,4,4,4,4,4,4),  // 78 - 7f 
00118 PCK4BITS(5,5,5,5,5,5,5,5),  // 80 - 87 
00119 PCK4BITS(5,5,5,5,5,5,1,3),  // 88 - 8f 
00120 PCK4BITS(5,5,5,5,5,5,5,5),  // 90 - 97 
00121 PCK4BITS(5,5,5,5,5,5,5,5),  // 98 - 9f 
00122 PCK4BITS(5,2,2,2,2,2,2,2),  // a0 - a7 
00123 PCK4BITS(2,2,2,2,2,2,2,2),  // a8 - af 
00124 PCK4BITS(2,2,2,2,2,2,2,2),  // b0 - b7 
00125 PCK4BITS(2,2,2,2,2,2,2,2),  // b8 - bf 
00126 PCK4BITS(2,2,2,2,2,2,2,2),  // c0 - c7 
00127 PCK4BITS(2,2,2,2,2,2,2,2),  // c8 - cf 
00128 PCK4BITS(2,2,2,2,2,2,2,2),  // d0 - d7 
00129 PCK4BITS(2,2,2,2,2,2,2,2),  // d8 - df 
00130 PCK4BITS(0,0,0,0,0,0,0,0),  // e0 - e7 
00131 PCK4BITS(0,0,0,0,0,0,0,0),  // e8 - ef 
00132 PCK4BITS(0,0,0,0,0,0,0,0),  // f0 - f7 
00133 PCK4BITS(0,0,0,0,0,0,0,5)   // f8 - ff 
00134 };
00135 
00136 
00137 static PRUint32 EUCJP_st [ 5] = {
00138 PCK4BITS(     3,     4,     3,     5,eStart,eError,eError,eError),//00-07 
00139 PCK4BITS(eError,eError,eError,eError,eItsMe,eItsMe,eItsMe,eItsMe),//08-0f 
00140 PCK4BITS(eItsMe,eItsMe,eStart,eError,eStart,eError,eError,eError),//10-17 
00141 PCK4BITS(eError,eError,eStart,eError,eError,eError,     3,eError),//18-1f 
00142 PCK4BITS(     3,eError,eError,eError,eStart,eStart,eStart,eStart) //20-27 
00143 };
00144 
00145 static const PRUint32 EUCJPCharLenTable[] = {2, 2, 2, 3, 1, 0};
00146 
00147 SMModel EUCJPSMModel = {
00148   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, EUCJP_cls },
00149    6,
00150   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, EUCJP_st },
00151   EUCJPCharLenTable,
00152   "EUC-JP",
00153 };
00154 
00155 static PRUint32 EUCKR_cls [ 256 / 8 ] = {
00156 //PCK4BITS(0,1,1,1,1,1,1,1),  // 00 - 07 
00157 PCK4BITS(1,1,1,1,1,1,1,1),  // 00 - 07 
00158 PCK4BITS(1,1,1,1,1,1,0,0),  // 08 - 0f 
00159 PCK4BITS(1,1,1,1,1,1,1,1),  // 10 - 17 
00160 PCK4BITS(1,1,1,0,1,1,1,1),  // 18 - 1f 
00161 PCK4BITS(1,1,1,1,1,1,1,1),  // 20 - 27 
00162 PCK4BITS(1,1,1,1,1,1,1,1),  // 28 - 2f 
00163 PCK4BITS(1,1,1,1,1,1,1,1),  // 30 - 37 
00164 PCK4BITS(1,1,1,1,1,1,1,1),  // 38 - 3f 
00165 PCK4BITS(1,1,1,1,1,1,1,1),  // 40 - 47 
00166 PCK4BITS(1,1,1,1,1,1,1,1),  // 48 - 4f 
00167 PCK4BITS(1,1,1,1,1,1,1,1),  // 50 - 57 
00168 PCK4BITS(1,1,1,1,1,1,1,1),  // 58 - 5f 
00169 PCK4BITS(1,1,1,1,1,1,1,1),  // 60 - 67 
00170 PCK4BITS(1,1,1,1,1,1,1,1),  // 68 - 6f 
00171 PCK4BITS(1,1,1,1,1,1,1,1),  // 70 - 77 
00172 PCK4BITS(1,1,1,1,1,1,1,1),  // 78 - 7f 
00173 PCK4BITS(0,0,0,0,0,0,0,0),  // 80 - 87 
00174 PCK4BITS(0,0,0,0,0,0,0,0),  // 88 - 8f 
00175 PCK4BITS(0,0,0,0,0,0,0,0),  // 90 - 97 
00176 PCK4BITS(0,0,0,0,0,0,0,0),  // 98 - 9f 
00177 PCK4BITS(0,2,2,2,2,2,2,2),  // a0 - a7 
00178 PCK4BITS(2,2,2,2,2,3,3,3),  // a8 - af 
00179 PCK4BITS(2,2,2,2,2,2,2,2),  // b0 - b7 
00180 PCK4BITS(2,2,2,2,2,2,2,2),  // b8 - bf 
00181 PCK4BITS(2,2,2,2,2,2,2,2),  // c0 - c7 
00182 PCK4BITS(2,3,2,2,2,2,2,2),  // c8 - cf 
00183 PCK4BITS(2,2,2,2,2,2,2,2),  // d0 - d7 
00184 PCK4BITS(2,2,2,2,2,2,2,2),  // d8 - df 
00185 PCK4BITS(2,2,2,2,2,2,2,2),  // e0 - e7 
00186 PCK4BITS(2,2,2,2,2,2,2,2),  // e8 - ef 
00187 PCK4BITS(2,2,2,2,2,2,2,2),  // f0 - f7 
00188 PCK4BITS(2,2,2,2,2,2,2,0)   // f8 - ff 
00189 };
00190 
00191 
00192 static PRUint32 EUCKR_st [ 2] = {
00193 PCK4BITS(eError,eStart,     3,eError,eError,eError,eError,eError),//00-07 
00194 PCK4BITS(eItsMe,eItsMe,eItsMe,eItsMe,eError,eError,eStart,eStart) //08-0f 
00195 };
00196 
00197 static const PRUint32 EUCKRCharLenTable[] = {0, 1, 2, 0};
00198 
00199 SMModel EUCKRSMModel = {
00200   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, EUCKR_cls },
00201   4,
00202   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, EUCKR_st },
00203   EUCKRCharLenTable,
00204   "EUC-KR",
00205 };
00206 
00207 static PRUint32 EUCTW_cls [ 256 / 8 ] = {
00208 //PCK4BITS(0,2,2,2,2,2,2,2),  // 00 - 07 
00209 PCK4BITS(2,2,2,2,2,2,2,2),  // 00 - 07 
00210 PCK4BITS(2,2,2,2,2,2,0,0),  // 08 - 0f 
00211 PCK4BITS(2,2,2,2,2,2,2,2),  // 10 - 17 
00212 PCK4BITS(2,2,2,0,2,2,2,2),  // 18 - 1f 
00213 PCK4BITS(2,2,2,2,2,2,2,2),  // 20 - 27 
00214 PCK4BITS(2,2,2,2,2,2,2,2),  // 28 - 2f 
00215 PCK4BITS(2,2,2,2,2,2,2,2),  // 30 - 37 
00216 PCK4BITS(2,2,2,2,2,2,2,2),  // 38 - 3f 
00217 PCK4BITS(2,2,2,2,2,2,2,2),  // 40 - 47 
00218 PCK4BITS(2,2,2,2,2,2,2,2),  // 48 - 4f 
00219 PCK4BITS(2,2,2,2,2,2,2,2),  // 50 - 57 
00220 PCK4BITS(2,2,2,2,2,2,2,2),  // 58 - 5f 
00221 PCK4BITS(2,2,2,2,2,2,2,2),  // 60 - 67 
00222 PCK4BITS(2,2,2,2,2,2,2,2),  // 68 - 6f 
00223 PCK4BITS(2,2,2,2,2,2,2,2),  // 70 - 77 
00224 PCK4BITS(2,2,2,2,2,2,2,2),  // 78 - 7f 
00225 PCK4BITS(0,0,0,0,0,0,0,0),  // 80 - 87 
00226 PCK4BITS(0,0,0,0,0,0,6,0),  // 88 - 8f 
00227 PCK4BITS(0,0,0,0,0,0,0,0),  // 90 - 97 
00228 PCK4BITS(0,0,0,0,0,0,0,0),  // 98 - 9f 
00229 PCK4BITS(0,3,4,4,4,4,4,4),  // a0 - a7 
00230 PCK4BITS(5,5,1,1,1,1,1,1),  // a8 - af 
00231 PCK4BITS(1,1,1,1,1,1,1,1),  // b0 - b7 
00232 PCK4BITS(1,1,1,1,1,1,1,1),  // b8 - bf 
00233 PCK4BITS(1,1,3,1,3,3,3,3),  // c0 - c7 
00234 PCK4BITS(3,3,3,3,3,3,3,3),  // c8 - cf 
00235 PCK4BITS(3,3,3,3,3,3,3,3),  // d0 - d7 
00236 PCK4BITS(3,3,3,3,3,3,3,3),  // d8 - df 
00237 PCK4BITS(3,3,3,3,3,3,3,3),  // e0 - e7 
00238 PCK4BITS(3,3,3,3,3,3,3,3),  // e8 - ef 
00239 PCK4BITS(3,3,3,3,3,3,3,3),  // f0 - f7 
00240 PCK4BITS(3,3,3,3,3,3,3,0)   // f8 - ff 
00241 };
00242 
00243 
00244 static PRUint32 EUCTW_st [ 6] = {
00245 PCK4BITS(eError,eError,eStart,     3,     3,     3,     4,eError),//00-07 
00246 PCK4BITS(eError,eError,eError,eError,eError,eError,eItsMe,eItsMe),//08-0f 
00247 PCK4BITS(eItsMe,eItsMe,eItsMe,eItsMe,eItsMe,eError,eStart,eError),//10-17 
00248 PCK4BITS(eStart,eStart,eStart,eError,eError,eError,eError,eError),//18-1f 
00249 PCK4BITS(     5,eError,eError,eError,eStart,eError,eStart,eStart),//20-27 
00250 PCK4BITS(eStart,eError,eStart,eStart,eStart,eStart,eStart,eStart) //28-2f 
00251 };
00252 
00253 static const PRUint32 EUCTWCharLenTable[] = {0, 0, 1, 2, 2, 2, 3};
00254 
00255 SMModel EUCTWSMModel = {
00256   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, EUCTW_cls },
00257    7,
00258   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, EUCTW_st },
00259   EUCTWCharLenTable,
00260   "x-euc-tw",
00261 };
00262 
00263 /* obsolete GB2312 by gb18030
00264 static PRUint32 GB2312_cls [ 256 / 8 ] = {
00265 //PCK4BITS(0,1,1,1,1,1,1,1),  // 00 - 07 
00266 PCK4BITS(1,1,1,1,1,1,1,1),  // 00 - 07 
00267 PCK4BITS(1,1,1,1,1,1,0,0),  // 08 - 0f 
00268 PCK4BITS(1,1,1,1,1,1,1,1),  // 10 - 17 
00269 PCK4BITS(1,1,1,0,1,1,1,1),  // 18 - 1f 
00270 PCK4BITS(1,1,1,1,1,1,1,1),  // 20 - 27 
00271 PCK4BITS(1,1,1,1,1,1,1,1),  // 28 - 2f 
00272 PCK4BITS(1,1,1,1,1,1,1,1),  // 30 - 37 
00273 PCK4BITS(1,1,1,1,1,1,1,1),  // 38 - 3f 
00274 PCK4BITS(1,1,1,1,1,1,1,1),  // 40 - 47 
00275 PCK4BITS(1,1,1,1,1,1,1,1),  // 48 - 4f 
00276 PCK4BITS(1,1,1,1,1,1,1,1),  // 50 - 57 
00277 PCK4BITS(1,1,1,1,1,1,1,1),  // 58 - 5f 
00278 PCK4BITS(1,1,1,1,1,1,1,1),  // 60 - 67 
00279 PCK4BITS(1,1,1,1,1,1,1,1),  // 68 - 6f 
00280 PCK4BITS(1,1,1,1,1,1,1,1),  // 70 - 77 
00281 PCK4BITS(1,1,1,1,1,1,1,1),  // 78 - 7f 
00282 PCK4BITS(1,0,0,0,0,0,0,0),  // 80 - 87 
00283 PCK4BITS(0,0,0,0,0,0,0,0),  // 88 - 8f 
00284 PCK4BITS(0,0,0,0,0,0,0,0),  // 90 - 97 
00285 PCK4BITS(0,0,0,0,0,0,0,0),  // 98 - 9f 
00286 PCK4BITS(0,2,2,2,2,2,2,2),  // a0 - a7 
00287 PCK4BITS(2,2,3,3,3,3,3,3),  // a8 - af 
00288 PCK4BITS(2,2,2,2,2,2,2,2),  // b0 - b7 
00289 PCK4BITS(2,2,2,2,2,2,2,2),  // b8 - bf 
00290 PCK4BITS(2,2,2,2,2,2,2,2),  // c0 - c7 
00291 PCK4BITS(2,2,2,2,2,2,2,2),  // c8 - cf 
00292 PCK4BITS(2,2,2,2,2,2,2,2),  // d0 - d7 
00293 PCK4BITS(2,2,2,2,2,2,2,2),  // d8 - df 
00294 PCK4BITS(2,2,2,2,2,2,2,2),  // e0 - e7 
00295 PCK4BITS(2,2,2,2,2,2,2,2),  // e8 - ef 
00296 PCK4BITS(2,2,2,2,2,2,2,2),  // f0 - f7 
00297 PCK4BITS(2,2,2,2,2,2,2,0)   // f8 - ff 
00298 };
00299 
00300 
00301 static PRUint32 GB2312_st [ 2] = {
00302 PCK4BITS(eError,eStart,     3,eError,eError,eError,eError,eError),//00-07 
00303 PCK4BITS(eItsMe,eItsMe,eItsMe,eItsMe,eError,eError,eStart,eStart) //08-0f 
00304 };
00305 
00306 static const PRUint32 GB2312CharLenTable[] = {0, 1, 2, 0};
00307 
00308 SMModel GB2312SMModel = {
00309   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, GB2312_cls },
00310    4,
00311   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, GB2312_st },
00312   GB2312CharLenTable,
00313   "GB2312",
00314 };
00315 */
00316 
00317 // the following state machine data was created by perl script in 
00318 // intl/chardet/tools. It should be the same as in PSM detector.
00319 static PRUint32 GB18030_cls [ 256 / 8 ] = {
00320 PCK4BITS(1,1,1,1,1,1,1,1),  // 00 - 07 
00321 PCK4BITS(1,1,1,1,1,1,0,0),  // 08 - 0f 
00322 PCK4BITS(1,1,1,1,1,1,1,1),  // 10 - 17 
00323 PCK4BITS(1,1,1,0,1,1,1,1),  // 18 - 1f 
00324 PCK4BITS(1,1,1,1,1,1,1,1),  // 20 - 27 
00325 PCK4BITS(1,1,1,1,1,1,1,1),  // 28 - 2f 
00326 PCK4BITS(3,3,3,3,3,3,3,3),  // 30 - 37 
00327 PCK4BITS(3,3,1,1,1,1,1,1),  // 38 - 3f 
00328 PCK4BITS(2,2,2,2,2,2,2,2),  // 40 - 47 
00329 PCK4BITS(2,2,2,2,2,2,2,2),  // 48 - 4f 
00330 PCK4BITS(2,2,2,2,2,2,2,2),  // 50 - 57 
00331 PCK4BITS(2,2,2,2,2,2,2,2),  // 58 - 5f 
00332 PCK4BITS(2,2,2,2,2,2,2,2),  // 60 - 67 
00333 PCK4BITS(2,2,2,2,2,2,2,2),  // 68 - 6f 
00334 PCK4BITS(2,2,2,2,2,2,2,2),  // 70 - 77 
00335 PCK4BITS(2,2,2,2,2,2,2,4),  // 78 - 7f 
00336 PCK4BITS(5,6,6,6,6,6,6,6),  // 80 - 87 
00337 PCK4BITS(6,6,6,6,6,6,6,6),  // 88 - 8f 
00338 PCK4BITS(6,6,6,6,6,6,6,6),  // 90 - 97 
00339 PCK4BITS(6,6,6,6,6,6,6,6),  // 98 - 9f 
00340 PCK4BITS(6,6,6,6,6,6,6,6),  // a0 - a7 
00341 PCK4BITS(6,6,6,6,6,6,6,6),  // a8 - af 
00342 PCK4BITS(6,6,6,6,6,6,6,6),  // b0 - b7 
00343 PCK4BITS(6,6,6,6,6,6,6,6),  // b8 - bf 
00344 PCK4BITS(6,6,6,6,6,6,6,6),  // c0 - c7 
00345 PCK4BITS(6,6,6,6,6,6,6,6),  // c8 - cf 
00346 PCK4BITS(6,6,6,6,6,6,6,6),  // d0 - d7 
00347 PCK4BITS(6,6,6,6,6,6,6,6),  // d8 - df 
00348 PCK4BITS(6,6,6,6,6,6,6,6),  // e0 - e7 
00349 PCK4BITS(6,6,6,6,6,6,6,6),  // e8 - ef 
00350 PCK4BITS(6,6,6,6,6,6,6,6),  // f0 - f7 
00351 PCK4BITS(6,6,6,6,6,6,6,0)   // f8 - ff 
00352 };
00353 
00354 
00355 static PRUint32 GB18030_st [ 6] = {
00356 PCK4BITS(eError,eStart,eStart,eStart,eStart,eStart,     3,eError),//00-07 
00357 PCK4BITS(eError,eError,eError,eError,eError,eError,eItsMe,eItsMe),//08-0f 
00358 PCK4BITS(eItsMe,eItsMe,eItsMe,eItsMe,eItsMe,eError,eError,eStart),//10-17 
00359 PCK4BITS(     4,eError,eStart,eStart,eError,eError,eError,eError),//18-1f 
00360 PCK4BITS(eError,eError,     5,eError,eError,eError,eItsMe,eError),//20-27 
00361 PCK4BITS(eError,eError,eStart,eStart,eStart,eStart,eStart,eStart) //28-2f 
00362 };
00363 
00364 // To be accurate, the length of class 6 can be either 2 or 4. 
00365 // But it is not necessary to discriminate between the two since 
00366 // it is used for frequency analysis only, and we are validing 
00367 // each code range there as well. So it is safe to set it to be 
00368 // 2 here. 
00369 static const PRUint32 GB18030CharLenTable[] = {0, 1, 1, 1, 1, 1, 2};
00370 
00371 SMModel GB18030SMModel = {
00372   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, GB18030_cls },
00373    7,
00374   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, GB18030_st },
00375   GB18030CharLenTable,
00376   "GB18030",
00377 };
00378 
00379 // sjis
00380 
00381 static PRUint32 SJIS_cls [ 256 / 8 ] = {
00382 //PCK4BITS(0,1,1,1,1,1,1,1),  // 00 - 07 
00383 PCK4BITS(1,1,1,1,1,1,1,1),  // 00 - 07 
00384 PCK4BITS(1,1,1,1,1,1,0,0),  // 08 - 0f 
00385 PCK4BITS(1,1,1,1,1,1,1,1),  // 10 - 17 
00386 PCK4BITS(1,1,1,0,1,1,1,1),  // 18 - 1f 
00387 PCK4BITS(1,1,1,1,1,1,1,1),  // 20 - 27 
00388 PCK4BITS(1,1,1,1,1,1,1,1),  // 28 - 2f 
00389 PCK4BITS(1,1,1,1,1,1,1,1),  // 30 - 37 
00390 PCK4BITS(1,1,1,1,1,1,1,1),  // 38 - 3f 
00391 PCK4BITS(2,2,2,2,2,2,2,2),  // 40 - 47 
00392 PCK4BITS(2,2,2,2,2,2,2,2),  // 48 - 4f 
00393 PCK4BITS(2,2,2,2,2,2,2,2),  // 50 - 57 
00394 PCK4BITS(2,2,2,2,2,2,2,2),  // 58 - 5f 
00395 PCK4BITS(2,2,2,2,2,2,2,2),  // 60 - 67 
00396 PCK4BITS(2,2,2,2,2,2,2,2),  // 68 - 6f 
00397 PCK4BITS(2,2,2,2,2,2,2,2),  // 70 - 77 
00398 PCK4BITS(2,2,2,2,2,2,2,1),  // 78 - 7f 
00399 PCK4BITS(3,3,3,3,3,3,3,3),  // 80 - 87 
00400 PCK4BITS(3,3,3,3,3,3,3,3),  // 88 - 8f 
00401 PCK4BITS(3,3,3,3,3,3,3,3),  // 90 - 97 
00402 PCK4BITS(3,3,3,3,3,3,3,3),  // 98 - 9f 
00403 //0xa0 is illegal in sjis encoding, but some pages does 
00404 //contain such byte. We need to be more error forgiven.
00405 PCK4BITS(2,2,2,2,2,2,2,2),  // a0 - a7     
00406 PCK4BITS(2,2,2,2,2,2,2,2),  // a8 - af 
00407 PCK4BITS(2,2,2,2,2,2,2,2),  // b0 - b7 
00408 PCK4BITS(2,2,2,2,2,2,2,2),  // b8 - bf 
00409 PCK4BITS(2,2,2,2,2,2,2,2),  // c0 - c7 
00410 PCK4BITS(2,2,2,2,2,2,2,2),  // c8 - cf 
00411 PCK4BITS(2,2,2,2,2,2,2,2),  // d0 - d7 
00412 PCK4BITS(2,2,2,2,2,2,2,2),  // d8 - df 
00413 PCK4BITS(3,3,3,3,3,3,3,3),  // e0 - e7 
00414 PCK4BITS(3,3,3,3,3,4,4,4),  // e8 - ef 
00415 PCK4BITS(4,4,4,4,4,4,4,4),  // f0 - f7 
00416 PCK4BITS(4,4,4,4,4,0,0,0)   // f8 - ff 
00417 };
00418 
00419 
00420 static PRUint32 SJIS_st [ 3] = {
00421 PCK4BITS(eError,eStart,eStart,     3,eError,eError,eError,eError),//00-07 
00422 PCK4BITS(eError,eError,eError,eError,eItsMe,eItsMe,eItsMe,eItsMe),//08-0f 
00423 PCK4BITS(eItsMe,eItsMe,eError,eError,eStart,eStart,eStart,eStart) //10-17 
00424 };
00425 
00426 static const PRUint32 SJISCharLenTable[] = {0, 1, 1, 2, 0, 0};
00427 
00428 SMModel SJISSMModel = {
00429   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, SJIS_cls },
00430    6,
00431   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, SJIS_st },
00432   SJISCharLenTable,
00433   "Shift_JIS",
00434 };
00435 
00436 
00437 static PRUint32 UCS2BE_cls [ 256 / 8 ] = {
00438 PCK4BITS(0,0,0,0,0,0,0,0),  // 00 - 07 
00439 PCK4BITS(0,0,1,0,0,2,0,0),  // 08 - 0f 
00440 PCK4BITS(0,0,0,0,0,0,0,0),  // 10 - 17 
00441 PCK4BITS(0,0,0,3,0,0,0,0),  // 18 - 1f 
00442 PCK4BITS(0,0,0,0,0,0,0,0),  // 20 - 27 
00443 PCK4BITS(0,3,3,3,3,3,0,0),  // 28 - 2f 
00444 PCK4BITS(0,0,0,0,0,0,0,0),  // 30 - 37 
00445 PCK4BITS(0,0,0,0,0,0,0,0),  // 38 - 3f 
00446 PCK4BITS(0,0,0,0,0,0,0,0),  // 40 - 47 
00447 PCK4BITS(0,0,0,0,0,0,0,0),  // 48 - 4f 
00448 PCK4BITS(0,0,0,0,0,0,0,0),  // 50 - 57 
00449 PCK4BITS(0,0,0,0,0,0,0,0),  // 58 - 5f 
00450 PCK4BITS(0,0,0,0,0,0,0,0),  // 60 - 67 
00451 PCK4BITS(0,0,0,0,0,0,0,0),  // 68 - 6f 
00452 PCK4BITS(0,0,0,0,0,0,0,0),  // 70 - 77 
00453 PCK4BITS(0,0,0,0,0,0,0,0),  // 78 - 7f 
00454 PCK4BITS(0,0,0,0,0,0,0,0),  // 80 - 87 
00455 PCK4BITS(0,0,0,0,0,0,0,0),  // 88 - 8f 
00456 PCK4BITS(0,0,0,0,0,0,0,0),  // 90 - 97 
00457 PCK4BITS(0,0,0,0,0,0,0,0),  // 98 - 9f 
00458 PCK4BITS(0,0,0,0,0,0,0,0),  // a0 - a7 
00459 PCK4BITS(0,0,0,0,0,0,0,0),  // a8 - af 
00460 PCK4BITS(0,0,0,0,0,0,0,0),  // b0 - b7 
00461 PCK4BITS(0,0,0,0,0,0,0,0),  // b8 - bf 
00462 PCK4BITS(0,0,0,0,0,0,0,0),  // c0 - c7 
00463 PCK4BITS(0,0,0,0,0,0,0,0),  // c8 - cf 
00464 PCK4BITS(0,0,0,0,0,0,0,0),  // d0 - d7 
00465 PCK4BITS(0,0,0,0,0,0,0,0),  // d8 - df 
00466 PCK4BITS(0,0,0,0,0,0,0,0),  // e0 - e7 
00467 PCK4BITS(0,0,0,0,0,0,0,0),  // e8 - ef 
00468 PCK4BITS(0,0,0,0,0,0,0,0),  // f0 - f7 
00469 PCK4BITS(0,0,0,0,0,0,4,5)   // f8 - ff 
00470 };
00471 
00472 
00473 static PRUint32 UCS2BE_st [ 7] = {
00474 PCK4BITS(     5,     7,     7,eError,     4,     3,eError,eError),//00-07 
00475 PCK4BITS(eError,eError,eError,eError,eItsMe,eItsMe,eItsMe,eItsMe),//08-0f 
00476 PCK4BITS(eItsMe,eItsMe,     6,     6,     6,     6,eError,eError),//10-17 
00477 PCK4BITS(     6,     6,     6,     6,     6,eItsMe,     6,     6),//18-1f 
00478 PCK4BITS(     6,     6,     6,     6,     5,     7,     7,eError),//20-27 
00479 PCK4BITS(     5,     8,     6,     6,eError,     6,     6,     6),//28-2f 
00480 PCK4BITS(     6,     6,     6,     6,eError,eError,eStart,eStart) //30-37 
00481 };
00482 
00483 static const PRUint32 UCS2BECharLenTable[] = {2, 2, 2, 0, 2, 2};
00484 
00485 SMModel UCS2BESMModel = {
00486   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, UCS2BE_cls },
00487    6,
00488   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, UCS2BE_st },
00489   UCS2BECharLenTable,
00490   "UTF-16BE",
00491 };
00492 
00493 static PRUint32 UCS2LE_cls [ 256 / 8 ] = {
00494 PCK4BITS(0,0,0,0,0,0,0,0),  // 00 - 07 
00495 PCK4BITS(0,0,1,0,0,2,0,0),  // 08 - 0f 
00496 PCK4BITS(0,0,0,0,0,0,0,0),  // 10 - 17 
00497 PCK4BITS(0,0,0,3,0,0,0,0),  // 18 - 1f 
00498 PCK4BITS(0,0,0,0,0,0,0,0),  // 20 - 27 
00499 PCK4BITS(0,3,3,3,3,3,0,0),  // 28 - 2f 
00500 PCK4BITS(0,0,0,0,0,0,0,0),  // 30 - 37 
00501 PCK4BITS(0,0,0,0,0,0,0,0),  // 38 - 3f 
00502 PCK4BITS(0,0,0,0,0,0,0,0),  // 40 - 47 
00503 PCK4BITS(0,0,0,0,0,0,0,0),  // 48 - 4f 
00504 PCK4BITS(0,0,0,0,0,0,0,0),  // 50 - 57 
00505 PCK4BITS(0,0,0,0,0,0,0,0),  // 58 - 5f 
00506 PCK4BITS(0,0,0,0,0,0,0,0),  // 60 - 67 
00507 PCK4BITS(0,0,0,0,0,0,0,0),  // 68 - 6f 
00508 PCK4BITS(0,0,0,0,0,0,0,0),  // 70 - 77 
00509 PCK4BITS(0,0,0,0,0,0,0,0),  // 78 - 7f 
00510 PCK4BITS(0,0,0,0,0,0,0,0),  // 80 - 87 
00511 PCK4BITS(0,0,0,0,0,0,0,0),  // 88 - 8f 
00512 PCK4BITS(0,0,0,0,0,0,0,0),  // 90 - 97 
00513 PCK4BITS(0,0,0,0,0,0,0,0),  // 98 - 9f 
00514 PCK4BITS(0,0,0,0,0,0,0,0),  // a0 - a7 
00515 PCK4BITS(0,0,0,0,0,0,0,0),  // a8 - af 
00516 PCK4BITS(0,0,0,0,0,0,0,0),  // b0 - b7 
00517 PCK4BITS(0,0,0,0,0,0,0,0),  // b8 - bf 
00518 PCK4BITS(0,0,0,0,0,0,0,0),  // c0 - c7 
00519 PCK4BITS(0,0,0,0,0,0,0,0),  // c8 - cf 
00520 PCK4BITS(0,0,0,0,0,0,0,0),  // d0 - d7 
00521 PCK4BITS(0,0,0,0,0,0,0,0),  // d8 - df 
00522 PCK4BITS(0,0,0,0,0,0,0,0),  // e0 - e7 
00523 PCK4BITS(0,0,0,0,0,0,0,0),  // e8 - ef 
00524 PCK4BITS(0,0,0,0,0,0,0,0),  // f0 - f7 
00525 PCK4BITS(0,0,0,0,0,0,4,5)   // f8 - ff 
00526 };
00527 
00528 
00529 static PRUint32 UCS2LE_st [ 7] = {
00530 PCK4BITS(     6,     6,     7,     6,     4,     3,eError,eError),//00-07 
00531 PCK4BITS(eError,eError,eError,eError,eItsMe,eItsMe,eItsMe,eItsMe),//08-0f 
00532 PCK4BITS(eItsMe,eItsMe,     5,     5,     5,eError,eItsMe,eError),//10-17 
00533 PCK4BITS(     5,     5,     5,eError,     5,eError,     6,     6),//18-1f 
00534 PCK4BITS(     7,     6,     8,     8,     5,     5,     5,eError),//20-27 
00535 PCK4BITS(     5,     5,     5,eError,eError,eError,     5,     5),//28-2f 
00536 PCK4BITS(     5,     5,     5,eError,     5,eError,eStart,eStart) //30-37 
00537 };
00538 
00539 static const PRUint32 UCS2LECharLenTable[] = {2, 2, 2, 2, 2, 2};
00540 
00541 SMModel UCS2LESMModel = {
00542   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, UCS2LE_cls },
00543    6,
00544   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, UCS2LE_st },
00545   UCS2LECharLenTable,
00546   "UTF-16LE",
00547 };
00548 
00549 
00550 static PRUint32 UTF8_cls [ 256 / 8 ] = {
00551 //PCK4BITS(0,1,1,1,1,1,1,1),  // 00 - 07 
00552 PCK4BITS(1,1,1,1,1,1,1,1),  // 00 - 07  //allow 0x00 as a legal value
00553 PCK4BITS(1,1,1,1,1,1,0,0),  // 08 - 0f 
00554 PCK4BITS(1,1,1,1,1,1,1,1),  // 10 - 17 
00555 PCK4BITS(1,1,1,0,1,1,1,1),  // 18 - 1f 
00556 PCK4BITS(1,1,1,1,1,1,1,1),  // 20 - 27 
00557 PCK4BITS(1,1,1,1,1,1,1,1),  // 28 - 2f 
00558 PCK4BITS(1,1,1,1,1,1,1,1),  // 30 - 37 
00559 PCK4BITS(1,1,1,1,1,1,1,1),  // 38 - 3f 
00560 PCK4BITS(1,1,1,1,1,1,1,1),  // 40 - 47 
00561 PCK4BITS(1,1,1,1,1,1,1,1),  // 48 - 4f 
00562 PCK4BITS(1,1,1,1,1,1,1,1),  // 50 - 57 
00563 PCK4BITS(1,1,1,1,1,1,1,1),  // 58 - 5f 
00564 PCK4BITS(1,1,1,1,1,1,1,1),  // 60 - 67 
00565 PCK4BITS(1,1,1,1,1,1,1,1),  // 68 - 6f 
00566 PCK4BITS(1,1,1,1,1,1,1,1),  // 70 - 77 
00567 PCK4BITS(1,1,1,1,1,1,1,1),  // 78 - 7f 
00568 PCK4BITS(2,2,2,2,3,3,3,3),  // 80 - 87 
00569 PCK4BITS(4,4,4,4,4,4,4,4),  // 88 - 8f 
00570 PCK4BITS(4,4,4,4,4,4,4,4),  // 90 - 97 
00571 PCK4BITS(4,4,4,4,4,4,4,4),  // 98 - 9f 
00572 PCK4BITS(5,5,5,5,5,5,5,5),  // a0 - a7 
00573 PCK4BITS(5,5,5,5,5,5,5,5),  // a8 - af 
00574 PCK4BITS(5,5,5,5,5,5,5,5),  // b0 - b7 
00575 PCK4BITS(5,5,5,5,5,5,5,5),  // b8 - bf 
00576 PCK4BITS(0,0,6,6,6,6,6,6),  // c0 - c7 
00577 PCK4BITS(6,6,6,6,6,6,6,6),  // c8 - cf 
00578 PCK4BITS(6,6,6,6,6,6,6,6),  // d0 - d7 
00579 PCK4BITS(6,6,6,6,6,6,6,6),  // d8 - df 
00580 PCK4BITS(7,8,8,8,8,8,8,8),  // e0 - e7 
00581 PCK4BITS(8,8,8,8,8,9,8,8),  // e8 - ef 
00582 PCK4BITS(10,11,11,11,11,11,11,11),  // f0 - f7 
00583 PCK4BITS(12,13,13,13,14,15,0,0)   // f8 - ff 
00584 };
00585 
00586 
00587 static PRUint32 UTF8_st [ 26] = {
00588 PCK4BITS(eError,eStart,eError,eError,eError,eError,     12,     10),//00-07 
00589 PCK4BITS(     9,     11,     8,     7,     6,     5,     4,     3),//08-0f 
00590 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//10-17 
00591 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//18-1f 
00592 PCK4BITS(eItsMe,eItsMe,eItsMe,eItsMe,eItsMe,eItsMe,eItsMe,eItsMe),//20-27 
00593 PCK4BITS(eItsMe,eItsMe,eItsMe,eItsMe,eItsMe,eItsMe,eItsMe,eItsMe),//28-2f 
00594 PCK4BITS(eError,eError,     5,     5,     5,     5,eError,eError),//30-37 
00595 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//38-3f 
00596 PCK4BITS(eError,eError,eError,     5,     5,     5,eError,eError),//40-47 
00597 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//48-4f 
00598 PCK4BITS(eError,eError,     7,     7,     7,     7,eError,eError),//50-57 
00599 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//58-5f 
00600 PCK4BITS(eError,eError,eError,eError,     7,     7,eError,eError),//60-67 
00601 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//68-6f 
00602 PCK4BITS(eError,eError,     9,     9,     9,     9,eError,eError),//70-77 
00603 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//78-7f 
00604 PCK4BITS(eError,eError,eError,eError,eError,     9,eError,eError),//80-87 
00605 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//88-8f 
00606 PCK4BITS(eError,eError,     12,     12,     12,     12,eError,eError),//90-97 
00607 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//98-9f 
00608 PCK4BITS(eError,eError,eError,eError,eError,     12,eError,eError),//a0-a7 
00609 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//a8-af 
00610 PCK4BITS(eError,eError,     12,     12,     12,eError,eError,eError),//b0-b7 
00611 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError),//b8-bf 
00612 PCK4BITS(eError,eError,eStart,eStart,eStart,eStart,eError,eError),//c0-c7 
00613 PCK4BITS(eError,eError,eError,eError,eError,eError,eError,eError) //c8-cf 
00614 };
00615 
00616 static const PRUint32 UTF8CharLenTable[] = {0, 1, 0, 0, 0, 0, 2, 3, 
00617                             3, 3, 4, 4, 5, 5, 6, 6 };
00618 
00619 SMModel UTF8SMModel = {
00620   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, UTF8_cls },
00621    16,
00622   {eIdxSft4bits, eSftMsk4bits, eBitSft4bits, eUnitMsk4bits, UTF8_st },
00623   UTF8CharLenTable,
00624   "UTF-8",
00625 };
00626