Re: SV: [htdig] Foreign chars (Swedish)


Subject: Re: SV: [htdig] Foreign chars (Swedish)
From: Philippe Ramkvist-Henry (phira600@student.liu.se)
Date: Fri Nov 26 1999 - 05:08:26 PST


On Thu, 25 Nov 1999, Gilles Detillieux wrote:
>
> OK, so the word ttestupan appears in there as ttestupan, correct?
> Very strange. So searches for words containing will find words with
> in its place, as expected, but searches for words containing will
> match neither nor , is that right? I'm at a bit of a loss to explain
> it, but at some point it would seem that htsearch is mangling the lower
> case . Do you have any documents containing a lower case somewhere
> in a word, and if so, does that word make it into db.wordlist correctly?

All correct and the words make it into the db.wordlist correctly.
Example:

anlnde i:269 l:150 w:1652 c:2 a:4
anlnde i:475 l:285 w:715
anlnde i:581 l:295 w:705 a:1
anlnde i:586 l:394 w:606
anlnder i:146 l:466 w:534
anlnder i:282 l:466 w:534
 
and

ter i:576 l:606 w:394 a:14
tit i:531 l:603 w:397
tit i:586 l:636 w:364
ttestupan i:109 l:558 w:442
ttestupan i:126 l:465 w:535

> I still suspect a problem with ctype for your locale. Could you compile
> and run the following C program on your system, and send me the output?
> (Run it with the name of your locale, "sv", as an argument.)

Ok, here you go:

su10-6 <6> cc test.c
su10-6 <7> a.out sv
  0 0x00: ^@ A---------c-?
  1 0x01: ^A A---------c-?
  2 0x02: ^B A---------c-?
  3 0x03: ^C A---------c-?
  4 0x04: ^D A---------c-?
  5 0x05: ^E A---------c-?
  6 0x06: ^F A---------c-?
  7 0x07: ^G A---------c-?
  8 0x08: ^H A---------c-?
  9 0x09: ^I A---------cs?
 10 0x0A: ^J A---------cs?
 11 0x0B: ^K A---------cs?
 12 0x0C: ^L A---------cs?
 13 0x0D: ^M A---------cs?
 14 0x0E: ^N A---------c-?
 15 0x0F: ^O A---------c-?
 16 0x10: ^P A---------c-?
 17 0x11: ^Q A---------c-?
 18 0x12: ^R A---------c-?
 19 0x13: ^S A---------c-?
 20 0x14: ^T A---------c-?
 21 0x15: ^U A---------c-?
 22 0x16: ^V A---------c-?
 23 0x17: ^W A---------c-?
 24 0x18: ^X A---------c-?
 25 0x19: ^Y A---------c-?
 26 0x1A: ^Z A---------c-?
 27 0x1B: ^[ A---------c-?
 28 0x1C: ^\ A---------c-?
 29 0x1D: ^] A---------c-?
 30 0x1E: ^^ A---------c-?
 31 0x1F: ^_ A---------c-?
 32 0x20: A-------t--s?
 33 0x21: ! A------gtp--?
 34 0x22: " A------gtp--?
 35 0x23: # A------gtp--?
 36 0x24: $ A------gtp--?
 37 0x25: % A------gtp--?
 38 0x26: & A------gtp--?
 39 0x27: ' A------gtp--?
 40 0x28: ( A------gtp--?
 41 0x29: ) A------gtp--?
 42 0x2A: * A------gtp--?
 43 0x2B: + A------gtp--?
 44 0x2C: , A------gtp--?
 45 0x2D: - A------gtp--?
 46 0x2E: . A------gtp--?
 47 0x2F: / A------gtp--?
 48 0x30: 0 A---ndxgt---?
 49 0x31: 1 A---ndxgt---?
 50 0x32: 2 A---ndxgt---?
 51 0x33: 3 A---ndxgt---?
 52 0x34: 4 A---ndxgt---?
 53 0x35: 5 A---ndxgt---?
 54 0x36: 6 A---ndxgt---?
 55 0x37: 7 A---ndxgt---?
 56 0x38: 8 A---ndxgt---?
 57 0x39: 9 A---ndxgt---?
 58 0x3A: : A------gtp--?
 59 0x3B: ; A------gtp--?
 60 0x3C: < A------gtp--?
 61 0x3D: = A------gtp--?
 62 0x3E: > A------gtp--?
 63 0x3F: ? A------gtp--?
 64 0x40: @ A------gtp--?
 65 0x41: A Aa-un-xgt---?
 66 0x42: B Aa-un-xgt---?
 67 0x43: C Aa-un-xgt---?
 68 0x44: D Aa-un-xgt---?
 69 0x45: E Aa-un-xgt---?
 70 0x46: F Aa-un-xgt---?
 71 0x47: G Aa-un--gt---?
 72 0x48: H Aa-un--gt---?
 73 0x49: I Aa-un--gt---?
 74 0x4A: J Aa-un--gt---?
 75 0x4B: K Aa-un--gt---?
 76 0x4C: L Aa-un--gt---?
 77 0x4D: M Aa-un--gt---?
 78 0x4E: N Aa-un--gt---?
 79 0x4F: O Aa-un--gt---?
 80 0x50: P Aa-un--gt---?
 81 0x51: Q Aa-un--gt---?
 82 0x52: R Aa-un--gt---?
 83 0x53: S Aa-un--gt---?
 84 0x54: T Aa-un--gt---?
 85 0x55: U Aa-un--gt---?
 86 0x56: V Aa-un--gt---?
 87 0x57: W Aa-un--gt---?
 88 0x58: X Aa-un--gt---?
 89 0x59: Y Aa-un--gt---?
 90 0x5A: Z Aa-un--gt---?
 91 0x5B: [ A------gtp--?
 92 0x5C: \ A------gtp--?
 93 0x5D: ] A------gtp--?
 94 0x5E: ^ A------gtp--?
 95 0x5F: _ A------gtp--?
 96 0x60: ` A------gtp--?
 97 0x61: a Aal-n-xgt---?
 98 0x62: b Aal-n-xgt---?
 99 0x63: c Aal-n-xgt---?
100 0x64: d Aal-n-xgt---?
101 0x65: e Aal-n-xgt---?
102 0x66: f Aal-n-xgt---?
103 0x67: g Aal-n--gt---?
104 0x68: h Aal-n--gt---?
105 0x69: i Aal-n--gt---?
106 0x6A: j Aal-n--gt---?
107 0x6B: k Aal-n--gt---?
108 0x6C: l Aal-n--gt---?
109 0x6D: m Aal-n--gt---?
110 0x6E: n Aal-n--gt---?
111 0x6F: o Aal-n--gt---?
112 0x70: p Aal-n--gt---?
113 0x71: q Aal-n--gt---?
114 0x72: r Aal-n--gt---?
115 0x73: s Aal-n--gt---?
116 0x74: t Aal-n--gt---?
117 0x75: u Aal-n--gt---?
118 0x76: v Aal-n--gt---?
119 0x77: w Aal-n--gt---?
120 0x78: x Aal-n--gt---?
121 0x79: y Aal-n--gt---?
122 0x7A: z Aal-n--gt---?
123 0x7B: { A------gtp--?
124 0x7C: | A------gtp--?
125 0x7D: } A------gtp--?
126 0x7E: ~ A------gtp--?
127 0x7F: ^? A---------c-?
128 0x80: ~@ ----------c-?
129 0x81: ~A ----------c-?
130 0x82: ~B ----------c-?
131 0x83: ~C ----------c-?
132 0x84: ~D ----------c-?
133 0x85: ~E ----------c-?
134 0x86: ~F ----------c-?
135 0x87: ~G ----------c-?
136 0x88: ~H ----------c-?
137 0x89: ~I ----------c-?
138 0x8A: ~J ----------c-?
139 0x8B: ~K ----------c-?
140 0x8C: ~L ----------c-?
141 0x8D: ~M ----------c-?
142 0x8E: ~N ----------c-?
143 0x8F: ~O ----------c-?
144 0x90: ~P ----------c-?
145 0x91: ~Q ----------c-?
146 0x92: ~R ----------c-?
147 0x93: ~S ----------c-?
148 0x94: ~T ----------c-?
149 0x95: ~U ----------c-?
150 0x96: ~V ----------c-?
151 0x97: ~W ----------c-?
152 0x98: ~X ----------c-?
153 0x99: ~Y ----------c-?
154 0x9A: ~Z ----------c-?
155 0x9B: ~[ ----------c-?
156 0x9C: ~\ ----------c-?
157 0x9D: ~] ----------c-?
158 0x9E: ~^ ----------c-?
159 0x9F: ~_ ----------c-?
160 0xA0: --------t--s?
161 0xA1: -------gtp--?
162 0xA2: -------gtp--?
163 0xA3: -------gtp--?
164 0xA4: -------gtp--?
165 0xA5: -------gtp--?
166 0xA6: -------gtp--?
167 0xA7: -------gtp--?
168 0xA8: -------gtp--?
169 0xA9: -------gtp--?
170 0xAA: -------gtp--?
171 0xAB: -------gtp--?
172 0xAC: -------gtp--?
173 0xAD: -------gtp--?
174 0xAE: -------gtp--?
175 0xAF: -------gtp--?
176 0xB0: -------gtp--?
177 0xB1: -------gtp--?
178 0xB2: -------gtp--?
179 0xB3: -------gtp--?
180 0xB4: -------gtp--?
181 0xB5: -------gtp--?
182 0xB6: -------gtp--?
183 0xB7: -------gtp--?
184 0xB8: -------gtp--?
185 0xB9: -------gtp--?
186 0xBA: -------gtp--?
187 0xBB: -------gtp--?
188 0xBC: -------gtp--?
189 0xBD: -------gtp--?
190 0xBE: -------gtp--?
191 0xBF: -------gtp--?
192 0xC0: -a-un--gt---?
193 0xC1: -a-un--gt---?
194 0xC2: -a-un--gt---?
195 0xC3: -a-un--gt---?
196 0xC4: -a-un--gt---?
197 0xC5: -a-un--gt---?
198 0xC6: -a-un--gt---?
199 0xC7: -a-un--gt---?
200 0xC8: -a-un--gt---?
201 0xC9: -a-un--gt---?
202 0xCA: -a-un--gt---?
203 0xCB: -a-un--gt---?
204 0xCC: -a-un--gt---?
205 0xCD: -a-un--gt---?
206 0xCE: -a-un--gt---?
207 0xCF: -a-un--gt---?
208 0xD0: -a-un--gt---?
209 0xD1: -a-un--gt---?
210 0xD2: -a-un--gt---?
211 0xD3: -a-un--gt---?
212 0xD4: -a-un--gt---?
213 0xD5: -a-un--gt---?
214 0xD6: -a-un--gt---?
215 0xD7: -------gtp--?
216 0xD8: -a-un--gt---?
217 0xD9: -a-un--gt---?
218 0xDA: -a-un--gt---?
219 0xDB: -a-un--gt---?
220 0xDC: -a-un--gt---?
221 0xDD: -a-un--gt---?
222 0xDE: -a-un--gt---?
223 0xDF: -al-n--gt---?
224 0xE0: -al-n--gt---?
225 0xE1: -al-n--gt---?
226 0xE2: -al-n--gt---?
227 0xE3: -al-n--gt---?
228 0xE4: -al-n--gt---?
229 0xE5: -al-n--gt---?
230 0xE6: -al-n--gt---?
231 0xE7: -al-n--gt---?
232 0xE8: -al-n--gt---?
233 0xE9: -al-n--gt---?
234 0xEA: -al-n--gt---?
235 0xEB: -al-n--gt---?
236 0xEC: -al-n--gt---?
237 0xED: -al-n--gt---?
238 0xEE: -al-n--gt---?
239 0xEF: -al-n--gt---?
240 0xF0: -al-n--gt---?
241 0xF1: -al-n--gt---?
242 0xF2: -al-n--gt---?
243 0xF3: -al-n--gt---?
244 0xF4: -al-n--gt---?
245 0xF5: -al-n--gt---?
246 0xF6: -al-n--gt---?
247 0xF7: -------gtp--?
248 0xF8: -al-n--gt---?
249 0xF9: -al-n--gt---?
250 0xFA: -al-n--gt---?
251 0xFB: -al-n--gt---?
252 0xFC: -al-n--gt---?
253 0xFD: -al-n--gt---?
254 0xFE: -al-n--gt---?
255 0xFF: -al-n--gt---?

Here is some extra info:

su10-6 <8> version
Machine hardware: sun4u
OS version: 5.7
Processor type: sparc
Hardware: SUNW,Ultra-5_10

The following components are installed on your system:

Sun WorkShop University Edition 5.0
        Sun WorkShop Compiler C 5.0
        Sun WorkShop Compiler C++ 5.0
        Sun WorkShop Compiler FORTRAN 77 5.0
        Sun WorkShop Compiler Fortran 90 2.0
        Sun WorkShop Tools.h++ 7.0
        Sun WorkShop Standard 64-bit Class Library 2.0 for C++
        Sun WorkShop Garbage Collector Libraries 1.0 for C++
        Sun WorkShop Visual 3.0
        Sun WorkShop IPE 5.0
        Sun WorkShop TeamWare 2.1
        Sun WorkShop FileMerge 3.1
        Sun WorkShop Dbx 5.0
        Sun Performance Library 2.0
        Sun WorkShop Performance Analyzer 5.0
        Sun WorkShop LoopTool 2.2
        Sun WorkShop LockLint 2.2
        XEmacs 20.4 Source Distribution

 
> Does using a locale of sv_SE (or even something entirely like fr or
> fr_FR) make any difference in your results?

I can't set locale to sv_SE in the htdig.conf file because I get "unknown
locale". The available (Swedish) locales are:

sv
sv.ISO8859-15
sv.ISO8859-15@euro
sv.UTF-8
sv.UTF-8@euro

And for the long-shot
question,
> do are your documents use ISO 8859-1 (Latin 1) encoding, or are there some
> that use a 7-bit encoding for Sweden?

Eh, I would guess that all use Latin-1, most indexed documents (99%) are
plaint HTML files.

------------------------------------
To unsubscribe from the htdig mailing list, send a message to
htdig-unsubscribe@htdig.org
You'll receive a message confirming the unsubscription.



This archive was generated by hypermail 2b25 : Fri Nov 26 1999 - 05:20:32 PST