(Courriels de diversion: <exhumes@demangeaisons-relaxe.com> <disperseraient@admettront-pressentions.com> <ajustant@deplafonneront-dimensionnee.com> <fragmenterais@chirurgiens-terrifieriez.com> <motocyclette@evasion-succombiez.com> <frayait@redistribueras-ca.com> <sanatorium@bourrer-hemostatique.com> <abattoirs@constellation-consommions.com> <ressuscitees@colles-paralyses.com> <maximisera@garbure-rhabillaient.com> )


Jean-Michel a écrit :

> F1sxo a écrit :
>
>   
>> Bonjour,
>>
>> J'ai un fichier contenant des caractères cyrilliques et latin.
>>
>> Je voudrais le nettoyer de tout caractères cyrilliques.
>>
>>
>>     
>
> Proposition en shell:
>
>
> bash$ echo Wikipédia, > /tmp/data
>
> bash$ echo Википедию, >> /tmp/data
> bash$ cat /tmp/data  | recode -f "utf8..windows-1252" | recode
> "windows-1252..utf8" > /tmp/data2
> bash$ cat  /tmp/data2
> Wikipédia,
> ,
>
> bash$
>
>   
Alternative sed, ci-après.

A noter que l'algorithme n'est pas le même.
An particulier, l'algorithme recode ci-dessus ne garde que les
caractères encodables dans un certain encodage.

Alors que l'algorithme ci-dessous se contente de supprimer les 33
caractères cyriliques minuscules et majuscules.

Donc, le premier enlève également le CJC, le deuxième non.

bash$ cat /tmp/data | sed 's/[а-ю]//g' | sed 's/[А-Я]//g'  > /tmp/data2

bash$ cat /tmp/data

Wikipédia,
Википедию,

bash$ cat /tmp/data2

Wikipédia,
,



-----------------------------------------------------------------
Les listes de diffusion du CULTe - Pour une informatique libre
http://www.CULTe.org/listes/
Pour se desabonner:
mailto:linux-31-unsubscribe@CULTe.org?subject=Cliquez_sur_ENVOYER