Mudança de referências de caracteres HTML para UTF-8 em um script ie. & # 257; torna-se um

votos
5

Como você iria sobre a tradução de um documento que contém as seguintes referências de caracteres para seus caracteres legíveis reais em um script bash?

ā á ǎ à ē é ě è ī í ǐ ì ǖ ǘ ǚ ǜ ü ǖ ǘ ǚ ǜ ü

Estas mudanças, a fim de   ǎ A E E E E i i ǐ ì ǖ ǘ ǚ ǜ ü ǖ ǘ ǚ ǜ ü

Publicado 23/02/2009 em 05:27
fonte usuário
Em outras línguas...                            


2 respostas

votos
3

Se você tiver acesso a Perl, então é relativamente simples:

perl -ne 'binmode STDOUT,":utf8";s/&#([0-9]*);/pack("U",$1)/eg;print' \
  document.html

Exemplo:

#!/bin/bash
html2utf8() {
  perl -ne 'binmode STDOUT, ":utf8"; s/&#([0-9]*);/pack("U",$1)/eg; print'
}
echo 'testing 1 ā 2 Ĭ 3 ē' | html2utf8

produz:

testing 1 ā 2 Ĭ 3 ē
Respondeu 23/02/2009 em 05:53
fonte usuário

votos
1

Se você está procurando uma festa única maneira de fazer isso, parece que existem algumas soluções neste tópico: http://forums.gentoo.org/viewtopic-t-820377-view-previous.html?sid=b35246f20410ba95ee048970d01ac6b3

Respondeu 18/07/2010 em 04:16
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more