Instale o dos2unix
$ sudo apt-get install dos2unix
Corrigir quebra de linha
$ dos2unix arquivo.txt
Converter charset de CP850 para UTF-8
$ iconv -f CP850 -t UTF-8 arquivo.txt -o arquivo_corrigido.txt
converter arquivos de texto do WordStar para formato moderno (WordStar 5.0 e WordStar 7.1)
$ cat arquivo.txt | iconv -f CP850 -t UTF-8//TRANSLIT | sed 's/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]//g' > convertido.txt
$ iconv -f CP850 -t UTF-8 original_file.txt -o converted_file.txt
ou
iconv -f CP850 -t UTF-8//TRANSLIT "arquivo.txt" | tr -d '\000-\010\013\014\016-\037\177' > "convertido.txt"
Converte apenas o strings (Modo bruto - extrai sequências contínuas de caracteres ASCII imprimíveis)
$ strings arquivo.ws > limpo.txt
Sobre o MS-DOS:
CP437 (MS-DOS americano)
CP850 (MS-DOS internacional)
WINDOWS-1252 (Windows)
UTF-8 (Linux moderno)
OBS: caso queira obter mais informações sobre a codificação do arquivo utilize os comandos file e uchardet
Nenhum comentário:
Postar um comentário