terça-feira, 13 de maio de 2025

Converter txt de MS-DOS para Linux

Instale o dos2unix
$ sudo apt-get install dos2unix

Corrigir quebra de linha
$ dos2unix arquivo.txt

Converter charset de CP850 para UTF-8
$ iconv -f CP850 -t UTF-8 arquivo.txt -o arquivo_corrigido.txt

converter arquivos de texto do WordStar para formato moderno (WordStar 5.0 e WordStar 7.1)

$ cat arquivo.txt | iconv -f CP850 -t UTF-8//TRANSLIT | sed 's/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]//g' > convertido.txt

$ iconv -f CP850 -t UTF-8 original_file.txt -o converted_file.txt

ou

iconv -f CP850 -t UTF-8//TRANSLIT "arquivo.txt" | tr -d '\000-\010\013\014\016-\037\177' > "convertido.txt"

Converte apenas o strings (Modo bruto - extrai sequências contínuas de caracteres ASCII imprimíveis)

$ strings arquivo.ws > limpo.txt

Sobre o MS-DOS:

CP437 (MS-DOS americano)
CP850 (MS-DOS internacional)
WINDOWS-1252 (Windows)
UTF-8 (Linux moderno)

OBS: caso queira obter mais informações sobre a codificação do arquivo utilize os comandos file e uchardet

Nenhum comentário:

Postar um comentário