para converter o pdf em texto selecionavel
Instale
$ sudo apt install ocrmypdf tesseract-ocr
para utilizar
$ ocrmypdf ENTRADA-nome-do-arquivo.pdf SAIDA-nome-do-arquivo.pdf
alternativa
há uma outra alternativa que é o
Kraken OCR
para instalar
sudo apt install python3-pip python3-venv
# Crie e ative um ambiente virtual
python3 -m venv kraken-venv
source kraken-venv/bin/activate
# Instale o Kraken
pip install kraken
# uso basico
kraken -i imagem.png output.txt binarize segment ocr