PDF Text Extractor.

Este proyecto es un script en Python diseñado para extraer texto de archivos PDF e imágenes, utilizando OCR (Reconocimiento Óptico de Caracteres) con Tesseract. Además, es capaz de manejar archivos individuales o carpetas completas, optimizando el rendimiento mediante procesamiento paralelo.

🚀 Características.

Extracción de texto de PDFs: Utiliza PyMuPDF (fitz) para obtener texto embebido.
OCR en Imágenes: Aplica OCR a imágenes extraídas de PDFs o proporcionadas directamente.
Procesamiento paralelo: Maneja múltiples imágenes al mismo tiempo para mejorar la velocidad.
Preprocesamiento de imágenes: Mejora los resultados del OCR mediante escalas de grises, aumento de contraste, y binarización.
Soporte para múltiples idiomas: Configurable para español e inglés por defecto.

🛠 Requisitos.

Python 3.x
Tesseract OCR instalado en el sistema
Dependencias listadas en requirements.txt

Instalación de Tesseract.

En sistemas basados en Arch Linux (como EndeavourOS), instala Tesseract con:

sudo pacman -S tesseract tesseract-data-eng tesseract-data-spa

En sistemas basados en Ubuntu, instala Tesseract con:

sudo apt update
sudo apt install tesseract-ocr tesseract-ocr-eng tesseract-ocr-spa

⚙️ Configuración.

El archivo config.py contiene parámetros globales que puedes ajustar:

DEFAULT_LANGUAGE = 'spa+eng' # Idioma predeterminado para OCR DEFAULT_OUTPUT_FOLDER = 'output/' # Carpeta donde se guardarán los resultados

🚀 Uso.

Configura un entorno virtual (opcional pero recomendado):

python -m venv env
source env/bin/activate  # En Linux/MacOS
env\Scripts\activate     # En Windows

Instala las dependencias:

pip install -r requirements.txt

Ejecuta el script:

python main.py

Sigue las instrucciones en pantalla para seleccionar un archivo o carpeta para procesar.

💾 Salida.

Los textos extraídos se guardan en la carpeta configurada en DEFAULT_OUTPUT_FOLDER (por defecto output/).
Puedes personalizar el nombre del archivo de salida.

🐞 Solución de Problemas.

Error de "ModuleNotFoundError": Asegúrate de que todas las dependencias estén instaladas:

pip install -r requirements.txt

Tesseract no funciona: Verifica que Tesseract esté correctamente instalado y configurado en tu sistema.

📃 Licencia.

Este proyecto está bajo la Licencia MIT. Puedes consultarla en el archivo LICENSE.

🤝 Contribuciones.

¡Las contribuciones siempre son bienvenidas! Si tienes ideas, mejoras o encuentras errores, por favor abre un issue o envía un pull request.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
settings		settings
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
file_processor.py		file_processor.py
main.py		main.py
requirements.txt		requirements.txt
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PDF Text Extractor.

🚀 Características.

🛠 Requisitos.

Instalación de Tesseract.

⚙️ Configuración.

🚀 Uso.

💾 Salida.

🐞 Solución de Problemas.

📃 Licencia.

🤝 Contribuciones.

About

Releases

Packages

Languages

License

C35D3V/pdf_read_text

Folders and files

Latest commit

History

Repository files navigation

PDF Text Extractor.

🚀 Características.

🛠 Requisitos.

Instalación de Tesseract.

⚙️ Configuración.

🚀 Uso.

💾 Salida.

🐞 Solución de Problemas.

📃 Licencia.

🤝 Contribuciones.

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages