Лучше просто рендерить PDF-файлы как изображения и затем использовать OCR, чем читать их напрямую?