reencantándose…
tesseract >
OCR de HP, open sourceado y retomado por Google.
Disponible en Debian vía aptitude
sudo apt-get install tesseract-ocr
el paquete español se baja aparte
sudo apt-get install tesseract-ocr-spa
Una primera prueba funciona de lo lindo
tesseract STP.jpg test -l spa
Nótese la opción -l spa, para indicarle que está en castellano.
Da el siguiente test.txt
NIL NOVI Nada Nuevo Nada Nuevo Bajo el Sol Bajo 1a tierra Bajo la escala por Bajo la cual Evita pasar el Supersticioso. ¿Todo de nuevo! Así de complicado: LAS LETRAS ese, te y pe pertenecientes al alfabeto latino constituyen y conforman la trade mark marca registrada, comarca gráfica —y a la vez, el logotipo- de cierto aceite para motores, substancia lubricante dela cual se dice que tenía —que al menos en algún momento tuvo— (1) poderes sicodélicos o sicotomiméticos. Según datos más recientes, que nos merecen más confianza, se trataría de una homología entre la sigla del aceite i en cuestión —la marca del mismo- y un sicofármaco ' emparentado con -las anfetaminas y la benzedrina —esto es, poseedor de poderes sico tró picos a de un alcance de nombres ase», a, más probablemente, ‘timo
Este último hashís en cursiva es una nota al pié… ésto dará problemas al escanear libros.
cuneiform
También está este algoritmo en el package manager de Debian
sudo apt-get install cuneiform
Se vé más pulento porque en teoría reconoce formatos y además ofrece salidas en html, ¿y hasta TeX?
cuneiform -l spa STP.jpg
da el siguiente cuneiform -l spa STP-1.1.jpg
NIL NOVI Nada Nuevo Nada Nuevo Bajo el Sol Bajo la tierra Bajo la escala por Bajo la cual Evita pasar el Supersticioso. ¹Todo de nuevo! Así de complicado LAS LETRAS ese, te y pe pertenecientes al alfabeto latino constituyen y conforman la trade mark marca registrada, comarca gráfica — y a la vez, el logotipo— de cierto aceite para motores, substancia lubricante de la cual se dice que tenía — que al menos en algún momento tuvo — (1) poderes sicodélicos o sicotomiméticos. Según datos más recientes, que nos merecen más confianza, se trataría de una homología entre la sigla del aceite en cuestión — la marca del mismo — y un sicofármaco emparentado con las anfetaminas y la benzedrina — esto es, poseedor de poderes sico tro picos 4 , '*C'„ (I).,a, nj>..r@t.'.que, ee trate de ttn alcance.de notnbres : : ; - - ;: ','..:::", Ae 'letras, :É Él. eÁ te t!rtea-., a, tnah /PrcP&a & lentente, ,Áe'ttlgMÁ sltnpk'"::trl~Ãi~ pttblteÍPArít>,
Mmmm
Con -f smarttext da exactamente lo mismo, y con -f html es HTML efectivamente, pero la nota al pie sigue siendo cualquier cosa, cuando podría ser un simple <hr/> por último… Con -f rtf lo choro es que respeta los espacios (diagramación del poema).
En todos los casos aparecen caracteres raros, es decir que el OCR es menos pulcro.