reencantándose…

tesseract >

OCR de HP, open sourceado y retomado por Google.
Disponible en Debian vía aptitude

sudo apt-get install tesseract-ocr

el paquete español se baja aparte

sudo apt-get install tesseract-ocr-spa

Una primera prueba funciona de lo lindo

tesseract STP.jpg test -l spa

Nótese la opción -l spa, para indicarle que está en castellano.
Da el siguiente test.txt

NIL NOVI

Nada
Nuevo
Nada
Nuevo
Bajo el Sol
Bajo 1a tierra
Bajo la escala por
Bajo la cual
Evita pasar el
Supersticioso.

¿Todo de nuevo!

Así
de
complicado:

LAS LETRAS ese, te y pe
pertenecientes al
alfabeto latino

constituyen y conforman la trade mark

marca registrada, comarca gráfica —y a la vez, el logotipo-
de cierto aceite para motores, substancia lubricante

dela cual se dice que tenía —que al menos en algún
momento tuvo— (1) poderes sicodélicos o sicotomiméticos.

Según datos más recientes, que nos merecen más confianza,
se trataría de una homología entre la sigla del aceite i

en cuestión —la marca del mismo- y un sicofármaco '
emparentado con -las anfetaminas y la benzedrina

—esto es, poseedor de poderes sico tró picos
a de un alcance de nombres ase», a, más probablemente, ‘timo 

Este último hashís en cursiva es una nota al pié… ésto dará problemas al escanear libros.

cuneiform

También está este algoritmo en el package manager de Debian

sudo apt-get install cuneiform

Se vé más pulento porque en teoría reconoce formatos y además ofrece salidas en html, ¿y hasta TeX?

cuneiform -l spa STP.jpg

da el siguiente cuneiform -l spa STP-1.1.jpg

NIL NOVI
Nada
Nuevo
Nada
Nuevo
Bajo el Sol
Bajo la tierra
Bajo la escala por
Bajo la cual
Evita pasar el
Supersticioso.
¹Todo de nuevo!
Así
de
complicado
LAS LETRAS ese, te y pe
pertenecientes al
alfabeto latino
constituyen y conforman la trade mark
marca registrada, comarca gráfica — y a la vez, el logotipo—
de cierto aceite para motores, substancia lubricante
de la cual se dice que tenía — que al menos en algún
momento tuvo — (1) poderes sicodélicos o sicotomiméticos.
Según datos más recientes, que nos merecen más confianza,
se trataría de una homología entre la sigla del aceite
en cuestión — la marca del mismo — y un sicofármaco
emparentado con las anfetaminas y la benzedrina
— esto es, poseedor de poderes sico tro picos
4
, '*C'„
(I).,a, nj>..r@t.'.que, ee trate de ttn alcance.de notnbres
: : ; - - ;: ','..:::", Ae 'letras, :É Él. eÁ te t!rtea-., a, tnah /PrcP&a & lentente,
,Áe'ttlgMÁ sltnpk'"::trl~Ãi~ pttblteÍPArít>,

Mmmm

Con -f smarttext da exactamente lo mismo, y con -f html es HTML efectivamente, pero la nota al pie sigue siendo cualquier cosa, cuando podría ser un simple <hr/> por último… Con -f rtf lo choro es que respeta los espacios (diagramación del poema).
En todos los casos aparecen caracteres raros, es decir que el OCR es menos pulcro.

Este sitio utiliza cookies.    Leer más