Cómo escanear un documento con un escáner y convertirlo a .doc, .pdf o formato similar

© Copyright Programmifree.com. Queda prohibida la reproducción, incluso parcial, sin el consentimiento por escrito del autor.

orientación revisada: junio de 2016

IMPORTANTE: si está buscando una guía para escanear un documento con un par de clics,
luego use la guía para escanear desde el escáner con dos clics.

(Guía de video
Al final de la página )

Con esta guía, podemos digitalizar un documento de Word con un escáner correctamente y convertirlo en un documento de Word como .doc, .txt., .rtf, (pero también pdf)etc.
Esta operación se conoce comúnmente como OCR (es decir, reconocimiento óptico de caracteres).

Es decir, podremos considerar este documento digitalizado como un documento de texto ordinario, en el que será posible buscar, reemplazar palabras, crear capítulos, etc., en definitiva, todas aquellas operaciones que solemos realizar con texto ordinario.

Para ello utilizaremos principalmente el programa OCR Cuneiform gratuito: considero que este programa, al menos por ahora, es el mejor programa OCR gratuito, a pesar de algunas deficiencias. Si tiene Microsoft Word instalado en su computadora, Cuneiform lo usará para seguir el diseño del texto que acaba de digitalizar; si no lo tiene, mantendrá el texto en formato RTF, pero perderá el diseño gráfico.

No usaremos programas muy famosos como
Omnipage ACERCA DE
Buen lector
porque nuestro objetivo es utilizar -cómo siempre– programas gratuitos.

También sería posible crear un PDF en un instante sin utilizar este tutorial, por ejemplo con el muy ligero (y portátil) WinScan2PDF: es cierto que lo hemos hecho antes, pero también es cierto que el PDF será tratado como una imagen gráfica y no como texto, por lo tanto será completamente inútil si queremos realizar alguna operación en él (buscar, reemplazar u otro).

Así que veamos cómo digitalizar y reconocer correctamente el texto.

  1. Dado que Cuneiform falla con mi escáner HP, se necesita un paso adicional: digitalizar el texto como una imagen usando cualquier programa (incluso portátil) como DeskScan, FastStone Viewer, Irfanview o muchos otros.

  2. Generalmente la resolución recomendada escáner para textos con caracteres no demasiado grandes, esto es 300 EPI (casi siempre suficiente).
    Si el documento contiene fuentes muy pequeñas, puede valer la pena aumentar 600 DPI.

  3. Escanee la página seleccionada (usando DeskScan, FastStone o Irfanview, etc.) y guárdela en formato PNG (o GIF, alternativamente). Guarde las páginas como 00.PNG, 01.PNG, etc.
    [IMPORTANTE: se volete riconoscere un documento PDF che non
    riuscite a convertire con un programma classico di conversione PDF,
    allora convertitela in PNG o GIF con
    PDF-X-Change Viewer
    e continuate con il punto successivo di questa guida).
     

  4. Caricate la pagine (PNG, GIF, ecc.) in Cuneiform, cliccando
    File->Open
    .
    Se Cuneiform non ha problemi con il vostro scanner, allora potete
    saltare i punti 1 e 3, tenendo però presente il punto 2 (cliccate
    File->Scan).
     

  5. Impostate l’area all’interno della quale verrà
    effettuato il riconoscimento con Recognition-> Area of
    Recognition
    .
    Approfittatene per togliere dall’area del ricoscimento eventuali
    intestazioni, piè di pagina e numeri di pagina, in modo da avere un
    riconoscimento pulito.

    e poi:

     

  6. Cliccate Recognition->Automatic Markup.

    Apparirà una cosa del genere:

    Le aree che Cuneiform ha evidenziato in blu, sono quelle in cui
    verrà effettuato il riconoscimento.
    Portate il cursore del mouse vicino al bordo blu e delimitate bene l’area.

    Fatelo con attenzione, altrimenti il riconoscimento finale
    sarà meno accurato.

     Se volete escludere qualcuna di
    queste aree dal testo finale, basta cliccarci sopra con il tasto
    destro del mouse e selezionare: Delete block Markup.

     

  7. [Facoltativo] Si hace clic en el menú editar arriba, verá que puede realizar varias operaciones con estos bloques resaltados, incluida su numeración. Sin embargo, en general esto se hace no Servicio.

  8. Para que suceda, solo presione
    Reconocimiento-> Reconocer

  9. Si Microsoft Word está presente en su sistema, se abrirá automáticamente; de ​​lo contrario, su texto se guardará en formato RTF (perdiendo, como se mencionó anteriormente, el diseño).

  10. Verifique el documento que acaba de guardar abriéndolo con un programa de texto como LibreOffice, OpenOffice.org, MS Word, etc. (Esto es algo que también debe hacerse cuando se utilizan programas de OCR costosos, porque sucede que Software OCR, reemplace una letra por otra, especialmente si el texto original está descolorido o las páginas son amarillas) y pase al siguiente archivo.

  11. Si tiene un documento de varias páginas, se recomienda insertar el siguiente archivo después del anterior, y así sucesivamente para volver a crear un solo documento.

  12. Ahora tiene un documento de texto real. Puede guardarlo en el formato que desee, o incluso convertirlo a PDF (convertir de .doc a .pdf es muy fácil, pero si está utilizando LibreOffice puede guardar texto directamente en PDF), en resumen, haga lo que quiera.

Una ultima anotación Interesante: si accidentalmente convierte este documento a PDF al final, intente escanear el texto original nuevamente convirtiéndolo directamente a PDF (no cuneiforme), tal vez con PDF24 Creator o similar.
Notarás que no solo es imposible buscar (o lo que sea) en el texto, sino que este último PDF ocupa mucho más espacio que el que convertimos con cuneiforme (esto está bien, porque en este último caso el texto parece una imagen).


Cómo reconocer texto en un documento escaneado o móvil


TAMBIÉN SE NECESITA SU APOYO

El modelo publicitario de Internet está en crisis, y también
Programmifree él está asombrado por esto.

Para permanecer aquí en el futuro, se necesitan nuevas formas de ganar dinero.

Si Programmifree es útil para usted y desea que continúe, por favor haga su parte.

Deja un comentario