Recoñecemento do texto. Programa gratuíto - FineReader analóxico

Máis cedo ou máis tarde, todos os que traballan con programas de oficina afrontan unha tarefa típica: escanear o texto dun libro, revista, xornal, simplemente folletos e despois traducir estas imaxes a formato de texto, por exemplo, nun documento de Word.

Para iso necesitas un escáner e un programa especial para o recoñecemento de texto. Este artigo discutirá o análogo gratuíto de FineReader -Cuneiforme (sobre o recoñecemento en FineReader - vexa este artigo).

Empecemos ...

O contido

  • 1. Características do programa, características de CuneiForm
  • 2. Un exemplo de recoñecemento de texto
  • 3. Recoñecemento de texto por lotes
  • 4. Conclusións

1. Características do programa, características de CuneiForm

Cuneiforme

Podes descargar no sitio web do creador: //cognitiveforms.com/

Un software de recoñecemento de texto de código aberto. Ademais, funciona en todas as versións de Windows: XP, Vista, 7, 8, o que lle gusta. Ademais, engade a tradución completa do programa ao ruso.

Pros:

- O recoñecemento de texto nas 20 linguas máis populares do mundo (o propio inglés e ruso está incluído neste número);

- gran apoio para varias fontes impresas;

- Comprobe o texto recoñecido do dicionario;

- A capacidade de gardar os resultados do traballo de varias maneiras;

- manter a estrutura do documento;

- Excelentes táboas de apoio e recoñecemento.

Contras:

- non admite documentos e ficheiros demasiado grandes (máis de 400 ppp);

- Non soporta algúns tipos de escáneres directamente (bo, isto non ten medo, inclúe un escáner especial cos controladores do escáner);

- o deseño non brilla (pero quen o necesita se o programa resolve o problema).

2. Un exemplo de recoñecemento de texto

Asumimos que xa recibiches as imaxes necesarias para o seu recoñecemento (escaneadas alí, ou descargaron o libro en formato pdf / djvu en Internet e obtiveron as imaxes necesarias. Como facelo: ver este artigo).

1) Abra a imaxe requirida no programa CuineForm (ficheiro / aberto ou "Cntrl + O").

2) Para iniciar o recoñecemento, primeiro debes seleccionar diferentes áreas: texto, imaxes, táboas, etc. No programa cunéiforme, isto pódese facer non só manualmente, senón tamén automaticamente! Para facelo, fai clic no botón "marcado" no panel superior da xanela.

3) Despois de 10-15 segundos. o programa resaltará automaticamente todas as áreas con cores diferentes. Por exemplo, unha área de texto está resaltada en azul. Por certo, destacou correctamente todas as áreas e bastante rápido. Sinceramente, non esperaba unha resposta tan rápida e correcta para ela ...

4) Para os que non confían na marcación automática, pode utilizar o manual. Para iso hai unha barra de ferramentas (ver imaxe abaixo), grazas á cal pode seleccionar: texto, táboa, imaxe. Mover, aumentar / diminuír a imaxe inicial, recortar os bordos. En xeral, un bo conxunto.

5) Despois de marcar todas as áreas, pode continuar recoñecemento. Para facelo, simplemente fai clic no botón do mesmo nome, como na imaxe de abaixo.

6) Literalmente en 10-20 segundos. Verá un documento en Microsoft Word co texto recoñecido. O que é interesante, no texto deste exemplo, por suposto, houbo erros, pero hai moi poucos! Especialmente, tendo en conta o simple que era o material orixinal: a imaxe.

A velocidade e a calidade son bastante comparables con FineReader!

3. Recoñecemento de texto por lotes

Esta función do programa pode resultar útil cando ten que recoñecer non unha imaxe, senón varias á vez. O atallo para iniciar o recoñecemento por lotes adoita ocultarse no menú de inicio.

1) Despois de abrir o programa, cómpre crear un novo paquete ou abrir un anteriormente gardado. No noso exemplo, cree un novo.

2) No seguinte paso dámoslle un nome, preferentemente de tal xeito que seis meses despois recordaremos o que se garda nel.

3) A continuación, seleccione a lingua do documento (ruso-inglés), indique se hai fotografías e táboas no seu material dixitalizado.

4) Agora precisa especificar o cartafol no que se atopan os ficheiros para o recoñecemento. Por certo, o interesante é que o propio programa atopará todas as imaxes e outros ficheiros gráficos que poida recoñecer e engadilos ao proxecto. Tamén ten que eliminar o extra.

5) O seguinte paso non é importante: escolla o que facer cos ficheiros de orixe, despois do recoñecemento. Recomendo seleccionar a caixa de verificación "non facer nada".

6) Só queda elixir o formato no que se gardará o documento recoñecido. Hai varias opcións:

- rtf - O ficheiro da palabra documento ábrese por todas as oficinas populares (incluíndo as de balde, unha ligazón a programas);

- txt - Formato de texto, pode gardar só texto, imaxes e táboas nel;

- htm - Páxina de hipertexto, cómodo se escanea e recoñece ficheiros para o sitio. O seu e escolla no noso exemplo.

7) Despois de premer no botón "Finalizar", iniciarase o procesamento do seu proxecto.

8) O programa funciona bastante rápido. Despois do recoñecemento, verá unha pestana con ficheiros htm. Se fas clic nun ficheiro deste tipo, comeza un navegador onde podes ver os resultados. Por certo, o paquete pode gardarse para traballar posteriormente.

9) Como podes ver os resultados o traballo é moi impresionante. O programa recoñeceu facilmente a imaxe e recoñeceu facilmente o texto baixo. Mentres o programa é gratuíto, xeralmente é super!

4. Conclusións

Se a miúdo non escanea e recoñece documentos, a compra de FineReader probablemente non ten sentido. CuneiForm trata facilmente a maioría das tarefas.

Por outra banda, tamén ten desvantaxes.

En primeiro lugar, hai moi poucas ferramentas para editar e comprobar o resultado resultante. En segundo lugar, cando ten que recoñecer moitas fotos, en FineReader é máis cómodo ver de inmediato todo o que se engade ao proxecto na columna da dereita: elimina rapidamente innecesarios, fai edicións, etc. E en terceiro lugar, en documentos de calidade absoluta, CuneiForm perde o recoñecemento: ten que ter presente o documento - corrixir erros, poñer signos de puntuación, presupostos, etc.

Isto é todo. Coñeces algún outro software de recoñecemento de texto gratis decente?