Escaneado e OCR

Boa tarde

Probablemente cada un de nós enfrontásemos a tarefa cando precisa traducir un documento en formato electrónico. Isto é especialmente necesario para os que estudan, traballan con documentación, traducen textos utilizando dicionarios electrónicos, etc.

Neste artigo gustaríame compartir algúns dos fundamentos deste proceso. En xeral, a exploración eo recoñecemento de texto leva bastante tempo, xa que a maioría das operacións terán que facerse manualmente. Intentaremos descubrir que, como e por que.

Non todos entenden inmediatamente unha cousa. Despois de escanear (colocando todas as follas do escáner) terá imaxes do formato BMP, JPG, PNG, GIF (pode haber outros formatos). Polo tanto, a partir desta imaxe ten que obter o texto: este procedemento chámase recoñecemento. Nesta orde e presentarase a continuación.

O contido

  • 1. Que é necesario para escanear e recoñecer?
  • 2. Opcións de dixitalización de texto
  • 3. Recoñecemento do texto do documento
    • 3.1 Texto
    • 3.2 Imaxes
    • 3.3 Táboas
    • 3.4 Elementos innecesarios
  • 4. Recoñecemento de ficheiros PDF / DJVU
  • 5. Comprobación de erros e aforro de resultados de traballo

1. Que é necesario para escanear e recoñecer?

1) Escáner

Para traducir os documentos impresos a un texto, primeiro precisa un escáner e, en consecuencia, programas e controladores "nativos" que o acompañaron. Con eles pode escanear o documento e gardalo para posterior procesamento.

Podes usar outros análogos, pero o software que vén co escáner no kit normalmente funciona máis rápido e ten máis opcións.

Dependendo do tipo de escáner que teña, a velocidade do traballo pode variar significativamente. Hai escáneres que poden obter unha imaxe dunha folla en 10 segundos, hai uns que o recibirán en 30 segundos. Se escanea un libro con 200-300 follas, creo que non é difícil calcular cantas veces haberá unha diferenza de tempo?

2) Programa de recoñecemento

No noso artigo, mostrareiche o traballo nun dos mellores programas para a dixitalización e recoñecemento absolutamente calquera documento - ABBYY FineReader. Desde o programa paga, entón inmediatamente vou darlle unha ligazón a outra, o seu análogo gratuíto do formulario de Cunei. É certo que non os compararía, debido a que FineReader gaña en todos os aspectos, recoméndoche probalo.

ABBYY FineReader 11

Sitio oficial: //www.abbyy.ru/

Un dos mellores programas deste tipo. Está deseñado para recoñecer o texto da imaxe. Construíu moitas opcións e funcións. Pode analizar unha morea de tipos de letra, incluso soportar versións escritas a man (aínda que non o probei persoalmente, creo que é bo recoñecer a versión manuscrita, a menos que teña unha caligrafía perfecta). Máis información sobre como traballar con ela será discutida a continuación. Observamos tamén que o artigo cubrirá o traballo das versións do programa 11.

Como regra xeral, as diferentes versións de ABBYY FineReader non son moi diferentes entre si. Pode facer o mesmo no outro. As principais diferenzas poden estar na comodidade, velocidade do programa e as súas capacidades. Por exemplo, as versións anteriores se negan a abrir un documento PDF e DJVU ...

3) Documentos para escanear

Si, entón aquí decidín sacar os documentos nunha columna separada. Na maioría dos casos, analice os libros de texto, xornais, artigos, revistas, etc. É dicir eses libros e a literatura que se esixe. ¿A que estou a levar? Pola experiencia persoal, podo dicir que moito o que quere dixitalizar - xa pode estar na rede! Cantas veces aforro persoalmente cando atopei un libro ou outro escaneado na rede. Só tiña que copiar o texto no documento e continuar con el.

Deste sinxelo consello - antes de escanear algo, comprobe se alguén xa dixitalizou e non precisa perder o tempo.

2. Opcións de dixitalización de texto

Aquí non vou falar dos teus controladores para o escáner, os programas que o acompañaron, porque todos os modelos de escáneres son diferentes, o software tamén é diferente en todas partes e adiviñar e mostrar aínda máis claramente como realizar a operación é irreal.

Pero todos os escáneres teñen a mesma configuración que pode afectar moito a velocidade e calidade do seu traballo. Aquí sobre eles só falarei aquí. Listarei en orde.

1) Calidade de dixitalización - DPI

En primeiro lugar, configure a calidade da dixitalización nas opcións non inferiores a 300 DPI. É aconsellable incluso poñer un pouco máis, se é posible. Canto maior sexa o indicador de DPI, máis clara será a túa imaxe e así o procesamento posterior producirase máis rápido. Ademais, canto máis alta é a calidade da exploración, menos erros terás que corrixir máis tarde.

A mellor opción proporciona, normalmente 300-400 DPI.

2) cromatismo

Este parámetro afecta grandemente o tempo de exploración (por certo, o DPI tamén afecta, pero son tan fortes e só cando o usuario establece valores altos).

Normalmente hai tres modos:

- branco e negro (perfecto para o texto simple);

- gris (adecuado para texto con táboas e imaxes);

- cor (para revistas de cores, libros, en xeral, documentos, onde a cor é importante).

Normalmente, o tempo de exploración depende da elección da cor. Despois de todo, se tes un documento grande, mesmo os 5-10 segundos adicionais na páxina en conxunto producirán un tempo decente ...

3) Fotos

Pode obter o documento non só mediante a dixitalización, senón tamén facendo unha foto dela. Como regra xeral, neste caso terá outros problemas: distorsión da imaxe, difuminación. Por iso, pode requirir máis edición e procesamento do texto recibido. Persoalmente, non recomendo usar cámaras para este negocio.

É importante notar que non todos estes documentos serán recoñecidos porque calidade de dixitalización pode ser extremadamente baixa ...

3. Recoñecemento do texto do documento

Supoñemos que as páxinas amadas escaneadas que recibiches. A maioría das veces son formatos: tif, bmb, jpg, png. En xeral, para ABBYY FineReader - isto non é moi importante ...

Despois de abrir a imaxe en ABBYY FineReader, o programa, polo xeral, comeza a seleccionar áreas e recoñece-las. Pero ás veces faino mal. Para iso consideramos a selección das áreas desexadas manualmente.

¡É importante! Non todo o mundo entende inmediatamente que despois de abrir un documento no programa, o documento de orixe móstrase á esquerda na xanela, onde resaltas diferentes áreas. Despois de premer no botón "recoñecemento", o programa na ventá da dereita traerá o texto finalizado. Despois do recoñecemento, por certo, é recomendable comprobar o texto para detectar erros no mesmo FineReader.

3.1 Texto

Esta área úsase para resaltar o texto. As fotos e as táboas deben excluírse dela. As fontes raras e pouco comúns terán que introducirse manualmente ...

Para seleccionar unha área de texto, preste atención ao panel situado na parte superior do FineReader. Hai un botón "T" (ver. A imaxe de abaixo, o punteiro do rato está xusto neste botón). Fai clic nel e na foto de abaixo selecciona o espazo perfectamente rectangular no que se atopa o texto. By the way, nalgúns casos, cómpre crear bloques de texto de 2-3, e ás veces 10-12 por páxina, porque O formato de texto pode ser diferente e non seleccionar toda a área cun rectángulo.

É importante ter en conta que as imaxes non deben caer na área de texto. No futuro, aforrarás moito tempo ...

3.2 Imaxes

Usado para resaltar imaxes e aquelas áreas que son difíciles de recoñecer debido a unha calidade deficiente ou unha fonte pouco común.

Na imaxe de abaixo, o punteiro do rato está situado no botón usado para seleccionar a área "imaxe". Por certo, absolutamente calquera parte da páxina pode ser seleccionada nesta área, e FineReader insíraa no documento como unha imaxe normal. É dicir só "estúpido" copiará ...

Normalmente, esta área úsase para resaltar as táboas mal exploradas, para resaltar o texto e a fonte non estándar, as propias imaxes.

3.3 Táboas

A captura de pantalla de embaixo mostra o botón para resaltar as táboas. En xeral, o uso persoalmente moi raramente. O feito é que ten que debuxar rutineiramente (realmente) cada liña da táboa e mostrar que e como o programa. Se a táboa é pequena e de moi baixa calidade, recomendo usar a área "imaxe" para estes fins. Deste xeito aforrar moito tempo, e entón podes facer unha táboa rapidamente en Word en base a unha imaxe.

3.4 Elementos innecesarios

É importante notar. Ás veces hai elementos innecesarios na páxina que fan difícil recoñecer o texto ou non permiten que seleccione a área desexada. Pódense eliminar en absoluto usando o "borrador".

Para facelo, vaia ao modo de edición de imaxes.

Seleccione a ferramenta de borrado e seleccione a área non desexada. Será borrado e no seu lugar haberá unha folla de papel branca.

Por certo, recoméndoche usar esta opción o máis rápido posible. Proba todas as áreas de texto que seleccionaches, onde non necesitas un anaco de texto, ou hai puntos innecesarios, borrosas, distorsións - borrar cun borrador. Grazas a este recoñecemento será máis rápido!

4. Recoñecemento de ficheiros PDF / DJVU

En xeral, este formato de recoñecemento non será diferente dos demais: é dicir, Podes traballar con el mesmo como con imaxes. A única cousa que o programa non debería ser unha versión antiga, se non abre ficheiros PDF / DJVU - actualice a versión a 11.

Un pequeno consello. Despois de abrir o documento en FineReader, comezará a recoñecer automaticamente o documento. Moitas veces en ficheiros PDF / DJVU, non se necesita unha área específica da páxina durante todo o documento. Para eliminar unha área semellante en todas as páxinas, faga o seguinte:

1. Ir á sección de edición de imaxes.

2. Active a opción "recorte".

3. Seleccione a área que precisa en todas as páxinas.

4. Faga clic en Aplicar a todas as páxinas e recortar.

5. Comprobación de erros e aforro de resultados de traballo

Parece que pode haber outros problemas, cando todas as áreas foron seleccionadas, entón recoñecidas - tómaa e gárdaa ... ¡Non estaba alí!

En primeiro lugar, necesitamos comprobar o documento.

Para habilitalo, despois do recoñecemento, na xanela á dereita, haberá un botón de "comprobación", ver a imaxe de abaixo. Despois de premer nel, o programa FineReader amosaralle automaticamente as áreas onde o programa ten erros e non pode determinar de xeito fiable un ou outro símbolo. Só terás que escoller, ou estás de acordo coa opinión do programa, ou introduce o teu personaxe.

Por certo, na metade dos casos, aproximadamente, o programa ofreceralle unha palabra correcta: só tes que usar o rato para elixir a opción que queiras.

En segundo lugar, despois de comprobar que debes escoller o formato no que gardas o resultado do teu traballo.

Aquí FineReader dálle unha volta ao máximo: pode simplemente transferir a información en Word un a un e pode gardala nunha das decenas de formatos. Pero gustaríame destacar outro aspecto importante. Calquera que sexa o formato que escolla, é máis importante elixir o tipo de copia. Considere as opcións máis interesantes ...

Copia exacta

Todas as áreas que seleccionou na páxina do documento recoñecido coincidirán exactamente no documento de orixe. Unha opción moi cómoda cando é importante que non perda formatado de texto. Por certo, as fontes tamén serán moi semellantes ao orixinal. Recomendo con esta opción transferir o documento a Word para continuar traballando alí.

Copia editable

Esta opción é boa porque tes unha versión xa formateada do texto. É dicir Non se cumprirá o sangrado do "quilómetro", que pode haber no documento orixinal. Unha opción útil cando edita significativamente a información.

É certo, non debes escoller se é importante que preserves o estilo do deseño, as fontes, a sangría. Ás veces, se o recoñecemento non ten moito éxito, o documento pode "inclinar" debido ao formato modificado. Neste caso, é aconsellable elixir unha copia exacta.

Texto simple

Unha opción para aqueles que precisan só o texto da páxina sen o resto. Adecuado para documentos sen imaxes e táboas.

Isto conclúe o artigo de exploración e recoñecemento de documentos. Espero que coa axuda destes sinxelos consellos poidas resolver os teus problemas ...

¡Boa ​​sorte!

Mira o vídeo: Qué es OCR y como editar textos escaneados (Abril 2024).