Recoñecer o texto nun ficheiro PDF en liña.


Non sempre é posible extraer texto dun ficheiro PDF mediante a copia convencional. Moitas veces as páxinas destes documentos son o contido dixitalizado das súas versións en papel. Para converter estes ficheiros en datos de texto totalmente editables, úsanse programas especiais coa función de recoñecemento óptico de caracteres (OCR).

Tales solucións son moi difíciles de aplicar e, polo tanto, custan moito diñeiro. Se precisa recoñecer texto con PDF con regularidade, é aconsellable mercar o programa adecuado. En casos raros, sería máis lóxico utilizar un dos servizos en liña dispoñibles con funcións similares.

Como recoñecer texto en PDF

Por suposto, o conxunto de recursos de servizos en liña de OCR é máis limitado en comparación coas solucións de escritorio completas. Pero pode traballar con estes recursos gratuitamente ou cunha taxa nominal. O principal é que as aplicacións web correspondentes manexan tamén a súa tarefa principal, é dicir, o recoñecemento de texto.

Método 1: ABBYY FineReader Online

A empresa de desenvolvemento de servizos é un dos líderes no campo do recoñecemento de documentos ópticos. ABBYY FineReader para Windows e Mac é unha poderosa solución para converter PDF en texto e traballar con el.

Por suposto, a contrapartida web do programa é inferior á súa funcionalidade. Non obstante, o servizo pode recoñecer texto a partir de pescudas e fotos en máis de 190 idiomas. Soporta a conversión de ficheiros PDF en documentos Word, Excel, etc.

Servizo en liña de ABBYY FineReader Online

  1. Antes de comezar a traballar coa ferramenta, cree unha conta no sitio ou inicie sesión mediante a súa conta de Facebook, Google ou Microsoft.

    Para ir á ventá de inicio de sesión, fai clic no botón. "Iniciar sesión" na barra de menú superior.
  2. Unha vez iniciado sesión, importe o documento PDF desexado no FineReader usando o botón "Cargar ficheiros".

    A continuación, faga clic en "Seleccionar números de páxina" e especifique a extensión desexada para o recoñecemento de texto.
  3. A continuación, seleccione as linguas presentes no documento, o formato do ficheiro resultante e prema no botón "Recoñecer".
  4. Despois do proceso, cuxa duración depende enteiramente do tamaño do documento, pode descargar o ficheiro terminado con datos de texto simplemente premendo no seu nome.

    Ou exportalo a un dos servizos dispoñibles na nube.

O servizo distínguese, probablemente, polos algoritmos de recoñecemento de texto máis precisos en imaxes e arquivos PDF. Por desgraza, o seu uso gratuíto limítase a cinco páxinas procesadas ao mes. Para traballar con documentos máis voluminosos, ten que comprar unha subscrición dun ano.

Non obstante, se a función OCR é moi raramente necesaria, ABBYY FineReader Online é unha excelente opción para extraer texto de pequenos ficheiros PDF.

Método 2: OCR en liña gratuíta

Servizo sinxelo e cómodo para dixitalizar texto. Sen a necesidade de rexistro, o recurso permítelle recoñecer 15 páxinas PDF por hora. OCR online gratuito funciona completamente con documentos en 46 idiomas e sen autorización admite tres formatos de exportación de texto: DOCX, XLSX e TXT.

Ao rexistrarse, o usuario pode procesar documentos de varias páxinas, pero o número libre destas páxinas está limitado a 50 unidades.

Servizo en liña gratuíto de OCR

  1. Para recoñecer o texto do PDF como "invitado", sen a autorización do recurso, use o formulario apropiado na páxina principal do sitio.

    Seleccione o documento desexado usando o botón "Ficheiro", especifique o idioma de texto principal, o formato de saída, despois agarde o ficheiro para cargar e premer "Converter".
  2. Ao final do proceso de dixitalización, faga clic en "Descargar ficheiro de saída" para gardar o documento terminado co texto no ordenador.

Para os usuarios autorizados, a secuencia de accións é algo diferente.

  1. Use o botón "Rexistro" ou "Iniciar sesión" na barra de menú superior para, respectivamente, crear unha conta OCR en liña gratuíta ou entrar nela.
  2. Despois da autorización no panel de recoñecemento, manteña premida a tecla "CTRL", seleccione ata dous idiomas do documento de orixe na lista proporcionada.
  3. Especifique outras opcións para extraer texto do PDF e premer no botón. "Seleccionar ficheiro" para cargar o documento no servizo.

    Entón, para iniciar o recoñecemento, faga clic en "Converter".
  4. Despois de procesar o documento, faga clic na ligazón co nome do ficheiro de saída na columna correspondente.

    O resultado do recoñecemento será almacenado inmediatamente na memoria do seu ordenador.

Se necesitas extraer texto dun pequeno documento PDF, podes recorrer a usar a ferramenta descrita anteriormente. Para traballar con ficheiros grandes, terá que mercar símbolos adicionais en Free Online OCR ou recorrer a outra solución.

Método 3: NewOCR

Servizo de OCR totalmente gratuito que permite extraer texto de prácticamente calquera documento gráfico e electrónico como DjVu e PDF. O recurso non impón restricións ao tamaño e ao número de ficheiros recoñecidos, non require rexistro e ofrece unha ampla gama de funcións relacionadas.

NewOCR soporta 106 idiomas e é capaz de manexar correctamente incluso as pescudas de documentos de baixa calidade. É posible seleccionar manualmente a área para o recoñecemento de texto na páxina do ficheiro.

Servizo en liña NewOCR

  1. Así, pode comezar a traballar co recurso inmediatamente, sen necesidade de realizar accións innecesarias.

    Directamente na páxina principal hai un formulario para importar o documento ao sitio. Para subir un ficheiro a NewOCR, use o botón "Seleccionar ficheiro" na sección "Selecciona o teu ficheiro". Entón no campo "Idioma (s) de recoñecemento" seleccione un ou máis idiomas do documento de orixe e faga clic en "Cargar + OCR".
  2. Axuste os axustes de recoñecemento preferidos, seleccione a páxina desexada para extraer o texto e prema no botón. "OCR".
  3. Desprácese un pouco e localice o botón. Descarga.

    Prema nel e na lista despregable, seleccione o formato de documento necesario para a descarga. Despois diso, o ficheiro terminado co texto extraído descargase no seu computador.

A ferramenta é conveniente e recoñece todos os personaxes cunha calidade suficientemente alta. Non obstante, o procesamento de cada páxina do documento PDF importado debe ser lanzado de xeito independente e mostrado nun ficheiro separado. Por suposto, pode copiar inmediatamente os resultados do recoñecemento no portapapeis e mesturalos cos demais.

Non obstante, dado os matices anteriores, son moi difíciles de extraer grandes cantidades de texto usando NewOCR. Co mesmo pequeno ficheiro o servizo fai fronte "cun estorbo".

Método 4: Espazo OCR

Un recurso sinxelo e comprensible para a dixitalización de texto permítelle recoñecer documentos PDF e emitir o resultado nun ficheiro TXT. Non hai límites no número de páxinas. A única limitación é que o tamaño do documento de entrada non debe exceder os 5 megabytes.

Servizo en liña OCR.Space

  1. Non é necesario rexistrarse para traballar coa ferramenta.

    Só ten que facer clic na ligazón anterior e subir o documento PDF ao sitio web desde o seu ordenador mediante o botón "Seleccionar ficheiro" ou da rede - por referencia.
  2. Na lista despregable "Seleccione a linguaxe OCR" seleccione o idioma do documento importado.

    A continuación, comece o proceso de recoñecemento de texto premendo no botón. "Iniciar OCR!".
  3. Ao final do procesamento do ficheiro, vexa o resultado no "Resultado OCR'ed" e fai clic Descargapara descargar o documento TXT finalizado.

Se só precisa extraer o texto do PDF eo formato final non é importante, OCR.Space é unha boa opción. O único documento debe ser "monolingüe", xa que non se proporciona o recoñecemento de dúas ou máis linguas ao mesmo tempo no servizo.

Vexa tamén: análogos gratuítos FineReader

Avaliando as ferramentas en liña presentadas no artigo, débese notar que o FineReader Online de ABBYY manexa a función OCR con maior precisión e precisión. Se a máxima precisión do recoñecemento de texto é importante para vostede, o mellor é considerar esta opción. Pero pagar por iso, moi probablemente tamén.

Se precisa dixitalizar pequenos documentos e está preparado para corrixir erros no servizo por si mesmo, recoméndase empregar NewOCR, OCR.Space ou OCR en liña gratuíto.