Hjelp:OCR

OCR

Ved OCR (Optimal Character Recognition) forvandler man et bilde av en tekst til digital tekst.

Det finnes mange forskjellige OCR-programmer. De fleste koster penger. Det finnes imidlertid alternativer for den som ikke ønsker å gå til innkjøp av et slikt program.

Dersom du ikke har mulighet til å utføre OCR-selv, kan du spørre på Wikikilden:OCR om noen andre kan gjøre dette for deg.

OCR-programmer

Tesseract

Se også Hjelp:OCR/Installere Tesseract 3.0

Tesseract (hjemmeside) er et fritt OCR-program for Windows og Linux under Apache-lisensen (2.0). Programmet produserer ren tekst, og fungerer fra kommandolinjen. Det kan kun lese ukomprimerte tiff-filer.

Den stabile versjonen av Tesseract er versjon 2.04 (30. juni 2009). Denne versjonen er imidlertid ikke tilrettelagt for norsk. Den neste versjonen, versjon 3.00, skal ha støtte for norsk, og man kan allerede bruke Tesseract 3.00 i en alfa-versjon. Installasjonen er forklart her. Alfaversjonen har også støtte for dansk fraktur.

Dersom man har installert Tesseract, kan man utføre OCR på en tiff-fil ved hjelp av denne kommandoen.

tesseract fil.tif tekstfil -l nor

der fil.tif er bildefilen (merk at ekstensjonen må være «.tif» med én f), tekstfil er navnet på tekstfilen man ønsker å produsere (uten ekstensjonen .txt), og -l nor angir at teksten er på norsk. Dersom teksten ligger nærmere dansk, kan man eventuelt bruke -l dan i stedet. Hvis man vil ha fraktur, bruker man -l dan-frak.

Tesseracts resultater kan forbedres betraktelig dersom man bruker en spesiallaget ordliste.

Tesseract og DjVu-filer

For å utføre OCR på en DjVu-fil, kan man bruke de følgende kommandoene (krever at djvulibre er installert). La oss si at vi vil utføre OCR på side 34 i DjVu-filen mindjvufil.djvu.

ddjvu -format=tiff -mode=black -page=34 mindjvufil.djvu tiffbilde.tif
tesseract tiffbilde.tif tekstfil -l nor

Merk at mange DjVu-filer allerede inneholder ferdig OCR-tekst. Denne teksten kommer automatisk med når du oppretter en side i Side-navnerommet.

Free-OCR

Det finnes en gratis side kalt free-ocr.com hvor man kan laste opp en bildefil og få OCR-tekst tilbake. Denne siden støtter norsk språk.

Nyttige lenker

Help:DjVu files/OCR with Tesseract – et script for å utføre OCR på DjVu-filer med Tesseract.