Hjelp:OCR
←Wikikilden:Hjelp | OCR |
Ved OCR (Optimal Character Recognition) forvandler man et bilde av en tekst til digital tekst.
Det finnes mange forskjellige OCR-programmer. De fleste koster penger. Det finnes imidlertid alternativer for den som ikke ønsker å gå til innkjøp av et slikt program.
Dersom du ikke har mulighet til å utføre OCR-selv, kan du spørre på Wikikilden:OCR om noen andre kan gjøre dette for deg.
OCR-programmer
redigerTesseract
redigerTesseract (hjemmeside) er et fritt OCR-program for Windows og Linux under Apache-lisensen (2.0). Programmet produserer ren tekst, og fungerer fra kommandolinjen. Det kan kun lese ukomprimerte tiff-filer.
Den stabile versjonen av Tesseract er versjon 2.04 (30. juni 2009). Denne versjonen er imidlertid ikke tilrettelagt for norsk. Den neste versjonen, versjon 3.00, skal ha støtte for norsk, og man kan allerede bruke Tesseract 3.00 i en alfa-versjon. Installasjonen er forklart her. Alfaversjonen har også støtte for dansk fraktur.
Dersom man har installert Tesseract, kan man utføre OCR på en tiff-fil ved hjelp av denne kommandoen.
tesseract fil.tif tekstfil -l nor
der fil.tif
er bildefilen (merk at ekstensjonen må være «.tif» med én f), tekstfil
er navnet på tekstfilen man ønsker å produsere (uten ekstensjonen .txt
), og -l nor
angir at teksten er på norsk. Dersom teksten ligger nærmere dansk, kan man eventuelt bruke -l dan
i stedet. Hvis man vil ha fraktur, bruker man -l dan-frak
.
Tesseracts resultater kan forbedres betraktelig dersom man bruker en spesiallaget ordliste.
Tesseract og DjVu-filer
redigerFor å utføre OCR på en DjVu-fil, kan man bruke de følgende kommandoene (krever at djvulibre er installert). La oss si at vi vil utføre OCR på side 34 i DjVu-filen mindjvufil.djvu
.
ddjvu -format=tiff -mode=black -page=34 mindjvufil.djvu tiffbilde.tif
tesseract tiffbilde.tif tekstfil -l nor
Merk at mange DjVu-filer allerede inneholder ferdig OCR-tekst. Denne teksten kommer automatisk med når du oppretter en side i Side-navnerommet.
Free-OCR
redigerDet finnes en gratis side kalt free-ocr.com hvor man kan laste opp en bildefil og få OCR-tekst tilbake. Denne siden støtter norsk språk.
Nyttige lenker
rediger- Help:DjVu files/OCR with Tesseract – et script for å utføre OCR på DjVu-filer med Tesseract.