Hjelp:OCR/Installere Tesseract 3.0

Hjelp:OCR Installere Tesseract 3.0


Hvordan installere Tesseract 3.0 rediger

Den neste versjonen av Tesseract befinner seg foreløpig (januar 2009) kun i svn. Her beskrives hvordan man kan installere denne versjonen. Utfyllende informasjon finnes på Tesseracts hjemmesider, spesielt på sidene ReadMe og TesseractSvnInstallation.

Windows rediger

Merk at dette er fremgangsmåten for å installere Tesseract 3.0 fra Svn. Den stabile versjonen av Tesseract kan lastes ned enkelt herfra, men denne inneholder (per januar 2010) føreløpig ikke støtte for norsk språk.

Nødvendige programmer rediger

Visual C++ 2008 rediger

Du trenger et program som kan kompilere kildekoden.

Last ned Visual C++ 2008 fra denne nettsiden. Kjør den nedlastede .exe-filen. Installasjonsprogrammet vil laste ned de nødvendige filene (~100MB) og installere programvaren.

Subversion rediger

Du trenger et Subversion-program, for eksempel TortoiseSVN.

Last ned TortoiseSVN herfra. Kjør den nedlastede filen. Programmet vil nå installeres.

Nedlastning rediger

Etter at TortoiseSVN er installert vil dette være tilgjengelig i Windows Utforsker (Explorer, Mine dokumenter). I Utforsker, velg TortoiseSVN under «Fil». Velg «SVN Checkout».

I feltet «URL of repository» limer du inn adressen

http://tesseract-ocr.googlecode.com/svn/trunk/

I feltet «Checkout directory» skal det stå hvilken mappe filene skal lastes ned til.

Klikk «OK».

Kildekoden vil nå lastes ned til mappen (la oss kalle mappen «tesseract-ocr»).

Kompilering rediger

Start Microsoft Visual C++ 2008. Åpne filen tesseract.sln i mappen hvor du lastet ned kildekoden. Klikk «Build» på menylinjen og velg «Build solution». Programmet skal nå kompileres.

Det skal nå være kommet en ny underkatalog «bin.dbg» i katalogen der du lastet ned kildekoden («tesseract-ocr»). Gå inn i denne katalogen og flytt filen tesseract.exe opp til «tesseract-ocr».

Åpne en DOS-boks (Start->Tilbehør->Ledetekst), gå til katalogen hvor tesseract.exe ligger og prøvekjør tesseract på det medfølgende testbildet:

tesseract phototest.tif test

Dersom alt går bra, skal resultatet foreligge i en fil test.txt. Merk: Hvis du får en feilmelding, må du kanskje gi filen «libpng13.dll» navnet «libpng12.dll».

I det følgende er fremgangsmåten i Ubuntu brukt som eksempel.

Biblioteker rediger

Tesseract 3.0 krever at man har installert følgende biblioteker:

  • libpng12-dev
  • libjpeg62-dev
  • libtiff4dev
  • zlib1g-dev

I Ubuntu kan disse installeres med kommandoene

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev

Leptonica rediger

I tillegg kreves det at man har installert Leptonica. I Ubuntu finner man biblioteket libleptonica, men dette inneholder (per januar 2010) en gammel versjon. For å være sikker på at Tesseract skal fungere er det derfor tryggere å gå hit for å laste ned den nyeste versjonen. Fremgangsmåten for å installere programmet er beskrevet i detalj her. I korthet:

Gå til katalogen hvor du lastet ned tar-filen (per januar 2010 var den nyeste versjonen leptonlib-1.64.tar.gz)

gunzip leptonlib-1.64.tar.gz
tar -xvf leptonlib-1.64.tar
cd leptonlib-1.64
./configure
make
sudo make install

Installasjon av Tesseract 3.0 rediger

Du er nå klar til å installere Tesseract 3.0. For å laste ned kildekoden fra svn, må du ha subversion installert:

sudo apt-get install subversion

Du kan nå laste ned kildekoden.

svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-only
cd tesseract-ocr-read-only
 ./configure
make
sudo make install

Hvis dette ikke fungerer, installer alocal, autoheader, autoconf og automake:

sudo apt-get install autoconf automake

og utfør

./runautoconf
./configure
make
sudo make install

Hvis alt har gått bra, har du nå Tesseract 3.0 installert på din maskin.