Hjelp:OCR/Installere Tesseract 3.0
←Hjelp:OCR | Installere Tesseract 3.0 |
Hvordan installere Tesseract 3.0 rediger
Den neste versjonen av Tesseract befinner seg foreløpig (januar 2009) kun i svn. Her beskrives hvordan man kan installere denne versjonen. Utfyllende informasjon finnes på Tesseracts hjemmesider, spesielt på sidene ReadMe og TesseractSvnInstallation.
Windows rediger
Merk at dette er fremgangsmåten for å installere Tesseract 3.0 fra Svn. Den stabile versjonen av Tesseract kan lastes ned enkelt herfra, men denne inneholder (per januar 2010) føreløpig ikke støtte for norsk språk.
Nødvendige programmer rediger
Visual C++ 2008 rediger
Du trenger et program som kan kompilere kildekoden.
Last ned Visual C++ 2008 fra denne nettsiden. Kjør den nedlastede .exe-filen. Installasjonsprogrammet vil laste ned de nødvendige filene (~100MB) og installere programvaren.
Subversion rediger
Du trenger et Subversion-program, for eksempel TortoiseSVN.
Last ned TortoiseSVN herfra. Kjør den nedlastede filen. Programmet vil nå installeres.
Nedlastning rediger
Etter at TortoiseSVN er installert vil dette være tilgjengelig i Windows Utforsker (Explorer, Mine dokumenter). I Utforsker, velg TortoiseSVN under «Fil». Velg «SVN Checkout».
I feltet «URL of repository» limer du inn adressen
http://tesseract-ocr.googlecode.com/svn/trunk/
I feltet «Checkout directory» skal det stå hvilken mappe filene skal lastes ned til.
Klikk «OK».
Kildekoden vil nå lastes ned til mappen (la oss kalle mappen «tesseract-ocr»).
Kompilering rediger
Start Microsoft Visual C++ 2008. Åpne filen tesseract.sln i mappen hvor du lastet ned kildekoden. Klikk «Build» på menylinjen og velg «Build solution». Programmet skal nå kompileres.
Det skal nå være kommet en ny underkatalog «bin.dbg» i katalogen der du lastet ned kildekoden («tesseract-ocr»). Gå inn i denne katalogen og flytt filen tesseract.exe opp til «tesseract-ocr».
Åpne en DOS-boks (Start->Tilbehør->Ledetekst), gå til katalogen hvor tesseract.exe ligger og prøvekjør tesseract på det medfølgende testbildet:
tesseract phototest.tif test
Dersom alt går bra, skal resultatet foreligge i en fil test.txt. Merk: Hvis du får en feilmelding, må du kanskje gi filen «libpng13.dll» navnet «libpng12.dll».
Linux rediger
I det følgende er fremgangsmåten i Ubuntu brukt som eksempel.
Biblioteker rediger
Tesseract 3.0 krever at man har installert følgende biblioteker:
- libpng12-dev
- libjpeg62-dev
- libtiff4dev
- zlib1g-dev
I Ubuntu kan disse installeres med kommandoene
sudo apt-get install libpng12-dev sudo apt-get install libjpeg62-dev sudo apt-get install libtiff4-dev sudo apt-get install zlib1g-dev
Leptonica rediger
I tillegg kreves det at man har installert Leptonica. I Ubuntu finner man biblioteket libleptonica, men dette inneholder (per januar 2010) en gammel versjon. For å være sikker på at Tesseract skal fungere er det derfor tryggere å gå hit for å laste ned den nyeste versjonen. Fremgangsmåten for å installere programmet er beskrevet i detalj her. I korthet:
Gå til katalogen hvor du lastet ned tar-filen (per januar 2010 var den nyeste versjonen leptonlib-1.64.tar.gz)
gunzip leptonlib-1.64.tar.gz tar -xvf leptonlib-1.64.tar cd leptonlib-1.64 ./configure make sudo make install
Installasjon av Tesseract 3.0 rediger
Du er nå klar til å installere Tesseract 3.0. For å laste ned kildekoden fra svn, må du ha subversion installert:
sudo apt-get install subversion
Du kan nå laste ned kildekoden.
svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-only cd tesseract-ocr-read-only ./configure make sudo make install
Hvis dette ikke fungerer, installer alocal, autoheader, autoconf og automake:
sudo apt-get install autoconf automake
og utfør
./runautoconf ./configure make sudo make install
Hvis alt har gått bra, har du nå Tesseract 3.0 installert på din maskin.