OCRKit – Szöveg felismerés kép alapú PDFből

Aki kicsit is irodai környezetben és papír alapú adminisztrációban él nap mint nap, az jól ismeri a különböző jobb és kevésbé jobb szövegfelismerő alkalmazásokat. A közismert neve eme alkalmazásoknak az OCR (Optical character recognition). Emlékszem még, amikor számlákat a HR-ek, szép nagy BMP-kbe vagy TIFF-ekbe scanneltek és mentettek. Azóta kicsit változott a világ és az egységesítés és mérethatékonyság miatt a PDF file formátumot kezdték favorizálni. Ez nagyon jó dolog, viszont a PDF mit se ér, ha egy bazi nagy kép van benne és nem szöveg. Arra se keresni nem lehet, se megfelelő részeket kimásolni szükség esetén.

Ez az ötlet vezérelte az OCRKit fejlesztőit. Az elgondolás pedig az volt, hogy PDF-be kép alapon scannelt számlákat (egyéb ilyen dokumentumokat) egy kattintással szövegessé tehessünk, úgy hogy látszólag semmit se változzon a dokumentumunk.

Tehát a program a kép alapú dokumentumunkból felismeri a szöveget, és automatikusan kereshető, kijelölhető szöveggé emeli ki a dokumentumunkban.

Nagyon egyszerű kis funkció, a megvalósítása persze annál nehezebb. Sajnos pont e miatt csak a következő nyelvek elérhetőek: Angol, Német, Francia, Holland, Olasz, Japán, Orosz, Kínai. Sajnos ahogy látszik a kis európai országokban nem éreztek a srácok piacot.

Ha valakit így is érdekelne akkor 39$-ért megvásárolható a hivatalos oldalon itt.

OCRKit – Szöveg felismerés kép alapú PDFből

Published by MiszterX

Vélemény, hozzászólás? Válasz megszakítása