OCRKit – Szöveg felismerés kép alapú PDFből

Aki kicsit is irodai környezetben és papír alapú adminisztrációban él nap mint nap, az jól ismeri a különböző jobb és kevésbé jobb szövegfelismerő alkalmazásokat. A közismert neve eme alkalmazásoknak az OCR (Optical character recognition). Emlékszem még, amikor számlákat a HR-ek, szép nagy BMP-kbe vagy TIFF-ekbe scanneltek és mentettek. Azóta kicsit változott a világ és az egységesítés és mérethatékonyság miatt a PDF file formátumot kezdték favorizálni. Ez nagyon jó dolog, viszont a PDF mit se ér, ha egy bazi nagy kép van benne és nem szöveg. Arra se keresni nem lehet, se megfelelő részeket kimásolni szükség esetén.
„OCRKit – Szöveg felismerés kép alapú PDFből” olvasásának folytatása

Új Linux Howto: PDF, XLS, Image spam szűrése

Az utóbbi időben a spammerek újabb harci eszközzel rukkoltak elő: a kéretlen „információjukat” PDF, vagy XLS formátumú állományokban küldik el. (Emellett már régebben valamilyen csatolt képformátumként.) A csatolt képformátumokkat a SpamAssassin is könnyedén elbánik, de a PDF-ekkel, vagy az XLS formátumokkal már nem, vagy legalábbis nehezen boldogul(na). Viszont mint mindig most is van megoldás, amire sikeresen találtam egy Howto-t.
„Új Linux Howto: PDF, XLS, Image spam szűrése” olvasásának folytatása