OCRKit – Szöveg felismerés kép alapú PDFből

Aki kicsit is irodai környezetben és papír alapú adminisztrációban él nap mint nap, az jól ismeri a különböző jobb és kevésbé jobb szövegfelismerő alkalmazásokat. A közismert neve eme alkalmazásoknak az OCR (Optical character recognition). Emlékszem még, amikor számlákat a HR-ek, szép nagy BMP-kbe vagy TIFF-ekbe scanneltek és mentettek. Azóta kicsit változott a világ és az egységesítés és mérethatékonyság miatt a PDF file formátumot kezdték favorizálni. Ez nagyon jó dolog, viszont a PDF mit se ér, ha egy bazi nagy kép van benne és nem szöveg. Arra se keresni nem lehet, se megfelelő részeket kimásolni szükség esetén.
„OCRKit – Szöveg felismerés kép alapú PDFből” olvasásának folytatása →

Kijött a StuffIt Deluxe 12 – már MP3 és PDF tömörítésben is jó

A Smith Micro Software szerdán bejelentette a népszerű tömörítő és archiváló program, a StuffIt legújabb változatának kiadását.
„Kijött a StuffIt Deluxe 12 – már MP3 és PDF tömörítésben is jó” olvasásának folytatása →

Új Linux Howto: PDF, XLS, Image spam szűrése

Az utóbbi időben a spammerek újabb harci eszközzel rukkoltak elő: a kéretlen „információjukat” PDF, vagy XLS formátumú állományokban küldik el. (Emellett már régebben valamilyen csatolt képformátumként.) A csatolt képformátumokkat a SpamAssassin is könnyedén elbánik, de a PDF-ekkel, vagy az XLS formátumokkal már nem, vagy legalábbis nehezen boldogul(na). Viszont mint mindig most is van megoldás, amire sikeresen találtam egy Howto-t.
„Új Linux Howto: PDF, XLS, Image spam szűrése” olvasásának folytatása →