Photoshop Magazin
 


Acrobat ile Taranmış Belgeleri Düzenlenebilir Metin Formatına Dönüştürün

01 September 2009 | Sayı: Sep 2009
 
1 2 3 4 5
 

Günümüzde metin içerikli basılmış materyalleri düzenlenebilir metin formatına dönüştürmek için OCR (Optical Character Recognition - Optik Karakter Tanıma) teknolojisi kullanılıyor. Piyasada bu teknolojiyi kullanan yazılımların başında Abby Fine Reader, OmniPage ve Readiris geliyor. Ayrıca bazı tarayıcı üreticileri de, sattıkları ürünler ile birlikte verilen tarama yazılımının içerisine OCR modülü ekliyorlar.

OCR uygulamaları, bir karakteri tanımak için genel olarak 3 yöntemi kullanırlar:

Matrix Matching (Matris Eşleme):
Bu yöntemde OCR yazılımı, karşılaşması muhtemel tüm karakterlerin görüntüsünü içeriğinde tutar. Sonra taranmış dokümandaki
karakterler ile içeriğini karşılaştırır ve tanımlama işlemini gerçekleştirir.

Feature Analysis (İçerik Analizi):
Bu yöntemde ise yazılım, karakterlerin görüntüsünü değil, tanımlarını aklında tutar. Yani karakteri tanımak için birçok özelliğine bakar; kaç tane düz çizgi var, bunların kaçı dikey kaçı yatay, yuvarlak köşelerin konumları neler, karakterde delikler var mı vb. gibi. Daha sonra dokümandaki karakterler ile içeriğini karşılaştırarak tanımlama işlemini gerçekleştirir.

Self Assertion (Özgün Tanımlama): Bu yöntem de, yukarıda bahsedilen iki yöntemin birleştirilmesidir. Önce doküman içerik
analizi yöntemiyle taranarak genel bir tablo oluşturulur. Bu sayede kesinliği yüksek karakterler bir kenara ayrılarak bunlardan bir matris oluşturulur. Daha sonra emin olunmayan karakterler bu yeni elde edilen matristeki karakter tablolarıyla karşılaştırılarak “benzetilmeye” çalışılır. Kısaca sistem önce içerik analiziyle kesinlikle “a” olduğuna emin olduğu bir “a” yakalayarak bunun fotoğrafını çeker. Daha sonra da bu “a” harfinin görüntüsünü “a” olduğundan emin olmadığı, fakat “a”ya benzediğini düşündüğü karakterlerle karşılaştırarak ortak noktalarına bakar ve gerçekten a olup oldmadığına karar verir.
(kaynak: pcmag)

OCR teknolojisinin bir uygulaması da “plaka tanıma” projesidir. Yoldan geçen araçların plaka fotoğrafları çekilir ve anında OCR uygulamasından geçirilerek sisteme girilir.

Bu teknik giriş bölümünden sonra asıl konumuza dönecek olursak; elinizde Adobe Acrobat Standart veya Adobe Acrobat Professional uygulamaları varsa, başka hiçbir yazılıma ihtiyaç duymaksızın basılı belgelerinizi metin
formatına dönüştürebilirsiniz. Acrobat Standart veya Professional 4 ile 9 arasında bir versiyona sahip iseniz OCR teknolojisini
kullanabilirsiniz. 8.1 ve üstü bir versiyon kullanmanız çoklu dil desteği ve karakter tanıma yetenekleri bakımından daha verimli olacaktır.

Yazıda, işlemler Acrobat Professional 9 versiyonu kullanılarak yapılmıştır. Daha düşük sürümlerde arayüzlerde ufak tefek farklılıklar olabilir.

Kağıt üzerindeki yazı içerikli bir dokümanı düzenlenebilir metin formatına dönüştürmek:
Elinizde yazı içerikli evraklar bulunduğunu ve bu evraklar içerisinde metin araması yapmak veya metni tamamiyle kopyalayarak bir kelime işlem yazılımında tekrar düzenlemek isterseniz öncelikle bir tarayıcıya ihtiyacınız olacaktır. Bazı tarayıcılar direk olarak PDF formatında tarama yapabilmekte. Dilerseniz tarayıcınızda evrakları PDF veya bir resim formatında tarayarak Acrobat’a aktarabilir, dilerseniz tarama işlemini direkt olarak Acrobat içerisinden yapabilirsiniz. Acrobat, Twain sürücüsü bulunan birçok tarayıcı ile uyumluluk sağlıyor. Eğer tarayıcınızın kullandığınız işletim sistemine uygun Twain sürücü yazılımı ile ilgili bir problem yaşıyorsanız (varsa) ilgili markanın Twain sürücüsünü www.twain.org/drivers adresinden bulmanız mümkün olacaktır.
Tarayıcınızı bilgisayarınıza bağladıktan ve çalışırlığını test ettikten sonra Acrobat içerisinden tarama işlemine başlayabilirsiniz. Tarama işlemi için Acrobat’ın File > Create PDF > From Scanner menüsünden tarama arayüzüne ulaşabilirsiniz.
Karşınıza çıkan arayüzden tarayıcınızın modelini seçtikten sonra tarama ayarlarını yapabilirsiniz.

Sides: Eğer tarayıcınız önlü arkalı tarama işlemini destekliyorsa Front Sides seçeneği ile ön yüzlerini, Both Sides seçeneği ile de her iki yüzünü tarayabilirsiniz. Promt for scanning more pages seçeneğini akitf hale getirerek (tarayıcınız destekliyorsa) kağıt yükleme tepsisi bulunan tarayıcılarda belgelerin tamamını tek seferde tarayabilirsiniz.



Output: Multiple Files seçeneği ile çoklu sayfa taramalarında her sayfayı farklı bir PDF belgesi olarak kaydedebilirsiniz. Dilerseniz Create a PDF portfolio seçeneği ile taranmış PDF belgeleri bir portfolya paketine dönüştürebilirsiniz.

Ayrıca Append to extising file or portfolio seçeneğini kullanarak taranacak belgeleri haihazırda mevcut bulunan bir belge veya portfolyo içerisine ilave etmeniz mümkün.

Document: Bu bölüm, OCR işlemi için asıl önemli olan ayarları içeriyor. Öncelikle tarama kalitesinin Small Size - High Quality sürgüsünü kullanarak ayarlanması gerekiyor. Taranacak belge temiz durumda ise orta kalite yeterli olacaktır. Faks gibi düşük kalitedeki evraklar için High Quality seçeneğini kullanmak dosya boyutunu büyütse de OCR işleminin daha sağlıklı yapılmasını sağlayacaktır. Dilerseniz OCR işleminden sonra belgenizin boyutunu Advanced > PDF optimizer menüsünü kullanarak düşürebilirsiniz.

Tarama işleminde daha detaylı ayarlar yapmak için sağ bölümde bulunan Options düğmesine basarak birçok resim iyileştirme opsiyonunu manuel olarak denetlemeniz mümkün.


OCR özelliğini kullanabilmek için anahtar seçenek ”Make Searchable (Run OCR)”.


Bu seçeneği işaretledikten sonra sıra geldi dil ayarlarını yapmaya. Eğer Türkçe bir metin tanımlama işlemi yaptıracaksanız Make Searchable seçeneğinin yanında bulunan Options düğmesine tıklayarak açılacak olan Recognize Text Settings penceresinden Primary OCR Language olarak Turkish seçeneğini işaretlemeniz gerekiyor. Farklı dildeki evraklar için uygun dil tercihini listeden yapabilirsiniz. Acrobat ile Türkçe dahil Çince ve Japoncadan tutun da Rusçaya kadar 42 farklı dilde metin tanımlaması yapılabiliyor.


PDF output Style seçeneğini Searchable Image, Downsample Images seçeneğini de Lowest (600 dpi) şeklinde ayarladıktan sonra pencereyi OK düğmesine basarak kapatabilirsiniz. Son olarak yapılması gereken işlem Acrobat Scan penceresinin sağ alt köşesinde bulunan Scan düğmesine basmak. Dokümanınızın tarama işlemi başlayacak ve tarama işlemi tamamlanınca taradığınız doküman ekranda bir PDF belgesi olarak açılacaktır.

Aslında Acrobat’ın iddiası resim formatındaki belgeleri metin belgesine dönüştürmekten ziyade, bu belgedeki metinlere arama yapma yeteneğini kazandırmak yönünde. Fakat biraz uyanık davranarak arama yeteneği kazandırılmış belgelerde bulunan metinleri kopyala-yapıştır yöntemi ile dilediğiniz programa aktarmanız mümkün olacaktır :)

Bir resim olarak taranan PDF belgesi içerisinde arama yapmak isterseniz Edit > Find menüsünü kullanabilirsiniz. Tarama esnasında dokümanınıza OCR işlemi de uygulandığı için aradığınız kelime otomatik olarak belge içerisinde bulunacaktır.



Elbette bu fonksiyonun sağlıklı bir şekilde çalışması, taradığınız dokümanın kalitesi ile doğru orantılı. Doküman ne kadar kaliteli olursa metin tanıma seçeneği de o derece sağlıklı çalışacaktır. Faks gibi görüntü kalitesi bozulmuş dokümanlarda harf hataları elbette olabilir. Buna rağmen oluşabilecek harf hatalarını düzeltmek, ilgili metni baştan oturup yazmaktan her zaman daha pratik olacaktır :)

Peki metni bir kelime işlem programında düzenlemek isterseniz ne yapmanız gerekiyor? Oldukça basit. Pencere üstünde bulunan araçlardan Select Tool ile metin parçasını seçtikten sonra Edit > Copy komutu kullanarak kopyalamak ve istediğiniz programa Edit > Paste komutu yapıştırmak.


Mevcut bir resim veya yazıları path’e dönüştürülmüş vektörel bir çalışmayı metne dönüştürmek:
Elinizde halihazırda yazı içerikli bir dokümanın aranmış bir resim versiyonu veya yazıları path’e dönüştürülmüş (convert edilmiş) vektörel bir çalışma var. Bu belgeler içerisindeki metinleri düzenlenebilir formata sokmak istiyorsunuz. Bu işlem için öncelikle elinizdeki malzemeyi bir resim formatına dönüştürmeniz gerekiyor.

Daha önceden taranmış bir resim dokümanını Photoshop’ta açarak Image > Mode > Grayscale formatına (renkli yazılar için OCR kalitesini artıracaktır) dönüştürün. Daha sonra gerekiyorsa Levels, Curves veya Brightness/ Contrast araçlarını kullanarak resimde iyileştirme yapın ve resmi TIFF formatında kaydedin.

Yazıları path’e dönüştürülmüş belge için de (mesela FreeHand, Illustrator, Corel Draw vs.) çalışmayı ilgili program üzerinden EPS formatında dışa aktararak Photoshop’da 300 pixel/inch çözünürlükte açın ve resmi siyah beyaz yaptıktan sonra TIFF formatında
kaydedin.

İkinci aşamada Acrobat üzerinden File > Create PDF > From File menüsünü kullanarak kaydettiğiniz TIFF dokümanını seçin ve resimleri PDF belgesine dönüştürün. Dilerseniz File > Combine > Merge File into a Single PDF menüsünü kullanarak birden fazla resmi aynı anda tek bir PDF belgesine dönüştürebilirsiniz.

PDF belgenizi oluşturduktan sonra, belge ekranda açıkken Document > OCR Text Recognition > Recognize Text Using OCR... menüsünü kullaranak OCR işlemini başlatın.

Açılacak olan Recognize Text penceresinde çok sayfalı bir PDF belge üzerinde çalışıyorsanız OCR işlemi için istediğiniz sayfa aralığını tanımlayabilirsiniz.

Pencerenin sağ altında bulunan Edit düğmesine basarak Recognize Text - Settings ayarlarını tanımlamanız gerekiyor. Tarama seçeneklerinde yer alan ayarlar ile aynı olan bu seçeneklerde, Primary OCR Language olarak elinizdeki belgede yer alan metnin dilini, PDF output Style olarak Searchable Image, Downsample Images olarak da Lowest (600 dpi) şeklinde tanımlayarak sırasıyla
açık olan her iki pencereyi de onaylayın. OCR işlemi başlayacaktır.

OCR işlemi tamamlandıktan sonra dilerseniz Edit > Find menüsünü kullanarak belge üzerinde arama yapabilir, dilerseniz Select Tool’u kullanarak metinleri seçebilir ve kopyala - yapıştır yöntemi ile diğer programlara aktarabilirsiniz. Eğer elinizde çok miktarda resim belgesi varsa alternatif olarak bu belgeleri Document > OCR Text Recognition > Recognize Text in Multiple Files Using OCR... seçeneğini kullanarak da toplu bir şekilde OCR işlemine tabi tutabilirsiniz. Açılacak olan Paper Capture Multiple Files arayüzünden dilerseniz Add Files düğmesi ile belgeleri tek tek seçebilir, dilerseniz aynı düğmenin altında bulunan Add Folders seçeneği ile bir klasörü tanımlayarak içerisinde bulunan tüm belgelerin işlenmesini sağlayabilirsiniz.

Son Olarak...
Acrobat’ın sunduğu OCR seçeneği, gerek dijital, gerek basılı kağıt formatında bulunan materyaller için ideal bir karakter tanıma özelliği sunuyor. Kullanım esnasında basit 2 dezavantajdan da bahsetmek istiyorum. Çok sütünlu yazılarda paragraf birleştirme özelliği bulunmuyor. Resimde gördüğünüz her satır, başka bir programa kopyala-yapıştır işlemi sonrasında bağımsız bir satır olarak yapıştırılıyor. Bunun yanında bazı kelimelerin arasında da ufak tefek espas hataları bulunabiliyor.
Bunlara rağmen metni kullanacağınız program içerisinde basit bir Bul/Değiştir komutu uygulayarak paragraf boşluklarını ve espas aralıklarını birleştirmeniz mümkün olacaktır.

Uzun bir metni sil baştan yazmaktan her zaman daha pratik bir yöntem.
Keyifli çalışmalar...

 

September 2009

 


Dosya