Laboratorul 5 Tehnologia OCR

 

Generalitati

TextBridge Classic 2.0 este un produs de la ScanSoft pentru Microsoft Windows 95/98 si Windows NT.

TextBridge Classic ofera Optical Character Recognition (OCR) si produce fisiere text la scanare sau dupa imaginile salvate sub o forma de fisier imagine. Se pot utiliza fisierele din TextBridge Classic in texte, tabele si aplicatii cu baze de date.

Facilitati disponibile

Zona avansata de editare - creeaza, reface si redimensioneaza zonele de text. Este de preferat sa se utilizeze marker-ele luminoase pentru a edita si ajusta zonele de text, aceasta oferind in acelasi timp un control mai mare asupra rezultatelor.

Suport HTML imbunatatit - nu este nevoie sa se scrie textul pentru web, putandu-se face scanarea de text direct in format web.

Tipuri de pagina suportate - indica ce fel de formate de pagina sunt acceptate. Sunt incluse 8 tipuri de astfel de formate, asa cum se observa in figura urmatoare.



Figura nr. II.6.1 -
Formatele de pagina suportate de TextBridge Classic

Acces imediat imbunatatit - se poate rula programul OCR dintr-o aplicatie Windows care se poate alege din optiunea de meniu Instant Control Panel Access, cum ar fi oricare editor de text (de exemplu, Microsoft Word).

Suport pentru scanner-ele TWAIN si ISIS - suporta cele mai populare tipuri de scanner-e, incluzand orice scanner caree foloseste driver-e TWAIN.

Suport pentru OLE 2.0 - capabilitati drag&drop.

Suport pentru paginile scrise pe ambele parti.

Recunoastea unei varietati larga de marimi ale fonturilor.

Varietate mare de limbaje suportate.

TextBridge Classic suporta recunoasterea de documente care contin caractere specifice urmatoarelor seturi de caractere:

Afrikaans
Albanian
Aymara
Baltic
Basque
Breton
Bulgarian
Byelorussian
Catalan
Central European
Croatian
Cyrillic
Czech
Danish
Dutch
English
Estonian
Faroese
Finnish
Flemish
FrenchLower
Friulian
Gaelic
Rim Galician
German
Greek
Greenlandic
Hawaiian
Hungarian
Icelandic
Indonesian
Italian
Kurdish (Latin)
Latin
Latvian
Lithuanian
Malaysian
Norwegian
Pidgin English
Polish
Sorbian
Macedonian (Cyrillic)
Portuguese
Romanian
Russian
Serbian
Serbo-Croatian
Slovak
Slovenian
Spanish
Swahili
Swedish
Tahitian
Turkish
Ukranian
Upper Sorbian
Welsh
Western European
West Frisian
Zu

Tipuri de documente recunoscute

Tehnologia de recunoastere folosita de TextBridge Classic ofera acuratete OCR pentru o larga varietate de documente:

  • Documente produse de masini de scris, imprimante matriceale, prin impact, cu jet de cerneala si cu laser;
  • Copii facute la fax;
  • Imaginii primite on-line de la echipamente de comunicatie (de exemplu, fax-modemuri);
  • Documente fotocopiate, degradate sau murdare;
  • Documente cu una sau mai multe coloane;
  • Documente cu tabele;
  • Tabele create cu tab-uri;
  • Documente cu dimensiunea fontului cuprinsa intre 6 si 72;
  • Documente compuse in alte limbaje sau in combinatii diferite de limbaje;
  • Documente cu o varietate mare a dimensiunii paginii, depinzand de scanner-ul folosit: Nord American 8,5 x 11 si 11 x 17 (inch), A3 si A4
  • Documente cu pagini scrise pe ambele parti

Tipuri de fisiere imagine acceptate

TextBridge Classic poate procesa fisiere imagine in urmatoarele formate:

  • Documente TIFF (*.tif si *.ala) Group III si IV;
  • eXtended Image File (*.xif);
  • Windows Bitmap (*.bmp);
  • Documente PCX/DCX (*.pcx, *.dcx);
  • Documente fax (*.awd, *.fxd, *.fxm, *.fxr, *.fxs,

Moduri de lucru

TextBridge Classic poate functiona in modul automatic sau in modul manual.

Modul automatic este o versiune de lucru a programului in care sunt procesate documentele cu interventie minima din partea utilizatorului. In acest mod nu exista functie de preview sau selectarea manuala a unei zone.

Modul manual este o versiune de lucru a programului in care utilizatorul se implica in procesarea documentului. Se pot selecta zone din imagine si dupa procesarea unei portiuni se asteapta salvarea fisierului si pornirea unei noi sarcini.

Etape de lucru

1. TextBridge Classic preia documentul de la scanner sau dintr-un fisier imagine deja existent.

2. TextBridge Classic ia fiecare pagina si o proceseaza folosind OCR, colectand textul recunoscut intr-un fisier temporar pana la incheierea recunoasterii pentru intreaga pagina.

3. TextBridge Classic converteste textul intr-o varietate de formate, putand fi apoi copiat si lipit intr-un document al unui procesor de text, utilizandu-se Instant Access.

Toolbar-uri

La deschiderea programului, apare urmatoarea fereastra principala:


Figura nr. II.6.3 - Fereastra principala

Printre toolbar-urile disponibile se afla urmatoarele (vezi figura de mai jos):


Figura nr. II.6.2 - Toolbar-urile

Main toolbar - contine butoane care ofera accesul rapid la urmatoarele comenzi:

  • New;
  • Input from File;
  • Save;
  • Help.

Page toolbar - este folosit pentru a selecta sursa pentru pagini si tipul de pagina care se va procesa.

Exista urmatoarele optiuni:

  • Image File - selecteaza pagina dintr-un fisier imagine existent;
  • Scanner - selecteaza pagina de la scanner;
  • ADF - utilizeaza functia Automatic Document Feeder, daca aceasta exista;
  • Settings - deschide casuta de dialog pentru setari de parametri;
  • Page Type - afiseaza tipurile de pagina disponibile pentru procesare.

TOP ^