Lexiconul de la Buda - Informatică

Provocări informatice

Din punct de vedere informatic, dicționarul a ridicat numeroase probleme date în principal de faptul că este multilingv, utilizează ortografie veche, iar structura intrărilor nu este menținută constant pe parcursul dicționarului.

Ortografia veche

Lucrarea conține ortografie veche pentru mai multe limbi: caractere gotice pentru textul german, scriere latinist (etimologizantă) și caractere chirilice pentru româna veche. Pentru a permite lucrul și afișarea corectă a acestora s-a procedat la alegerea, pentru caracterele gotice, a fontului gratuit Leipzig Fraktur. Pentru majoritatea literelor și diacriticelor necesare în scrierea română veche, latină și maghiară s-a ales fontul gratuit Gentium Plus. Pentru slovele chirilice s-a creat un font nou, denumit Cyrillicum Budanum, realizat de către Bogdan Harhătă. Fontul german ales și crearea fontului chirilic au avut ca principiu utilizarea tastaturii românești pentru introducerea de text. S-a ales această variantă pentru a simplifica munca editorilor.

Setul de semne tipografice Cyrillicum Budanum, creat în cadrul proiectului, răspunde nevoii de a reda în format electronic textele scrise cu alfabet chirilic din Lexiconul de la Buda (1825). S-au urmărit pentru definirea setului de caractere următoarele criterii: amplasamentul pe harta UNICODE, dimensiunea corpului de literă standard, forma fiecărui semn tipografic în parte.

Referitor la amplasamentul semnelor în tabelul UNICODE, notăm că acestea sunt definite în zona de codare ISO8859-15, corespunzător subsetului LATINO, ceea ce permite introducerea semnelor direct de pe tastatura românească, facilitând în acest fel munca redactorilor. De altfel, aceasta constituie elementul principal care delimitează fonturile chirilice create de celelalte seturi de caractere chirilice existente definite în zona de codare destinată acestui tip de caractere.

În ceea ce privește dimensiunea corpului de literă, aceasta a fost definită în funcție de mărimea fiecărui semn și de distanțele aproximative dintre semne în Lexiconul budan. Prin urmare, înălțimea rândului pentru corpul de literă 12 este de 800px. Majusculele au o înălțime de 700px, iar minusculele de 470px.

Forma fiecărui semn în parte a fost concepută în așa fel încât să reproducă cât mai fidel forma semnelor din Lexicon. Pentru minuscule a fost luat ca model setul de caractere Izhitsa, iar pentru majuscule setul de caractere Dilyana, ambele în regim OpenFont. Cu toate acestea, forma fiecărei litere în parte diferă de modelul corespunzător, întrucât literele din Lexicon sunt mai subțiri și mai înalte, iar dimensiunile și forma grațiilor, precum și alinierea astelor și a elementelor arcuite sunt specifice. Au fost preluate ca atare și reamplasate pe harta UNICODE o parte dintre semnele diacritice: din setul Izhitsa – asteriscul, din setul Dilyana – punctul și virgula. Celelalte diacritice în a căror compoziție se regăsesc punctul și virgula au fost recreate pe baza celor două semne preluate. Au mai fost preluate din setul de caractere Gentium Plus (SIL Open Font License) accentele și spiritele, cu îngroșarea semnului și amplasarea în negativ, precum și semnul pentru vocala scurtă, normal și inversat. S-a intervenit la înclinația semnelor pentru brevis pentru a respecta forma din Lexiconul budan.

În ceea ce privește copyright-ul, setul de caractere Cyrillicum Budanum este disponibil gratuit pe site sub licență OpenFont. Se poate downloada de aici. Atât seturile de caractere din care au fost importate semnele mai sus amintite sunt libere de copyright, cât și mijloacele tehnice de realizare ale acestuia. Pentru desenarea și amplasarea semnelor și pentru codarea și generarea setului de caractere a fost utilizată o variantă FontForge, sub un sistem de operare Debian Squeeze/Wheezy Linux.

Scrierea română etimologizantă utiliza litera ș însă cu virgula inversată, precum și litera ǲ(ǳ). Acestea au fost plasate în fontul Gentium de pe site.

Site-ul este construit ca să permită afișarea corectă a conținutului dicționarului fără să fie necesară instalarea manuală a vreunui font.

Caracterul neunitar al dicționarului

Pentru a ajuta persoanele interesate să răsfoiască dicționarul, să caute în dicționar sau să afle informații suplimentare referitoare la intrări s-au realizat mai multe instrumente de adnotare a dicționarului.

Astfel pentru fiecare intrare s-au creat câmpuri ce desemnau dacă intrarea conținea informații de un anumit tip (ex., informații de natură lexico-gramaticală: substantiv feminin etc.; informații în alte limbi etc.), selectabile manual de editori.

S-au făcut trimiteri către cuvinte existente în Dexonline.ro în câmpuri special create, modificate de către editori. Pentru facilitarea muncii în mod automat se preluau cuvintele titlu, cuvintele secundare și se crea un link pentru verificarea acestora pe site-ul dexonline.ro.

Pentru textul emendat al intrărilor și al câtorva capitole introductive s-a realizat un sistem de note.

Pentru a ajuta parcurgerea dicționarului trimiterile către alte intrări sunt click-abile. Pentru a ajuta editorii, cuvântul trimitere selectat era căutat în baza de date de cuvinte-titlu și, dacă exista intrarea, selecția se făcea automat. În caz de situații ambigue se permitea selectarea intrării corespunzătoare sau introducerea manuală a acesteia. Dacă intrarea către care se făcea trimiterea nu exista în dicționar, atunci aceasta primea un marcaj special.

Pentru a facilita accesul la dicționar s-a realizat un sistem de indexuri, pentru lista de cuvinte din dicționar, cuvinte în limba franceză, greacă, italiană etc. Pentru fiecare index cuvintele corespunzătoare trebuiau în prealabil să fie selectate de către editori și apoi acestea se introduceau în index. În ce privește ordonarea acestora ortografia veche a pus din nou probleme. S-a realizat o ordonare prin ignorarea spațiilor și diacriticelor programatic.

Referitor la referințele existente în dicționar, acestea au fost marcate și li s-a asociat numele autorului, a operei și informații suplimentare despre sursa citării în mod manual. Pentru a facilita operațiunea s-a utilizat funcția de sugestie de nume pe măsură ce se tastează.

Emendarea

Emendarea dicționarului presupune, între altele, operațiuni de transliterare și uniformizare în plan tipografic.

Pentru a facilita munca editorilor, o parte din aceste operațiuni au fost automatizate. Astfel, mare parte din slovele chirilice au fost transformate automat (cele care erau codate pe setul actual de caractere latine au fost transformate prin simpla schimbare a fontului însă câteva zeci de caractere au trebuit transformate prin echivalări). În ce privește scrierea latinistă (etimologizantă) ("Š", "š", "Qu", "qu", "Ó", "ó", "ǲ", "ǳ" au devenit 'Ș', 'ș', 'C', 'c', 'Oa', 'oa', 'Z', 'z'), maghiara ("ō", " a’ ", "tz", "ts", "ǘ", "szsz" au devenit 'ő', ' a ', 'c', 'cs', 'ű', 'ssz') și foarte puțin germana ("Š", "š" au devenit 'S', 's', întrucât fontul gothic este codat pe caracterele actuale germane, transformarea făcându-se prin schimbarea fontului), automatizarea transliterării câtorva caractere sau secvențe de caractere a fost limitată, procedura realizându-se majoritar manual de către editori.

Referitor la aspectul tipografic, s-a automatizat afișarea îngroșată a cifrelor/literelor care desemnau anumite zone de informații din intrare (ex, a), b), I., II. etc.) și s-a scos formatarea aldină prezentă în varianta originală a textului. Totuși, datorită absenței caracterului sistematic al marcajului, o parte din aceste formatări au trebuit realizate manual.

Imaginile

Site-ul oferă imaginile scanate ale dicționarului, puse la dispoziție gratuit de Biblioteca Centrală Universitară „Lucian Blaga”, din Cluj-Napoca. Imaginile au fost prelucrate atât prin proceduri automate, cât și manual: prin rotire, selectarea zonei de afișare, aplicarea de margini, eliminarea fundalului, ștergerea însemnărilor de mână existente, dezdoire, corecție a perspectivei.

Pe lângă imaginea paginilor întregi, site-ul oferă și fragmente de imagine corespunzătoare fiecărei intrări în parte. Aceste fragmente au fost realizate majoritar automat printr-un program creat special de noi de identificare a imaginii, cu orientare inițială manuală și cu corecții manuale ulterioare, în special, pentru intrările multiple.

Instrumente de lucru

Site-ul a fost realizat cu programe gratuite PHP, care oferă pagini cu conținut HTML, formatat cu CSS, și cu interactivitate crescută prin JavaScript, Jquery, Jquery UI. Baza de date utilizată este MySQL.

Interfața utilizatorului

În interfața utilizatorului s-a realizat un sistem de afișare/răsfoire a capitolelor introductive, care permite afișarea textului original și, în funcție de capitol, a traducerii sau transcrierii, inclusiv cu posibilitatea afișării de note.

În interfața de căutare s-a creat o tastatură virtuală special pentru acest dicționar care permite celor care nu dispun de tastatură germană, maghiară sau chirilică, precum și pentru unele caractere care nu se regăsesc în mod uzual pe tastaturile actuale, să poată să introducă texele dorite în căsuța de căutare.

Interfața de căutare oferă facilitatea de scoatere în evidență (prin colorare) a unor texte căutate, precum și sugestia de cuvinte pe măsură ce se tastează în câmpul de căutare.

Căutarea poate fi realizată după cuvântul-titlu (dar și, pentru a ajuta regăsirea de informații pertinente, după cuvinte secundare, echivalentele actuale din dexonline.ro, cu și fără diacritice), respectiv avansat. La căutarea avansată, realizată în corpul articolului fie integral, fie doar într-o anumită secvență de limbă, baza de date poate fi interogată după mai multe câmpuri informaționale, identificate exclusiv pe baza conținutul lexiconului (ex., lexico-stilistice, de natură etimologică, alte informații suplimentare etc.).

Pagina cu afișarea intrărilor dispune de o bară de instrumente cu mai multe funcții. Pe lângă afișarea imaginii cuvântului în forma scanată, vizată în proiect, aceasta permite scoaterea în evidență (prin colorare) a textelor în diferite limbi (maghiară, germană, latină) pentru a facilita studiul acestora. De asemenea, tot aici se afișează și cuvintele din limba română ce corespund trimiterilor către site-ul dexonline.ro.

În textul din intrare, notele și informațiile despre autori/opere sunt click-abile, oferind informații suplimentare în ferestre ajutătoare. Trimiterile către alte intrări sunt, de asemenea, click-abile, deschizând intrările corespunzătoare în ferestre separate pentru facilitarea studiului.

Identificarea numerică a intrărilor

Pentru a ușura comunicarea între membrii echipei cu privire la cuvintele cu care se lucra în dicționar, toate intrările au fost identificate prin intermediul paginii pe care se aflau și a poziției acestora pe pagină.

În final, mulțumim colegului B. Harhătă pentru precizările referitoare la fonturile chirilice.

Lista limbajelor/programelor/pluginurilor cu licențe libere utilizate în proiect: PHP, HTML Purifier, PHPMailer, HTML, CSS, Javascript, jQuery, jQuery UI, TinyMCE, Booklet jQuery Plugin, Superfish jQuery Plugin, Nivo-Slider jQuery Plugin, jQuery highlight, MySQL, FontForge, ScanTailor.

Daniel-Corneliu Leucuța

Ne pare rău, dar browserul dumneavoastră nu redă corect acest site!