Il livello di leggibilità linguistica di un testo dipende principalmente da due fattori: dai termini scelti (livello lessicale) e dalla costruzione delle frasi (livello sintattico).
Il rapporto tra lessico usato e comprensione dei contenuti di un testo è molto stretto. Il livello di conoscenza della lingua dei lettori, quindi, è uno dei parametri fondamentali per la valutazione del livello di leggibilità di un testo. Queste considerazioni hanno evidenziato la necessità di stabilire criteri per decidere se, e in che misura, una parola può essere compresa da un certo tipo di lettori (Mastiodoro & Amizzoni, 1993). Sono nate così le prime liste di frequenza lessicale per la lingua inglese. Tali liste sono basate solo sulla frequenza di occorenza dei vocaboli e prendevano in considerazione solo il linguaggio scritto. Per quanto riguarda la lingua italiana, nel 1972 Bortolini elabora il Lessico italiano di frequenza (LIF).
Lo strumento più valido per valutare la complessità lessicale di un testo è il Vocabolario di base della lingua italiana (VdB) di De Mauro (1980). Il VdB comprende più di 7000 parole. Questo vocabolario si suddivide in: vocabolario fondamentale, vocabolario di alto uso e vocabolario di alta disponibilità.
All'interno del vocabolario fondamentale e del vocabolario di alto uso sono classificati la maggior parte dei lemmi, mentre il vocabolario di alta disponibilità comprende i lemmi meno frequenti sia nella lingua parlata sia in quella scritta.
Secondo De Mauro (1980) se in un testo si utilizzano le parole del VdB, che sono le più comuni e semplici della lingua italiana, il testo diventa comprensibile a circa il 90% della popolazione italiana. Più alto è il numero delle parole che non fanno parte del VdB e più basso è il numero di persone in grado di comprendere il testo.
Il sistematico confronto tra il lessico utilizzato nei testi e il vocabolario di base della lingua italiana permette di individuare quali sono le parole di difficile comprensione. Diventa possibile in questo modo aumentare il livello di leggibilità del testo stesso.
La comprensione di una frase decresce, oltre che all'aumentare della difficoltà delle parole in essa contenute, anche all'aumentare della sua lunghezza. Questa relazione si può considerare basata su due assunti di base: uno di tipo linguistico e l'altro di tipo psicologico. L'assunto linguistico esplicita la regola per cui minore è la lunghezza della frase considerata e più probabilmente si tratterà di una frase principale, con una struttura sintattica poco complessa e adatta ad essere letta e compresa anche dai lettori meno esperti. L'assunto di ordine psicologico, invece, chiama in causa la capacità del lettore di assimilare informazioni durante la lettura.
La lunghezza dei periodi è, quindi, una delle determinanti del livello di leggibilità di un testo. Frasi troppo lunghe producono tempi di lettura maggiori e rendono la comprensione più difficoltosa. L'utilizzo di indici statistici di leggibilità permette di valutare la leggibilità complessiva di un testo dal punto di vista sintattico.
L'indice di Flesch (1943) consiste essenzialmente in un metodo di valutazione della leggibilità di un testo in lingua inglese attraverso un'equazione matematica, cioè calcolando il numero di sillabe contenute in 100 parole di un campione (wl) tratto dal brano in esame, la lunghezza media delle frasi del campione calcolata in numero di parole (sl) ed inserendo questi valori nella formula:
FACILITA' DI LETTURA = 206.835- .846 wl- 1.015 sl
Il valore trovato sarà un punteggio compreso tra 0 (in pratica illeggibile) e 100 (facilissimo).
Nella sua prima formulazione tale indice prendeva in considerazione la lunghezza media della frase calcolata attraverso il numero di parole e il numero di affissi contenuti in ogni parola; per semplificare il conteggio è stato successivamente sostituito il calcolo dei suffissi con il computo delle sillabe, con cui si ottengono sostanzialmente i medesimi risultati.
Il metodo si può agevolmente riassumere in sei passaggi:
- calcolare il numero di parole contenuto nel campione. Vanno considerate come singole parole le contrazioni, le parole unite da trattino, le abbreviazioni, i simboli e le loro combinazioni;
- calcolare le sillabe contenute nel campione. Vanno considerate le sillabe per la loro pronuncia nella parola, inoltre le abbreviazioni, i simboli e le loro combinazioni devono essere considerate come parole costituite da una sola sillaba;
- contare le frasi del campione: va considerata frase ogni unità di discorso delimitata da un punto, un punto e virgola, un punto esclamativo o un punto interrogativo;
- calcolare il numero medio di sillabe per parola, dividendo il numero delle sillabe totali per il numero delle parole del campione;
- calcolare il numero medio di parole per frase, dividendo il numero totale di parole per il numero delle frasi del campione;
- a questo punto per trovare il valore di leggibilità del testo è sufficiente, facendo riferimento alla figura 2, tracciare una retta che unisce il valore medio del numero di parole per frase al valore medio del numero di sillabe per parola. Il valore trovato sulla linea centrale è l'indice di leggibilità del nostro testo. Tale valore concorda pienamente con quello trovato moltiplicando la lunghezza media della frase per 1.015, la lunghezza media delle parole per .846 e sottraendo la somma di questi due valori da 206.835, formula che viene così formalizzata:
Leggibilità Flesch= 206.835-.846 wl-1.015 sl.
A questo punto è sufficiente confrontare il valore con i valori riportati nella tabella 1 per conoscere la reale difficoltà del testo che stiamo analizzando e anche quale livello di cultura è richiesto per la sua comprensione.
Figura 2: Schema per calcolare indice di Flesch. Per calcolare l'indice tracciare una linea che colleghi il numero medio di parole per frese al numero medio di sillabe per parola. (tratto da Flesch, 1960)
Tabella 1:valori dell'indice Flesch e relativi gradi di scolarizzazione (tratto da Flesch, 1948).
L'indice di Flesch sembra a prima vista particolarmente facile da usare, purtuttavia, la necessità di calcolare il numero esatto di sillabe ne rende l'utilizzo un po' più complicato di quanto appaia, poiché quasi tutti gli algoritmi studiati per la sillabazione automatica del testo mantengono margini d'errore piuttosto grandi. Inoltre, l'indice Flesch è stato creato per la lingua inglese ed il suo utilizzo per la valutazione di testi in lingua italiana non è possibile.
Per quanto riguarda la lingua italiana, sono stati elaborati due indici: l'indice Gulpease costruito sulla base di testi in lingua italiana, e l'adattamento alla lingua italiana dell'indice Flesch elaborato da Roberto Vacca nel 1972.
Il GULP (Gruppo Universitario Linguistico Pedagogico) ha cercato di ovviare al problema della sillabazione studiando un indice che utilizzasse la lunghezza delle parole, anziché le sillabe. L'indice Gulpease risulta, quindi, di facile utilizzo anche per un calcolo manuale.
Anche per quest'indice la scala di riferimento va da 0 (in pratica illeggibile) a 100 (leggibilità massima). Inoltre, l'indice Gulpease, a differenza della formula di Flesch-Vacca, permette di valutare la leggibilità di un testo rispetto al livello di scolarizzazione del lettore (licenza elementare, licenza media, diploma di scuola superiore).
La formula dell'indice Gulpease è la seguente:
Leggibilità Gulpease = 89-LP/10+3*FR
con: LP = (totale lettere100) /totale parole e FR = (totale frasi100) /totale parole
Per quanto riguarda l'uso degli indici di leggibilità nella valutazione dell'usabilità dei siti web, l'Istituto per le Nuove Tecnologie Genesio (2000) ha da poco condotto uno studio sulla leggibilità nel quale valuta alcuni tra i siti web più visitati in Italia attraverso vari indici di leggibilità, tra cui appunto l'indice Gulpease e l'adattamento italiano dell'indice Flesch (indice Flesch-Vacca). Il valore dell'indice scelto in questa ricerca come soglia di leggibilità minima è compreso tra 50 e 60 per l'indice Gulpease, corrispondenti al valore 45 per l'indice Flesch-Vacca.
Dalla ricerca emerge che i siti delle pubbliche amministrazioni sono quelli con indici di leggibilità più bassa, talvolta addirittura inferiori a 50 Gulpease e 25 Flesch-Vacca: anche i siti di grandi aziende mostrano indici di leggibilità piuttosto bassi.
Anche alcuni siti di testate editoriali, il cui scopo altro non è se non quello informativo, si situano al di sotto dei valori minimi di leggibilità. Questo dato è probabilmente dovuto al fatto che spesso i contenuti vengono solo trasposti dalla forma cartacea a quella on-line, senza quasi alcuna modifica.