|
Se per un certo periodo l'impostazione originaria di HTML/SGML è stata
dimenticata, il Web di oggi è diventato molto complesso, così importante
da richiedere effettivamente qualcosa di potente ed efficace come l'originale
SGML per risolvere un problema fondamentale: l'apertura dei documenti gestiti
dagli applicativi (Word Processor, Fogli elettronici, Gestionali e così
via).
L'enorme diffusione di Internet è dovuta in gran parte all'interoperabilità,
garantita dal fatto che tutto è basato su standard aperti, pubblici e
ben documentati. Di Open Standard per l'informatica se ne è parlato per
decenni, soprattutto in ambito Unix (il sistema aperto per eccellenza) senza
che in verità l'industria informatica, per vili motivi di interesse,
li abbia mai presi seriamente in consideranzione, anzi in realtà tentando
di rendere chiusi anche i vari Unix. È stata l'esplosione di Internet
in ambito prima universitario (cioè tipicamente non commerciale) che ha
dimostrato come la necessità di Open Standard non sia uno sfizio teorico
ma una necessità reale. Qualcuno ha osservato che gli Open Standard sono
osservati rigidamente da tutte le discipline tranne l'informatica. Avete
notato come le viti abbiano filettature standard? Lo stesso non si può
dire per le "filettature" dei device driver. Se ci si pensa un attimo,
è solo una questione di filettature che impedisce ad un device driver
DOS di girare sotto SCO Unix. L'adozione di open standard è il punto cruciale
che ha reso possibilie prima l'interconnessione di reti di origine diverse
(reti Unix, Novell, Microsoft e Apple), e poi la comunicazione tra programmi
di origine diversa. Abbiamo finalmente delle "filettature" standardizzate
e compatibili per le applicazioni di rete: basta pensare come un client
di posta elettronica come Eudora sotto Windows comunichi normalmente con
un server di posta elettronica come sendmail che gira sotto Unix. Ma in
generale qualunque programma client di posta elettronica abilitato per
Internet può comunicare con qualunque programma server di posta elettronica.
E tutto questo grazie a SMTP: un testo lungo circa venti pagine che specifica
il protocollo per l'interconnessione.
La regola di Internet della standardizzazione non è valsa finora per
i programmi di Office Automation : un file di Word si legge con molta difficoltà
da WordPerfect o AmiPro. Va bene, ci sono filtri che gestisconono la conversione,
ma a parte il fatto che quasi sempre importano dal e non esportano verso
il concorrente, che i filtri hanno i loro problemi e limitazioni, e che
sono aggiornati al più alla versione precedente dell'altro programma, il
problema è un altro. Chi è in grado, con questa babele di formati di file
incompatibili, di analizzare i documenti prodotti dalle suite di office?
Pensiamo ad una semplicissima applicazione: indicizzare i documenti. Se
una organizzazione ha in archivio file di Word, WordStar, WordPerferct,
Excel, 123, Access e DBF (e soprassediamo su dettagli come Word 2,6,95,97
per Windows o Word 5.1, 6 per Mac), si può pensare di effettuare ricerche
e indicizzazioni ad hoc da mettere nel proprio server Intranet? Se i documenti
fossero tutti in un formato comune questo si potrebbe fare.
Ecco lo scopo, importantissimo e fondamentale, di XML: introdurre un formato
comune per tutti i tipi di documenti generati dai programmi di produttività
personale. Per questo scopo si poteva usare SGML, che però è considerato
(a ragione) troppo complicato per un uso generalizzato. Per questo motivo
è stata sviluppato dal W3C (il Web Consortium capitanato da Tim Berners-Lee,
l'inventore del WWW) la specifica nota come XML (eXtensible Markup Language)
che pur rispettando l'impostazione originaria dell'SGML, racchiude (almeno
nelle parole degli autori) l'80% della sua potenza utilizzando soltanto
il 20% della sua complessità.
L'HTML è stato lasciato al suo destino di linguaggio di marcatura fisica
delle pagine Web, mentre l'XML è inteso come linguaggio per la marcatura
logica e astratta dei documenti. Notare che l'XML si sposa benissimo con
i Word Processor moderni e la loro impostazione a stili. Basta pensare
ad un documento di Word: può essere formattato applicando gli stili al
testo dappertutto, ma si può (e il risultato è più omogeneo e professionale)
definire degli stili (di carattere o paragrafo) dando loro un nome e poi
usare solo quelli per impaginare. In pratica, se si estrae da un documento
qualsiasi soltanto i nomi degli stili e il testo si ottiene la sua descrizione
logica, che è quella che viene espressa da un documento XML!
La prossima versione di Microsoft Office consentirà di salvare i documenti
sia in formato nativo per ragioni di efficienza che in formato Web-enabled.
In XML forse penserete. No, in HTML con XML embedded. Ovvero, l'idea è
che un documento può essere salvato in HTML in modo da poter essere visualizzato
con qualsiasi browser (vecchio o nuovo che sia - più vecchio è il browser
peggio si vede il documento). Comunque i browser non arrivano alla ricchezza
di dettagli e di informazioni di un Word Processor (a un browser non importa
molto del formato delle pagine o della lingua per la correzione ortografica).
I dettagli non di pertinenza del browser vengono comunque incorporati in
HTML sfruttando una codifica XML. In questo modo Word può salvare direttamente
in HTML, i documenti sono visualizzabili con qualuque browser, e rileggibili
da Word senza perdere un bit delle informazioni del documento dovute alla
sua esportazione in formato HTML (a differenza di quanto avviene oggi).
|