ePrometeusCorsoJavaJava
testi articoli
Testi Articoli  Download
Home | Eshop | Java | Tools | Web | 
CorsoJava è ora Video! Free for all!
Clicca Qui!

XML PARSING IN JAVA
Siti Web con XML e Java
Uno sguardo al passato
Un Open Standard: XML
Caratteristiche dell'XML
Applicazioni dell'XML
Il Parser
Da XML a HTML
Conclusioni
Bibliografia
L'Autore

<<< Un Open Standard: XML >>>

Se per un certo periodo l'impostazione originaria di HTML/SGML è stata dimenticata, il Web di oggi è diventato molto complesso, così importante da richiedere effettivamente qualcosa di potente ed efficace come l'originale SGML per risolvere un problema fondamentale: l'apertura dei documenti gestiti dagli applicativi (Word Processor, Fogli elettronici, Gestionali e così via).
L'enorme diffusione di Internet è dovuta in gran parte all'interoperabilità, garantita dal fatto che tutto è basato su standard aperti, pubblici e ben documentati. Di Open Standard per l'informatica se ne è parlato per decenni, soprattutto in ambito Unix (il sistema aperto per eccellenza) senza che in verità l'industria informatica, per vili motivi di interesse, li abbia mai presi seriamente in consideranzione, anzi in realtà tentando di rendere chiusi anche i vari Unix. È stata l'esplosione di Internet in ambito prima universitario (cioè tipicamente non commerciale) che ha dimostrato come la necessità di Open Standard non sia uno sfizio teorico ma una necessità reale. Qualcuno ha osservato che gli Open Standard sono osservati rigidamente da tutte le discipline tranne l'informatica. Avete notato come le viti abbiano filettature standard? Lo stesso non si può dire per le "filettature" dei device driver. Se ci si pensa un attimo, è solo una questione di filettature che impedisce ad un device driver DOS di girare sotto SCO Unix. L'adozione di open standard è il punto cruciale che ha reso possibilie prima l'interconnessione di reti di origine diverse (reti Unix, Novell, Microsoft e Apple), e poi la comunicazione tra programmi di origine diversa. Abbiamo finalmente delle "filettature" standardizzate e compatibili per le applicazioni di rete: basta pensare come un client di posta elettronica come Eudora sotto Windows comunichi normalmente con un server di posta elettronica come sendmail che gira sotto Unix. Ma in generale qualunque programma client di posta elettronica abilitato per Internet può comunicare con qualunque programma server di posta elettronica. E tutto questo grazie a SMTP: un testo lungo circa venti pagine che specifica il protocollo per l'interconnessione.
La regola di Internet della standardizzazione non è valsa finora per i programmi di Office Automation : un file di Word si legge con molta difficoltà da WordPerfect o AmiPro. Va bene, ci sono filtri che gestisconono la conversione, ma a parte il fatto che quasi sempre importano dal e non esportano verso il concorrente, che i filtri hanno i loro problemi e limitazioni, e che sono aggiornati al più alla versione precedente dell'altro programma, il problema è un altro. Chi è in grado, con questa babele di formati di file incompatibili, di analizzare i documenti prodotti dalle suite di office? Pensiamo ad una semplicissima applicazione: indicizzare i documenti. Se una organizzazione ha in archivio file di Word, WordStar, WordPerferct, Excel, 123, Access e DBF (e soprassediamo su dettagli come Word 2,6,95,97 per Windows o Word 5.1, 6 per Mac), si può pensare di effettuare ricerche e indicizzazioni ad hoc da mettere nel proprio server Intranet? Se i documenti fossero tutti in un formato comune questo si potrebbe fare.
Ecco lo scopo, importantissimo e fondamentale, di XML: introdurre un formato comune per tutti i tipi di documenti generati dai programmi di produttività personale. Per questo scopo si poteva usare SGML, che però è considerato (a ragione) troppo complicato per un uso generalizzato. Per questo motivo è stata sviluppato dal W3C (il Web Consortium capitanato da Tim Berners-Lee, l'inventore del WWW) la specifica nota come XML (eXtensible Markup Language) che pur rispettando l'impostazione originaria dell'SGML, racchiude (almeno nelle parole degli autori) l'80% della sua potenza utilizzando soltanto il 20% della sua complessità.
L'HTML è stato lasciato al suo destino di linguaggio di marcatura fisica delle pagine Web, mentre l'XML è inteso come linguaggio per la marcatura logica e astratta dei documenti. Notare che l'XML si sposa benissimo con i Word Processor moderni e la loro impostazione a stili. Basta pensare ad un documento di Word: può essere formattato applicando gli stili al testo dappertutto, ma si può (e il risultato è più omogeneo e professionale) definire degli stili (di carattere o paragrafo) dando loro un nome e poi usare solo quelli per impaginare. In pratica, se si estrae da un documento qualsiasi soltanto i nomi degli stili e il testo si ottiene la sua descrizione logica, che è quella che viene espressa da un documento XML!
La prossima versione di Microsoft Office consentirà di salvare i documenti sia in formato nativo per ragioni di efficienza che in formato Web-enabled. In XML forse penserete. No, in HTML con XML embedded. Ovvero, l'idea è che un documento può essere salvato in HTML in modo da poter essere visualizzato con qualsiasi browser (vecchio o nuovo che sia - più vecchio è il browser peggio si vede il documento). Comunque i browser non arrivano alla ricchezza di dettagli e di informazioni di un Word Processor (a un browser non importa molto del formato delle pagine o della lingua per la correzione ortografica). I dettagli non di pertinenza del browser vengono comunque incorporati in HTML sfruttando una codifica XML. In questo modo Word può salvare direttamente in HTML, i documenti sono visualizzabili con qualuque browser, e rileggibili da Word senza perdere un bit delle informazioni del documento dovute alla sua esportazione in formato HTML (a differenza di quanto avviene oggi).

ePrometeus s.r.l. - Web Software House & Open Source System Integrator
MILANO - SAN BENEDETTO DEL TRONTO(AP)
Contatti: info@eprometeus.com