Parallelamente ad HTML 4.0 e 4.01 arrivarono nuovi approcci al Web design, con attenzione all'accessibilità, all'internazionalizzazione, ad una visualizzazione più veloce delle pagine e ad una migliore separazione tra presentazione e struttura dei documenti attraverso i fogli di stile.
Nel Gennaio 2000 fu rilasciato XHTML 1.0, una famiglia di linguaggi di marcatura che riformula HTML come un'applicazione di XML. Ponendosi a cavallo tra le versioni precedenti di HTML e XML, XHTML sfrutta il potenziale di quest'ultimo consentendo comunque di visualizzare i documenti HTML negli attuali browser.
XHTML non è una versione successiva ad HTML, ma è a tutti gli effetti un nuovo linguaggio di markup. Questo perché XHTML non ha nuovi tag o nuovi attributi, semplicemente importa le caratteristiche di HTML nella famiglia dei linguaggi XML.
Scrivere del codice XHTML implica un maggiore sforzo da parte del designer a causa della rigidità della sua grammatica formale, infatti i documenti XHTML devono essere "ben formati" (e cioè tutti gli elementi devono avere il tag di chisura, tutti gli elementi devono essere correttamente annidati, tutti gli elementi HTML e i nomi degli attributi devono essere scritti in minuscolo e i valori degli attributi devono sempre essere compresi fra doppi apici).
Questo sforzo viene ripagato innanzitutto dalla correttezza formale del codice, dalla sua pulizia e dalla sua portabilità (cioè dalla sua capacità di essere visualizzato e implementato efficacemente su diversi sistemi: PC, PDA, cellulari WAP/GPRS, WebTV). Inoltre XHTML, facendo parte della famiglia XML, è estensibile, quindi permette di incorporare nel documento parti scritte in uno dei tanti linguaggi della famiglia XML (ad esempio attraverso MathML possiamo scrivere formule matematiche complesse attraverso il codice anziché importare un'immagine della formula nel documento).
Infine, i documenti scritti in XHTML e validati sono naturalmente più accessibili, perchè evitano elementi non standard e sono ben definiti nella struttura, quindi risultano maggiormente gestibili da parte di browser non standard come quelli vocali o testuali.