Breve guida alla classificazione

di Cristina Lavazza, Andrea Fiacchi, e Barbara Lauro

I principali modelli di classificazione e le loro applicazioni al web: quando usare cosa, grado di applicabilità, vantaggi e svantaggi. Dalla struttura gerarchica a quella multidimensionale La struttura gerarchico-enumerativa è l’organizzazione più diffusa nel web: essa prevede categorie-padre che contengono categorie-figlie come in un gioco di scatole cinesi. L’unica vera differenza tra i siti gerarchici [...]


I principali modelli di classificazione e le loro applicazioni al web: quando usare cosa, grado di applicabilità, vantaggi e svantaggi.

Dalla struttura gerarchica a quella multidimensionale

La struttura gerarchico-enumerativa è l’organizzazione più diffusa nel web: essa prevede categorie-padre che contengono categorie-figlie come in un gioco di scatole cinesi. L’unica vera differenza tra i siti gerarchici è quanto in profondità viene collocata l’informazione. La struttura analitico-sintetica (detta anche a faccette o multidimensionale) inizia solo ora a diffondersi soprattutto nei siti che gestiscono grandi moli di informazione e in quelli di e-commerce.

La struttura multidimensionale nasce dalla Colon Classification, un tipo di classificazione bibliotecaria ideata nella prima metà del secolo scorso dal geniale bibliotecario indiano Ranganathan. La Colon, ispirata al gioco del Meccano, si basa sull’idea che ogni libro (ma in realtà ogni fenomeno) può essere scomposto e descritto in base a proprietà fondamentali (dette faccette) intrinseche all’oggetto stesso. Ranganathan sintetizzò queste proprietà in cinque componenti:

  1. entità
  2. materia o proprietà
  3. energia (processi, fenomeni riguardanti l’entità)
  4. spazio
  5. tempo.

La realtà viene così scomposta e inquadrata da più punti di vista, nonostante l’oggetto/obiettivo finale della ricerca resti sempre uguale. Questo tipo di classificazione ribalta un tipo di logica antropocentrica, tipicamente occidentale, nella quale l’oggetto veniva classificato attraverso il giudizio esterno, dunque soggettivo. Con la Colon, l’oggetto viene invece analizzato e classificato attraverso le sue proprietà intrinseche, meno influenzabili dal giudizio soggettivo (vedi Lavazza 2003; Mazzocchi, Gnoli 2006). Nei sistemi di classificazione tradizionale (struttura gerarchico-enumerativa) ogni elemento è classificato sotto un’unica categoria. Nella classificazione tradizionale gli elementi hanno una collocazione corretta e univoca in uno schema ampio e gerarchicamente profondo che può essere reso attraverso un percorso a gradini categoria padre > categoria figlio.


Figura 1. Struttura gerarchico-enumerativa.

In un sistema di classificazione multidimensionale, invece, i singoli elementi non vengono organizzati in una struttura gerarchica, ma a ciascuno di essi viene associata una serie di caratteristiche che lo identificano da vari punti di vista. Sarà poi la selezione di alcune di queste caratteristiche a restituire all’utente l’elemento o il gruppo di elementi (classe) ricercato. In questo modo non è tramite un percorso definito che si arriva al singolo oggetto, ma grazie a diverse possibili interrogazioni, che rispecchiano diversi possibili punti di vista.


Figura 2. Struttura multidimensionale

La classificazione di Ranganathan, considerata unanimemente rivoluzionaria, in realtà ebbe scarsa applicazione perché troppo complessa da attuare in biblioteche a scaffale aperto. Ma il tempo gli ha reso giustizia attraverso l’ipertesto, e nel web la classificazione a faccette ha trovato una sua dimensione ideale.

Caratteristiche della logica multidimensionale

La classificazione a faccette rappresenta un sistema multidimensionale aperto che si estende più in orizzontale che in verticale, e che possiede queste caratteristiche.

  • Pluridimensionalità: permette una pluralità di accessi e una molteplicità di logiche di navigazione
  • ordine: le faccette sono presentate secondo una successione conveniente (Ranganathan suggerisce lo schema PMEST, Personalità, Materia, Energia, Spazio, Tempo)
  • semantica: nel caso di documenti, le faccette rappresentano proprietà semantiche (contenuto o soggetto) del documento e non proprietà formali (es. autore, anno di pubblicazione, numero di pagine…); ma questo è vero non solo per la faceted classification ma per ogni schema di classificazione.

Poniamo ad esempio che in una intranet si debba rappresentare col metodo delle faccette un sottoinsieme di documenti sugli standard di metadati per l’e-government; questa classe può essere così scomposta:

  • [documentazione] (entità generale che possiamo sottintendere, in quanto nella intranet tutte le entità sono documenti)
  • metadati (entità)
  • standard (proprietà)
  • [sviluppo di] (energia/processo)
  • e-government (spazio, inteso come contesto di mercato).

Pur essendo soltanto cinque, nella Classificazione Colon queste categorie possono essere applicate ricorsivamente, nelle cosiddette tornate e livelli, permettendo così di esprimere anche soggetti alquanto complessi (Mazzocchi, Gnoli 2006). Nel nostro caso, ad esempio, l’entità è stata infatti considerata due volte:

  1. entità = documenti (prima tornata, sottintesa)
  2. entità = metadati (seconda tornata).

Le applicazioni

La logica multidimensionale finora ha trovato larga diffusione nei siti di e-commerce perché ideale nella trattazione del prodotto mediante più punti di vista o esigenze. In questo caso è possibile un’applicazione pura del sistema, mentre in portali di informazione, come quelli della pubblica amministrazione, la logica analitico-sintetica si trova spesso combinata con quella gerarchico-enumerativa. Siti come Epinions o Google Gruppi offrono un criterio generale di accesso ai contenuti secondo uno schema gerarchico-enumerativo (navigazione di primo livello), mentre applicano lo schema a faccette nelle sezioni di secondo livello. Questo perché la logica a faccette male si sposa a contenuti molto eterogenei fra loro (vedi il paragrafo Applicabilità della logica multidimensionale).

In siti come Yoox.com uno stesso prodotto viene presentato come appartenente a più categorie contemporaneamente, cisacuna rappresentante una faccia del capo d’abbigliamento (e corrispondante quindi a una faccetta). Il prodotto: abito da donna bianco dello stilista Z, taglia M si troverà nella classe degli abiti femminili, in quella dei vestiti bianchi, in quella dei capi dello stilista Z, e in quella degli abiti di taglia M.


Figura 3. Esempio di multi-accesso al prodotto

Nel backoffice il redattore si troverà a classificare l’abito bianco secondo una griglia del tipo:

  • Genere (materia/proprietà)
    • uomo
    • donna
    • unisex
    • bambino
  • Collezioni (tempo)
    • primavera/estate
    • autunno/inverno
  • Categoria (entità)
    • abbigliamento pelle
    • abiti
    • accessori
    • calzature
  • Stilista (entità, tornata 2)
    • Alberta Ferretti
    • Armani
    • Azzedine Alaia
    • Costume National
  • Taglia (materia/proprietà, tornata 2)
    • XXS
    • XS
    • S
    • M

Le applicazioni basate su sistemi di classificazione a faccette hanno dimostrato di essere molto più veloci da consultare e di garantire maggiori percentuali di successo rispetto a quelle tradizionali.

The faster interaction found in the usability studies by Yee et. al [2003] is not just a psychological feeling: it can be proved that three zoom operations are sufficient to reduce a 10 million item database to 10 items, given a compact taxonomy with 1,000 terminal concepts where each item is classified under 10 concepts (Sacco 2006).

Dall’e-commerce alla Pubblica Amministrazione

L’impiego della logica multidimensionale non è efficiente solo nella fase di accesso a una risorsa (a monte, potremmo dire, della ricerca), ma offre indubbi vantaggi anche nella fase di raffinamento (a valle della ricerca). Essa permette infatti di realizzare un importante principio di correlazione o circolarità dell’informazione, fornendo al visitatore ulteriori spunti di navigazione o di approfondimento attraverso un insieme di rimandi del tipo:

  • se ti interessa x allora ti può interessare anche y
  • vedi altri elementi classificati sotto i valori x, y z.

Non sempre chi effettua un ricerca ha semplicemente l’obiettivo di trovare un oggetto specifico (know-item seeking); spesso ha anche l’esigenza di acquisire maggiori informazioni o risorse su un dato argomento (exhaustive seeking), oppure al contrario non sa bene cosa sta cercando (exploratory seeking). Sfruttando proprio le diverse faccette in cui ogni item è scomposto, un sistema multidimensionale può fornire una navigazione contestuale più raffinata e flessibile.

Nel caso dei siti della pubblica amministrazione gli schemi più utilizzati sono quelli gerarchici, e spesso la navigazione è presentata in chiave burocratica, organizzata per uffici di competenza con relativi servizi e sottoservizi.

Immaginiamo un sito della Regione Y alle prese con la classificazione del tema “asili nido”: esso dovrebbe apparire tanto nella sezione scuola, quanto in quelle aiuti alle famiglie, donne lavoratrici, assessorato all’istruzione etc. Scegliere una sezione a discapito delle altre è difficile e può rivelarsi fuorviante per alcuni utenti. In questi casi la classificazione a faccette può essere una valida alternativa.

CSI-Piemonte ha avviato da tempo un progetto di motore di ricerca a faccette per i servizi al cittadino. L’architettura è basata su cinque faccette principali, ricavate questa volta non dallo schema a cinque componenti di Ranganathan, ma da quello a tredici categorie del Classification Research Group:

  1. servizi e pratiche
  2. eventi della vita
  3. grado di interattività
  4. persone
  5. istituzioni pubbliche.

Dove troveremo l’argomento asili nido? In servizi e pratiche con i moduli di iscrizione, in eventi della vita con la descrizione di come iscriversi, in grado di interattività con i moduli scaricabili o il servizio di iscrizione online, e così via.

Vantaggi e svantaggi

Quali sono i vantaggi e gli svantaggi della logica multidimensionale?

Vantaggi

L’utente è più libero

Chi visita il nostro sito non dovrà più sottostare alla logica che gli viene imposta dalla struttura organizzativa, ma potrà navigare in base al proprio punto di vista. Il sistema prevede la possibilità di percorsi multipli sulla base dei diversi bisogni informativi e delle differenti tipologie di utenti.

La ricerca è mirata

La logica a faccette permette di incrociare facilmente più caratteristiche dello stesso oggetto fornendo risultati più mirati e soddisfacenti per l’utente. Il risultato della ricerca si raffina, diminuisce sensibilmente il numero dei risultati possibili e di conseguenza anche il tempo impiegato per raggiungere il risultato finale.

Adattamento a più stili di ricerca e modelli mentali

L’organizzazione dei contenuti che adottiamo in un sito deve quindi tenere conto dei modelli mentali degli utenti, ma anche dei vari stili di ricerca dell’informazione:

  • known-item searching: l’utente sa esattamente che cosa cercare (es. driver per il modem: l’utente sa esattamente il modello del modem e il sistema operativo del computer)
  • serenditipy: l’utente non ha un’idea precisa di cosa cercare e procede per tentativi ed associazioni (nel caso di un viaggio, ad es., l’utente può non avere stabilito con precisione la meta, il tipo di viaggio e il budget).

A ciò si aggiunga che esistono diversi tipi di bisogni informativi e di conseguenza diversi modelli di navigazione:

  • voglio raggiungere subito ciò che cerco: la ricerca è mirata e ben definita. In questo caso la navigazione è orientata agli obiettivi e si utilizzerà prevalentemente il motore di ricerca
  • voglio curiosare qua e là: la navigazione è libera
  • voglio capire cosa c’è nel sito e poi indirizzarmi ad un contenuto specifico: la navigazione è orientata al contenuto. In questo caso ci si lascia guidare dalle informazioni categorizzate in argomenti attraverso il navigatore principale.

Il sistema è espandibile

Tra i principali vantaggi c’è la facilità ad accogliere nuove sezioni, nuove aree e nuovi documenti senza che la struttura organizzativa subisca forzature. Insieme ad altre caratteristiche fondamentali, l’espandibilità previene il degrado dei repository aziendali in quanto evita che i cambiamenti si ripercuotano negativamente sulla organizzazione dell’informazione.

Fusione tra browsing e searching

La classificazione a faccette permette all’utente di scorrere categorie di argomenti e utilizzare query sempre più raffinate senza che questo implichi due opzioni di ricerca separate, perché entrambe sono costruite attraverso le medesime stringhe di classificazione. In questo modo il visitatore può:

  • scegliere se cercare un’informazione mediante ricerca diretta o sfogliando una directory
  • raffinare o espandere i risultati della propria ricerca
  • esplorare elementi semanticamente correlati a quelli trovati
  • scegliere in ogni momento strade o punti di vista alternativi.

Gli svantaggi

Gli svantaggi sono meno numerosi rispetto ai vantaggi, ma non vanno sottovalutati.

Difficoltà a mettere in evidenza temi chiave

Nella logica a faccette vi è un’estrema democratizzazione degli argomenti che impedisce di dare risalto ad uno rispetto agli altri. In alcuni casi questo potrebbe essere un problema.

Rischio di information overload

Se l’informazione viene trattata tutta allo stesso livello il pericolo è un proliferare indistinto di informazioni senza livelli di rilevanza, con relativa difficoltà da parte dell’utente ad orientarsi.

Complessità di gestione

I siti organizzati secondo uno schema multidimensionale richiedono una progettazione e una gestione più attente rispetto a quelli a schema tradizionale.

Applicabilità della logica multidimensionale

Quando è opportuno utilizzare lo schema multidimensionale e quando è meglio desistere? Denton (2005) suggerisce di ricorrere alla classificazione multidimensionale solo nel caso in cui gli altri sistemi di classificazione falliscano. Questo suggerimento risulta forse un po’ restrittivo per non dire semplicistico, ma sicuramente lo schema multidimensionale è vantaggioso

  • quando i contenuti sono specializzati e omogenei fra loro
  • quando sono molto numerosi
  • quando abbiamo necessità di fornire più punti di vista e di accesso a una stessa risorsa
  • quando abbiamo la sicurezza che il nostro sito crescerà in maniera esponenziale accogliendo argomenti non ancora trattati.

Ma non è tutto oro quel che luccica. Esistono casi in cui è sconsigliato applicare lo schema multidimensionale:

  • quando abbiamo collezioni di documenti o prodotti poco omogenee (per intenderci una categoria corrisponde ad un documento)
  • quando il numero delle risorse è limitato
  • quando abbiamo un target molto specializzato: l’utente sa cosa cercare e come muoversi all’interno del sito
  • quando il nostro sito ha già delle buone performance, i nostri navigatori sono soddisfatti e un cambiamento nella struttura di navigazione li infastidirebbe non poco.

Applicazione pura o mista?

Nei paesi di lingua anglosassone, in ambiente web, il termine “facetd” è pittosto diffuso e viene impiegato per designare qualunque sistema che preveda un accesso alle risorse mediante più percorsi e/o categorie differenti. In realtà, come abbiamo visto, l’aspetto della multidimensionalità non è l’unico tratto distintivo della faceted classification (seppure sia forse quello più innovativo): ad esso di aggiungono l’ordine di citazione delle faccette, la notazione specifica e, come anche per ogni altra classificazione, il riferimento a proprietà semantiche di un documento.

Gnoli et al. (2006) hanno classificato l’applicazione delle faccette al web secondo tre tipologie.

  • classificazioni a faccette pure: modelli che si rifanno in modo completo alla teoria classificatoria di Ranganathan. In altri termini, oltre a garantire un accesso multidimensionale all’informazione, esse rispettano anche l’ordine conveniente delle faccette e il sistema di notazione utile a garantire tale ordine. Un esempio può essere il progetto Fatks
  • classificazioni a faccette spurie: modelli di classificazione che si rifanno alla teorie delle faccette soltanto per ciò che riguarda la logica multidimensionale di accesso all’informazione. Sono questi i casi più numerosi e, in genere, più citati. Ne è un esempio Yoox.
  • classificazioni apparenti: modelli di organizzazione di tipo relazionale che offrono un accesso all’informazione mediante più parametri solo o prevalentemente di tipo descrittivo e non di tipo semantico. Un esempio può essere il sito Bol.

La classificazione spuria è oggi quella più diffusa nel web, perché risulta la più elastica e duttile, applicabile a qualsiasi tipo di informazione dal prodotto commerciale al documento della pubblica amministrazione.

Riferimenti bibliografici

Broughton V.
2005 Una classificazione per il 21′ secolo. Principi e struttura della Classificazione bibliografica Bliss, AIB.

Denton W.
2005 How to Make a Faceted Classification and Put It On the Web, Miskatonic University Press

Gnoli C.
2002 Indicizzazione semantica nell’era digitale, tavola rotonda sul Progetto di rinnovamento del Soggettario, (Roma 2002), GRIS, Biblioteca nazionale centrale di Firenze.
2004 Classificazione a faccette, AIB.

Gnoli C., Marino V., Rosati L.
2006 Organizzare la conoscenza. Dalle biblioteche all’architettura dell’informazione per il Web, Tecniche Nuove.

Lai M.E.
2005 Classificare per i cittadini. Ovvero, le faccette al servizio dell’usabilità, Laboratorio di accessibilità e usabilità, CSI – Piemonte.

Lavazza M.C.
2003 La Colon classification: struttura, radici filosofiche e diffusione, AIB.

Marino V.
2004 Classificazioni per il Web. I vantaggi dell’adozione di schemi a faccette, AIB.

Maurer D.
2006 Four Modes of Seeking Information and How to Design for Them, Boxes and Arrows.

Mazzocchi F., Gnoli C.
2006 Il Vaisesika e le categorie di Ranganathan, ISKO.

Montague Institute review
2002 Ten taxonomy myths, Montague Institute.

Morris J.
2003 Putting it Together: Taxonomy, Classification & Search, Transform Magazine.

Ranganathan S. R.
1960 Colon classification an outline with examples, ISKO.

Sacco, G.M.
2006 Some Research Results in Dynamic Taxonomy and Faceted Search Systems, SIGIR 2006 Workshop on Faceted Search, August 2006 Seattle, Washington.

Yee K, Swearingen K., Li K., Hearst M.
2003 Faceted Metadata for Image Search and Browsing, Proceedings of CHI 2003, ACM.

06.11.2006


I commenti sono chiusi.

Feed dei commenti