Interfacce vocali: ergonomia e architettura dell’informazione #1

di

La voce come mouse: navigare con il telefono Usare il telefono per cercare informazioni significa spesso doversi imbattere nel ben noto “Digiti uno” “Digiti due”. Il risultato della ricerca, di solito, è sconfortante: un grande nervosismo e nostalgia dell’operatore telefonico con cui parlare direttamente. La conversazione è inesistente, si è in completa balia del sistema […]


La voce come mouse: navigare con il telefono

Usare il telefono per cercare informazioni significa spesso doversi imbattere nel ben noto “Digiti uno” “Digiti due”. Il risultato della ricerca, di solito, è sconfortante: un grande nervosismo e nostalgia dell’operatore telefonico con cui parlare direttamente. La conversazione è inesistente, si è in completa balia del sistema e non si ha nessuna scelta… se non quella di riagganciare. Da qualche tempo, però, si può trovare una valida alternativa: la navigazione vocale. Si può parlare con il computer, decidere cosa fare e cosa ascoltare, proprio come succede con il mouse sul web, dove si può scegliere cosa cliccare e – eventualmente – tornare indietro, se ci si rende conto di aver sbagliato strada.

Nella nostra società i telefoni, fissi e mobili, sono presenti ovunque, sono utilizzabili in qualsiasi momento e sono molto meno vincolanti rispetto a un computer e una connessione alla rete per poter raggiungere gli stessi obbiettivi. La navigazione vocale può portare una grande novità; le aziende possono fornire alcuni servizi anche ad un target di utenti che altrimenti non sarebbe possibile raggiungere, come persone disabili per i quali non è possibile navigare sul web, o persone che non hanno alcuna familiarità con la tecnologia.

Naturalmente anche in questa, come in tutte le conversazioni, è necessario usare una lingua comune; le caratteristiche linguistiche e comunicative che la navigazione vocale dovrebbe possedere sono molto importanti per capire l’utente e farsi capire da lui, in modo da aiutarlo a raggiungere ciò che si desidera. Dato che si è reso necessario poter rendere tutte le informazioni presenti in rete accessibili a tutti gli utenti, attraverso la navigazione vocale è possibile raggiungere questo obiettivo offrendo una tecnologia diversa ma ugualmente utilizzabile. Nel campo dell’informazione aziendale e del Customer Relationship Management, attraverso il telefono si può fornire una valida alternativa alla navigazione tradizionale, per raggiungere lo stesso obiettivo di informazione.

Principi della navigazione vocale

La voce umana è la più naturale e la più antica delle interfacce, è il principale strumento di comunicazione di cui l’uomo dispone naturalmente. Si è pensato, quindi, di poterla sfruttare per mettere in comunicazione uomo e computer e offrire agli utenti un nuovo strumento per ottenere informazioni.

Tutti gli utenti, infatti, anche se possono avere poca dimestichezza o addirittura nessuna esperienza con le interfacce vocali, non possono essere ritenuti totalmente incompetenti in questo campo poiché hanno di certo un’enorme esperienza con il linguaggio parlato, e l’interazione telefonica è ormai diffusissima e molto familiare (Hura 2003).

Le persone parlano in modo più veloce di quanto non siano capaci di scrivere al computer; la conversazione telefonica offre quindi una buona alternativa all’input attraverso la tastiera. Le applicazioni vocali, infatti, sono mezzi di comunicazione molto versatili; il telefono e l’utilizzo della voce sono strumenti familiari, richiedono uno sforzo fisico minimo e lasciano liberi occhi e mani.

Le interfacce vocali si basano principalmente su due principi specifici:

  • il riconoscimento vocale (Voice Recognition), attreverso il quale il software riconosce ciò che dice l’utente
  • la sintesi vocale (Text-to-Speech), attraverso cui il software converte gli input scritti in output parlati, trasformando così l’informazione testuale in una voce sintetizzata.

L’utente chiama un numero telefonico attraverso cui interagisce con il software mediante una voce sintetizzata. Vengono elencate le opzioni tra cui scegliere per continuare la navigazione; compiuta ed esplicitata la scelta, le parole pronunciate vengono identificate da un sistema di riconoscimento vocale indipendente dal parlante e vengono restituiti come output i dati che provengono da pagine web o da sistemi gestionali interni all’azienda. La complessità del compito è quella di riuscire a costruire il software in modo che riceva come input il linguaggio naturale parlato dall’utente, lo lavori e generi come responso un linguaggio naturale parlato il più simile possibile a quello in entrata.

La quantità di informazione che può essere veicolata attraverso il canale vocale è necessariamente limitata, a causa delle caratteristiche del mezzo. La fruizione è infatti legata alla lettura del contenuto: bisogna evitare, perciò, di sottoporre testi lunghi e difficili, poiché non è possibile scorrere o rileggere parti di contenuto, come avviene sul web, o proporre contenuti diversi da quelli di tipo testuale (immagini o video).

Parlare e ascoltare sono due fasi di un’attività unica, ma se il parlare è un’azione talmente usuale da non provocare alcun problema nell’uomo, la fase dell’ascolto, invece, può presentare diverse difficoltà sia per la comprensione che per la memorizzazione di ciò che viene detto. Le capacità di ascolto e di memorizzazione, infatti, sono limitate a poche voci che possono essere facilmente dimenticate. Ascoltare è un compito faticoso: chi crea un’interfaccia deve tenere conto che estraniarsi dal mondo circostante e ascoltare attentamente tutte le parole pronunciate è molto difficile; viene richiesta una capacità di attenzione che non sempre l’utente è disposto a dare. Ascoltare e capire ciò che viene detto può diventare impossibile se vengono proposte troppe opzioni in un unico momento (Smith 2003).

È necessario, quindi, che la parte di dialogo sintetizzata dal computer sia allo stesso tempo il più breve e il più informativa possibile. La capacità di memorizzazione dell’informazione ricevuta visivamente o uditivamente è scarsa e il fuoco dell’attenzione è unico (cioè è possibile pensare attivamente e di proposito a una sola cosa alla volta – cf. Raskin 2000); per questi motivi è necessario cercare il modo più adatto di catturare e mantenere viva
l’attenzione dell’utente per veicolarla nella direzione voluta. Si dovrebbe, quindi, evitare di sovraccaricare la memoria a breve termine richiedendo la memorizzazione solo di un numero limitato di elementi significativi, per cercare di evitare una situazione di stress. È importante, quindi, che le informazioni da trasmettere siano disposte in modo chiaro e funzionale.

Come abbiamo detto, un’applicazione vocale è un software in grado di interagire con l’utente attraverso la voce. Partendo da questa premessa, è necessario istruire l’applicazione con una serie di comandi che le consentano di svolgere due funzioni fondamentali:

  • riconoscere gli input provenienti dall’utente
  • restituire all’utente gli opportuni output.

L’interazione tra l’utente e l’applicazione deve essere semplice, rapida e intuitiva, altrimenti corre il rischio di diventare frustrante. È necessario, quindi, costruire il servizio in modo tale da sfruttare l’immediatezza del canale vocale e valorizzarne le sue qualità.

  • Le interfacce vocali dovrebbero essere strutturate in modo chiaro per permettere agli utenti di capire ciò che il sistema offre in potenza, prima del suo utilizzo, e nel corso della navigazione.
  • Durante tutta la navigazione dev’essere fornito un feedback continuo sullo stato del sistema e sul grado di comprensione degli input, per far capire all’utente momento per momento come si sviluppa e che direzione sta prendendo la situazione.
  • Dev’essere possibile portare avanti la conversazione velocemente, evitando (saltando) sia la richiesta di inutili ripetizioni di informazioni già fornite, sia l’ascolto di informazioni non desiderate. L’utente deve poter interrompere in qualsiasi momento il software, sia acconsentendo in modo da far capire che ciò che è stato pronunciato è sufficiente come spiegazione, sia quando le spiegazioni non sono state comprese.
  • È necessario che il software sia programmato per poter fornire aiuto in qualsiasi momento: all’utente dovrà essere sempre consentito di impartire comandi come “ripeti”, “aiuto” o “indietro” in grado di bloccare il software, ottenere la ripetizione di un brano o accedere a strumenti di aiuto.
  • Allo stesso modo dovrà essere consentito rettificare facilmente un proprio input in modo da correggere immediatamente il comportamento del sistema.

Il contatto vocale è percepito come molto più immediato di quello che passa attraverso il computer e quindi molto più vulnerabile ed esposto agli errori. D’altra parte, però, le conversazioni elettroniche appaiono spesso meno inibite di quelle condotte di persona, per cui il fatto di dover interagire con un’entità non umana le può rendere più difficili da coordinare e i messaggi possono risultare più ambigui o incomprensibili poichè l’utente non è abituato a ricevere come output alle sue ricerche un discorso parlato o ad affrontare una conversazione con una macchina.

  • All’utente deve essere possibile specificare le informazioni anche in modo parziale, ma sufficiente affinché il software possa inferire da sé i dati di cui necessita. Un dialogo in cui siano indispensabili continue ripetizioni e spiegazioni può risultare pesante, innaturale e portare facilmente alla frustrazione.
  • Così come nelle normali conversazioni tra due persone, anche in quelle tra l’utente e il software possono verificarsi di frequente degli errori. Dato che il riconoscimento vocale è imperfetto, si va incontro a difetti di vario tipo, come ad esempio riconoscimenti sbagliati o parole non identificate. In qualsiasi caso l’impressione è quella che il sistema non stia lavorando come ci si aspetta (Hura 2003).

Gli errori persistenti sono spesso segno di frasi fuori dal vocabolario; in questo caso deve essere richiesta la riformulazione della frase per poter proseguire. Per assicurare l’efficienza del design è necessario risolvere il problema muovendo direttamente verso un altro livello della
navigazione per correggere l’input. Non è produttivo, invece, rimanere fermi senza procedere in alcuna direzione con output di richiesta da parte del software del tipo : “Scusi, non ho capito” arenando l’interazione su un percorso senza uscita.

Osservando la rapidità con cui il livello di frustrazione cresce quando ci si scontra con errori ripetitivi, si dovrebbe esplicitare un breve messaggio d’errore in un primo momento, ma se l’errore persiste deve essere offerta ulteriore assistenza in modo da dare la percezione che il sistema stia tentando di capire ciò che viene detto.

Anche il silenzio è di difficile interpretazione poiché non si ha nessun feedback. A volte il silenzio implica che il programma sta lavorando su ciò che è stato detto, altre volte che, semplicemente, non ha colto l’input. È necessario, quindi, che, come in una normale interazione, ci sia sempre uno scambio reciproco tra l’utente e il sistema affinché ognuno dei due si renda conto della condizione dell’altro. L’utente deve esplicitare sempre di aver compreso ciò che gli è stato detto e di aver compiuto coscientemente una determinata scelta; il programma, invece, deve fornire in ogni momento una esplicita conferma di riconoscimento del comando in modo da offrire all’utente un chiaro quadro della situazione.

La seconda parte dell’articolo approfondisce gli aspetti linguistici e comunicativi dell’interazione vocale, e propone l’analisi di un caso di studio.

Bilbiografia

Hura, S.L.
2003 “Heuristics: Lesson in the Art of Automated Conversation“, http://msdn.microsoft.com/en-us/library/ms994624.aspx

Raskin, J.
2000 The Human Interface – New directions for Desining Interactive Systems (Interfacce a misura d’uomo, trad. It. a cura di W. Vannini, Apogeo, Milano).

Smith, M.
2003 “Voice User Interface Design, Tips and Techniques“, http://msdn.microsoft.com/en-us/library/ms994651.aspx.

24.04.2005