Questo articolo è classificato sotto gli argomenti:
Approfondimenti | Architettura dell'informazione | Ergonomia
La voce come mouse: navigare con il telefono
Usare il telefono per cercare informazioni significa spesso doversi imbattere nel ben noto “Digiti uno” “Digiti due”. Il risultato della ricerca, di solito, è sconfortante: un grande nervosismo e nostalgia dell’operatore telefonico con cui parlare direttamente. La conversazione è inesistente, si è in completa balia del sistema e [...]
Usare il telefono per cercare informazioni significa spesso doversi imbattere nel ben noto “Digiti uno” “Digiti due”. Il risultato della ricerca, di solito, è sconfortante: un grande nervosismo e nostalgia dell’operatore telefonico con cui parlare direttamente. La conversazione è inesistente, si è in completa balia del sistema e non si ha nessuna scelta… se non quella di riagganciare. Da qualche tempo, però, si può trovare una valida alternativa: la navigazione vocale. Si può parlare con il computer, decidere cosa fare e cosa ascoltare, proprio come succede con il mouse sul web, dove si può scegliere cosa cliccare e - eventualmente - tornare indietro, se ci si rende conto di aver sbagliato strada.
Nella nostra società i telefoni, fissi e mobili, sono presenti ovunque, sono utilizzabili in qualsiasi momento e sono molto meno vincolanti rispetto a un computer e una connessione alla rete per poter raggiungere gli stessi obbiettivi. La navigazione vocale può portare una grande novità; le aziende possono fornire alcuni servizi anche ad un target di utenti che altrimenti non sarebbe possibile raggiungere, come persone disabili per i quali non è possibile navigare sul web, o persone che non hanno alcuna familiarità con la tecnologia.
Naturalmente anche in questa, come in tutte le conversazioni, è necessario usare una lingua comune; le caratteristiche linguistiche e comunicative che la navigazione vocale dovrebbe possedere sono molto importanti per capire l’utente e farsi capire da lui, in modo da aiutarlo a raggiungere ciò che si desidera. Dato che si è reso necessario poter rendere tutte le informazioni presenti in rete accessibili a tutti gli utenti, attraverso la navigazione vocale è possibile raggiungere questo obiettivo offrendo una tecnologia diversa ma ugualmente utilizzabile. Nel campo dell’informazione aziendale e del Customer Relationship Management, attraverso il telefono si può fornire una valida alternativa alla navigazione tradizionale, per raggiungere lo stesso obiettivo di informazione.
La voce umana è la più naturale e la più antica delle interfacce, è il principale strumento di comunicazione di cui l’uomo dispone naturalmente. Si è pensato, quindi, di poterla sfruttare per mettere in comunicazione uomo e computer e offrire agli utenti un nuovo strumento per ottenere informazioni.
Tutti gli utenti, infatti, anche se possono avere poca dimestichezza o addirittura nessuna esperienza con le interfacce vocali, non possono essere ritenuti totalmente incompetenti in questo campo poiché hanno di certo un’enorme esperienza con il linguaggio parlato, e l’interazione telefonica è ormai diffusissima e molto familiare (Hura 2003).
Le persone parlano in modo più veloce di quanto non siano capaci di scrivere al computer; la conversazione telefonica offre quindi una buona alternativa all’input attraverso la tastiera. Le applicazioni vocali, infatti, sono mezzi di comunicazione molto versatili; il telefono e l’utilizzo della voce sono strumenti familiari, richiedono uno sforzo fisico minimo e lasciano liberi occhi e mani.
Le interfacce vocali si basano principalmente su due principi specifici:
L’utente chiama un numero telefonico attraverso cui interagisce con il software mediante una voce sintetizzata. Vengono elencate le opzioni tra cui scegliere per continuare la navigazione; compiuta ed esplicitata la scelta, le parole pronunciate vengono identificate da un sistema di riconoscimento vocale indipendente dal parlante e vengono restituiti come output i dati che provengono da pagine web o da sistemi gestionali interni all’azienda. La complessità del compito è quella di riuscire a costruire il software in modo che riceva come input il linguaggio naturale parlato dall’utente, lo lavori e generi come responso un linguaggio naturale parlato il più simile possibile a quello in entrata.
La quantità di informazione che può essere veicolata attraverso il canale vocale è necessariamente limitata, a causa delle caratteristiche del mezzo. La fruizione è infatti legata alla lettura del contenuto: bisogna evitare, perciò, di sottoporre testi lunghi e difficili, poiché non è possibile scorrere o rileggere parti di contenuto, come avviene sul web, o proporre contenuti diversi da quelli di tipo testuale (immagini o video).
Parlare e ascoltare sono due fasi di un’attività unica, ma se il parlare è un’azione talmente usuale da non provocare alcun problema nell’uomo, la fase dell’ascolto, invece, può presentare diverse difficoltà sia per la comprensione che per la memorizzazione di ciò che viene detto. Le capacità di ascolto e di memorizzazione, infatti, sono limitate a poche voci che possono essere facilmente dimenticate. Ascoltare è un compito faticoso: chi crea un’interfaccia deve tenere conto che estraniarsi dal mondo circostante e ascoltare attentamente tutte le parole pronunciate è molto difficile; viene richiesta una capacità di attenzione che non sempre l’utente è disposto a dare. Ascoltare e capire ciò che viene detto può diventare impossibile se vengono proposte troppe opzioni in un unico momento (Smith 2003).
È necessario, quindi, che la parte di dialogo sintetizzata dal computer sia allo stesso tempo il più breve e il più informativa possibile. La capacità di memorizzazione dell’informazione ricevuta visivamente o uditivamente è scarsa e il fuoco dell’attenzione è unico (cioè è possibile pensare attivamente e di proposito a una sola cosa alla volta - cf. Raskin 2000); per questi motivi è necessario cercare il modo più adatto di catturare e mantenere viva
l’attenzione dell’utente per veicolarla nella direzione voluta. Si dovrebbe, quindi, evitare di sovraccaricare la memoria a breve termine richiedendo la memorizzazione solo di un numero limitato di elementi significativi, per cercare di evitare una situazione di stress. È importante, quindi, che le informazioni da trasmettere siano disposte in modo chiaro e funzionale.
Come abbiamo detto, un’applicazione vocale è un software in grado di interagire con l’utente attraverso la voce. Partendo da questa premessa, è necessario istruire l’applicazione con una serie di comandi che le consentano di svolgere due funzioni fondamentali:
L’interazione tra l’utente e l’applicazione deve essere semplice, rapida e intuitiva, altrimenti corre il rischio di diventare frustrante. È necessario, quindi, costruire il servizio in modo tale da sfruttare l’immediatezza del canale vocale e valorizzarne le sue qualità.
Il contatto vocale è percepito come molto più immediato di quello che passa attraverso il computer e quindi molto più vulnerabile ed esposto agli errori. D’altra parte, però, le conversazioni elettroniche appaiono spesso meno inibite di quelle condotte di persona, per cui il fatto di dover interagire con un’entità non umana le può rendere più difficili da coordinare e i messaggi possono risultare più ambigui o incomprensibili poichè l’utente non è abituato a ricevere come output alle sue ricerche un discorso parlato o ad affrontare una conversazione con una macchina.
Gli errori persistenti sono spesso segno di frasi fuori dal vocabolario; in questo caso deve essere richiesta la riformulazione della frase per poter proseguire. Per assicurare l’efficienza del design è necessario risolvere il problema muovendo direttamente verso un altro livello della
navigazione per correggere l’input. Non è produttivo, invece, rimanere fermi senza procedere in alcuna direzione con output di richiesta da parte del software del tipo : “Scusi, non ho capito” arenando l’interazione su un percorso senza uscita.
Osservando la rapidità con cui il livello di frustrazione cresce quando ci si scontra con errori ripetitivi, si dovrebbe esplicitare un breve messaggio d’errore in un primo momento, ma se l’errore persiste deve essere offerta ulteriore assistenza in modo da dare la percezione che il sistema stia tentando di capire ciò che viene detto.
Anche il silenzio è di difficile interpretazione poiché non si ha nessun feedback. A volte il silenzio implica che il programma sta lavorando su ciò che è stato detto, altre volte che, semplicemente, non ha colto l’input. È necessario, quindi, che, come in una normale interazione, ci sia sempre uno scambio reciproco tra l’utente e il sistema affinché ognuno dei due si renda conto della condizione dell’altro. L’utente deve esplicitare sempre di aver compreso ciò che gli è stato detto e di aver compiuto coscientemente una determinata scelta; il programma, invece, deve fornire in ogni momento una esplicita conferma di riconoscimento del comando in modo da offrire all’utente un chiaro quadro della situazione.
La seconda parte dell’articolo approfondisce gli aspetti linguistici e comunicativi dell’interazione vocale, e propone l’analisi di un caso di studio.
Hura, S.L.
2003 “Heuristics: Lesson in the Art of Automated Conversation“, http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnnetspeech/html/hlaac_iv.asp
Raskin, J.
2000 The Human Interface - New directions for Desining Interactive Systems (Interfacce a misura d’uomo, trad. It. a cura di W. Vannini, Apogeo, Milano).
Smith, M.
2003 “Voice User Interface Design, Tips and Techniques“, http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnnetspeech/html/vuidtnt_iv.asp.
24.04.2005 - Ilaria Salvalaggio