Car-tech

I sistemi di riconoscimento vocale devono diventare più intelligenti, dice il professor

Google Jamboard

Google Jamboard
Anonim

Coloro che il dispiacere di parlare al telefono con i sistemi di riconoscimento vocale automatizzati può far comodo il fatto che gli scienziati stanno lavorando per rendere tali sistemi più realistici e meno fastidiosi da usare.

"Dall'esperienza del consumatore, le persone trovano questi sistemi molto frustranti", ha detto James Allen, che è il presidente di informatica presso l'Università di Rochester, parlando prima della conferenza SpeechTEK 2010, tenutasi a New York questa settimana.

La maggior parte dei sistemi di riconoscimento vocale computerizzati può capire ciò che un umano dice fino al 98% delle volte, eppure le persone continuano a sforzarsi di usare sistemi di help desk automatizzati. La chiave per rendere questi sistemi meno frustranti da usare sarebbe dare loro una comprensione più profonda del linguaggio e renderli più interattivi, ha detto Allen.

[Ulteriori letture: Il tuo nuovo PC ha bisogno di questi 15 programmi gratuiti, eccellenti]

Ormai, i reparti di assistenza clienti della maggior parte delle grandi organizzazioni offrono sistemi di guida automatizzati basati su telefono. Un utente chiama il numero di aiuto e una voce artificiale chiede al chiamante una serie di domande. La maggior parte di questi sistemi si basa su framework che sono fondamentalmente grandi alberi decisionali. Con tali sistemi, "non si trova ciò che la persona vuole, si sta seguendo uno script", ha detto.

I sistemi sono in realtà un insieme di diverse tecnologie. Uno è il riconoscimento vocale o la capacità di un computer di capire o tradurre correttamente in testo ciò che l'oratore sta dicendo.

L'altra tecnologia, l'elaborazione del linguaggio naturale (NLP), tenta di convertire il messaggio dell'altoparlante in un comando che il computer può eseguire, o che può essere sintetizzato per un operatore umano.

Negli ultimi decenni sono stati fatti grandi progressi sia nel riconoscimento vocale che nella PNL, ma sembra che abbiano portato soprattutto frustrazione ai loro utenti. "Io chiamo la banca solo quando ho un problema e combatto questi sistemi. [Chiedo] cosa posso rispondere per arrivare a una persona il più velocemente possibile", ha detto Allen.

Il lavoro di ricerca accademico di Allen è stato nel trovare modi in cui "possiamo parlare a una macchina nello stesso modo in cui possiamo parlare a una persona", ha detto.

Le conversazioni tra due persone possono essere precise in modo che i computer incontrino difficoltà di abbinamento. Allen ha sottolineato alcuni dei primi lavori che ha fatto come studente laureato, in cui ha registrato conversazioni presso un banco informazioni della stazione ferroviaria. In una interazione, un passeggero si avvicina alla cabina e dice "8:50 a Windsor", e l'inserviente risponde "Porta 10, 20 minuti di ritardo." Mentre l'inserviente sapeva esattamente quali informazioni cercava l'inquirente, i sistemi computerizzati avrebbero trovato confusa la prima dichiarazione del passeggero.

Il modo in cui Allen lo vede, mancano due elementi dai sistemi moderni: la capacità di analizzare ciò che sta dicendo l'oratore e il capacità di conversare con l'oratore per saperne di più su ciò che intende dire l'oratore.

"Un sacco di PNL preconfezionati tende ad essere superficiale. Non abbiamo una tecnologia che ti dia un significato alle frasi" Egli ha detto. Gli strumenti di elaborazione statistica e il servizio di definizione delle parole come WordNet possono aiutare a definire una parola ma anche le relazioni di una parola, quindi un sistema saprà che, ad esempio, una "filiale" è una parte di una "società".

Altro sono inoltre necessarie comunicazioni a due vie tra gli utenti e i computer. Quando si parla dei loro bisogni, le persone possono fornire informazioni in nessun ordine particolare. Dovrebbe essere il computer a mettere insieme queste informazioni e non caricare l'utente con domande le cui risposte sono già state fornite.

"Questo è il futuro, questo è davvero ciò che vuoi che i sistemi facciano e possiamo costruire un dialogo sistemi in grado di supportare questa gamma di complessità ", ha detto.

Per illustrare questa idea, Allen e un team di ricercatori hanno progettato un programma chiamato Cardiac che potrebbe simulare le domande che un'infermiera potrebbe chiedere a un paziente con malattie cardiache. Il programma è stato creato con il finanziamento degli Stati Uniti National Institutes of Health. Con questo sistema, una volta che un utente fornisce informazioni, il sistema non lo chiederebbe di nuovo, ha detto Allen. Il sistema ragionerebbe su quale materiale era già stato fornito e cosa era ancora necessario.

Un altro programma progettato da Allen e dal suo team, chiamato Plough, può imparare come eseguire attività comuni su un computer. "Questo è un sistema che ti permette di usare essenzialmente il dialogo per addestrare il tuo sistema a fare le cose per te", ha detto.

Ad esempio, Allen ha dimostrato il programma imparando a trovare ristoranti nelle vicinanze usando un browser. L'utente apre un browser, naviga verso un sito di localizzazione di ristoranti, digita il tipo di ristorante cercato e il luogo, quindi taglia e incolla i risultati in una pagina vuota. L'utente ha descritto ogni fase durante la sua esecuzione.

Nel processo, Plough registra ogni fase e risponde in modo uditivo quando il passo viene compreso. Successivamente, quando l'utente vorrebbe cercare un altro ristorante, il programma eseguirà tutte le stesse mosse, producendo automaticamente un altro elenco di ristoranti. L'Agenzia per la Ricerca Avanzata per la Difesa degli Stati Uniti ha finanziato lo sviluppo di questo programma.

Più dati sono la chiave per più sistemi di elaborazione linguistica simili a umani, ha concordato il capo scientifico di Microsoft per il discorso Larry Heck, in un altro discorso alla conferenza. "Se non hai i dati, non importa quanto siano sofisticati i tuoi algoritmi", ha detto.

Un posto per trovare più dati sarebbe nelle query dei motori di ricerca, ha suggerito. I servizi dei motori di ricerca ricevono un numero elevato di query, tutte collegate alle risposte. "Vedo la ricerca come un cugino vicino alla tecnologia di elaborazione del linguaggio", ha detto Heck.

In questi giorni, le persone sono addestrate a strutturare le loro query come una serie di parole chiave. Invece, se gli utenti dovessero digitare frasi complete che descrivono ciò di cui hanno bisogno, il set di dati risultante potrebbe fare molto per aiutare i sistemi a capire meglio cosa cercano le persone.

Heck ha predetto che più persone usano i servizi di ricerca attivati ​​vocalmente da Microsoft e Google, diventeranno più abituati a strutturare le loro query come frasi complete, che nel tempo potrebbero aiutare i sistemi NLP a prevedere meglio le esigenze degli utenti.

Joab Jackson copre le novità del software aziendale e della tecnologia generale per The IDG News Servizio. Segui Joab su Twitter all'indirizzo @Joab_Jackson. L'indirizzo e-mail di Joab è [email protected]