Al igual que Henry Higgins, el vocalista de la obra «Pygmalion» de George Bernard Shaw, Marius Kotescu y Georgy Tenchev mostraron recientemente cómo su estudiante estaba tratando de superar sus dificultades de articulación.
Los dos científicos de datos, que trabajan para Amazon en Europa, estaban enseñando a Alexa, el asistente digital de la empresa. Su misión: ayudar a Alexa a dominar el inglés con acento irlandés con la ayuda de inteligencia artificial y grabaciones de hablantes nativos.
Durante la demostración, Alexa habló sobre una noche memorable. “La fiesta de anoche fue tan loca”, dijo Alexa al fin, usando la palabra irlandesa para divertirse. «Compramos helado de camino a casa y nos alegramos de salir».
El Sr. Tenchev negó con la cabeza. Alexa dejó caer la «r» en la palabra «Fiesta», haciendo que la palabra sonara plana, como pah-tee. Llegó a la conclusión de que era muy británico.
Los tecnólogos forman parte de un equipo de Amazon que trabaja en un área desafiante de la ciencia de datos conocida como decodificación de audio. Es un problema desafiante que ha adquirido una nueva importancia en medio de una ola de desarrollos de IA, ya que los investigadores creen que el rompecabezas del habla y la tecnología puede ayudar a que los dispositivos, bots y sintetizadores de voz impulsados por IA sean más conversacionales, es decir, capaces de atraer a muchos. jugadores regionales. acentos
Lidiar con el desenredado fonético implica algo más que comprender el vocabulario y la gramática. El tono, el timbre y el acento del orador suelen dar un significado exacto a las palabras y un peso emocional. Los lingüistas llaman a esta característica del lenguaje «pantalla», y es algo que las máquinas han tenido dificultades para dominar.
Solo en los últimos años, gracias a los avances en inteligencia artificial, chips de computadora y otros dispositivos, los investigadores lograron avances para resolver el problema de la decodificación de audio, convirtiendo el habla generada por computadora en algo más agradable para el oído.
Tal trabajo eventualmente puede converger con una explosión de «IA generativa», dijeron los investigadores, que es una tecnología que permite a los chatbots generar sus propias respuestas. Los chatbots como ChatGPT y Bard pueden algún día operar completamente con los comandos de voz de los usuarios y responder verbalmente. Al mismo tiempo, los asistentes de voz como Alexa y Siri de Apple se volverán más conversacionales, lo que podría revivir el interés de los consumidores en un sector tecnológico que parece haberse estancado, dijeron analistas.
Lograr que los asistentes de voz como Alexa, Siri y Google Assistant hablen varios idiomas ha sido un proceso costoso y lento. Las empresas de tecnología han contratado actores de voz para grabar cientos de horas de voz, lo que ha ayudado a crear voces artificiales para asistentes digitales. Sistemas avanzados de inteligencia artificial conocidos como «modelos de texto a voz», porque convierten texto en voz sintética de sonido natural. estoy empezando a simplificar este proceso.
La tecnología «ahora es capaz de crear una voz humana y una voz sintética basada en la entrada de texto en diferentes idiomas, dialectos y dialectos», dijo Marion Laborie, estratega jefe de Deutsche Bank Research.
Amazon ha estado bajo presión para alcanzar a competidores como Microsoft y Google en la carrera de inteligencia artificial. En abril, Andy Jassy, CEO de Amazon, dijo: para los analistas de Wall Street que la compañía planeó hacer que Alexa sea «más activa y hablante» con la ayuda de la IA generativa de vanguardia, dijo Rohit Prasad, científico jefe de Amazon para Alexa. le dijo a CNBC En mayo, vio al asistente de voz como una «IA personal disponible al instante» habilitada para voz.
Irish Alexa hizo su debut comercial en noviembre, después de nueve meses de entrenamiento para comprender y luego hablar un acento irlandés.
“El acento es diferente del idioma”, dijo Prasad en una entrevista. Las técnicas de IA deben aprender a extraer el acento de otras partes del discurso, como la entonación y la frecuencia, antes de que puedan replicar las características de los dialectos locales; por ejemplo, quizás una «a» sea más plana y una «t» pronunciada con más fuerza.
Estos sistemas tienen que detectar estos patrones, dijo, «para que puedan crear un acento completamente nuevo». «esto es difícil.»
Aún más difícil es intentar que la tecnología aprenda un nuevo acento casi por sí misma, a partir de una forma de habla que suena diferente. Eso es lo que el equipo del Sr. Cotescu intentó construir la Alexa irlandesa. Se basaron en gran medida en el modelo de habla existente de acentos británicos principalmente ingleses, con una selección mucho más pequeña de acentos estadounidenses, canadienses y australianos, para entrenarlos para hablar inglés irlandés.
El equipo enfrentó varios desafíos lingüísticos del idioma inglés-irlandés. Los irlandeses tienden a dejar caer la «h» en la «th», pronunciando las letras como «t» o «d», por ejemplo, haciendo que «bath» suene como «bat» o incluso «bad». El inglés irlandés también es rótico, lo que significa que la letra «r» se pronuncia demasiado. Esto significa que la «r» en «fiesta» será más pronunciada de lo que podrías escuchar de la boca de un londinense. Alexa tuvo que aprender y dominar estas características del habla.
El inglés irlandés es «difícil», dijo Kotescu, que es rumano y fue el investigador principal del equipo irlandés de Alexa.
Los modelos de voz que respaldan las habilidades verbales de Alexa han evolucionado más en los últimos años. En 2020, los investigadores de Amazon enseñan a Alexa Habla español con fluidez. De un modelo de habla inglesa.
El Sr. Cotescu y el equipo vieron los dialectos como la próxima frontera para las capacidades de voz de Alexa. Diseñaron a Irish Alexa para que dependiera más de la IA que de los actores para construir su modelo de voz. Como resultado, la Alexa irlandesa fue entrenada en un grupo relativamente pequeño: alrededor de 24 horas de grabaciones realizadas por actores de doblaje que recitaron 2000 discursos en inglés irlandés.
Al principio, cuando los investigadores de Amazon presentaron las grabaciones irlandesas a Alexa, la irlandesa que todavía estaba aprendiendo, sucedieron algunas cosas extrañas.
A veces, las letras y las sílabas se escapaban de la respuesta. A veces, las «S» están pegadas. Una o dos palabras, a veces decisivas, fueron murmuradas inexplicablemente e ininteligibles. En al menos un caso, la voz femenina de Alexa bajó algunas octavas, sonando más masculina. Peor aún, la voz masculina sonaba claramente británica, el tipo de tontería que podría llamar la atención en algunos hogares irlandeses.
«Son grandes cajas negras», dijo Tenchev, un científico jefe búlgaro y de Amazon en el proyecto, sobre los modelos de habla. «Debes tener muchas experiencias para sintonizar».
Esto es lo que hicieron los técnicos para corregir el desliz «partidista» de Alexa. Desenredaron el habla, palabra por palabra, sonido (la parte audible más pequeña de una palabra) por sonido para identificar y afinar dónde se desliza Alexa. Luego alimentaron el modelo de habla irlandesa de Alexa con más datos de audio grabados para corregir el error verbal.
Resultado: se devuelve «r» en «party». Pero luego la «p» desapareció.
Así que los científicos de datos volvieron a hacer el mismo proceso. Eventualmente enfatizaron el sonido que contenía la «p» que faltaba. Luego, ajustaron aún más el modelo para que el sonido «p» volviera y la «r» no desapareciera. Alexa finalmente aprendió a hablar como un Dublin.
Desde entonces, dos lingüistas irlandeses, Eileen Vaughan, que enseña en la Universidad de Limerick, y Kate Tallon, una estudiante de doctorado que trabaja en el Laboratorio de Fonética y Habla del Trinity College Dublin, le han dado a Alexa altas calificaciones en el acento irlandés. Dijeron que la forma en que la irlandesa Alexa acentuó las «r» y suavizó la «t» se detuvo, y Amazon entendió el acento a la perfección.
«Me parece real», dijo la Sra. Tallon.
Los investigadores de Amazon dijeron que estaban complacidos con los comentarios en gran medida positivos. Sus modelos de habla desenredaron el acento irlandés tan rápido, dándoles la esperanza de que los acentos pudieran replicarse en otros lugares.
Y escribieron en la lengua de A trabajo de investigación de enero Sobre el proyecto irlandés Alexa.
More Stories
Microsoft dice que Call of Duty: Black Ops 6 establece un récord en la cantidad de “adiciones de suscriptores de Game Pass el día del lanzamiento”.
Las descargas de Call of Duty: Black Ops 6 maximizan su uso de Internet
Nada hace que el teléfono brille en la oscuridad