Existe una división racial en los sistemas de reconocimiento de voz, dicen los investigadores

La tecnología de Amazon, Apple, Google, IBM y Microsoft identificó erróneamente el 35 por ciento de las palabras de personas negras. A los blancos les fue mucho mejor.

El dispositivo Echo de Amazon es uno de los muchos dispositivos similares en el mercado. Los investigadores dicen que existe una división racial en la utilidad de los sistemas de reconocimiento de voz.

SAN FRANCISCO - Con un iPhone, puedes dictar un mensaje de texto. Coloque Alexa de Amazon en su mesa de café y podrá solicitar una canción desde el otro lado de la habitación.

Pero estos dispositivos pueden comprender algunas voces mejor que otras. Los sistemas de reconocimiento de voz de cinco de las empresas de tecnología más grandes del mundo (Amazon, Apple, Google, IBM y Microsoft) cometen muchos menos errores con los usuarios blancos que con los negros, según un estudio publicado el lunes en la revista Proceedings of the National Academy of Sciences.

Los sistemas identificaron erróneamente las palabras alrededor del 19 por ciento de las veces con personas blancas. Con los negros, los errores aumentaron al 35 por ciento. Alrededor del 2 por ciento de los fragmentos de audio de personas blancas fueron considerados ilegibles por estos sistemas, según el estudio, que fue realizado por investigadores de la Universidad de Stanford. Eso aumentó al 20 por ciento entre los negros.

  • Lo que fue dicho
  • Que maquina escucho

Imequiero decir, yosuposaberI'metro eraun poco alto paraescuela secundariapidiendo. Yo noquiero jugar al centro. Yo noporquecentro noenvíalotener la pelota tanto. Recibes el balón de vez en cuando cuando estás en el poste, quiero decir, pero yo no quería jugarlo.


El estudio, que adoptó un enfoque inusualmente completo para medir el sesgo en los sistemas de reconocimiento de voz, ofrece otra señal de advertencia para la inteligencia artificial. tecnologías que se mueven rápidamente en la vida cotidiana.

Otros estudios han demostrado que a medida que los sistemas de reconocimiento facial se trasladan a los departamentos de policía y otras agencias gubernamentales, pueden ser mucho menos precisos cuando se trata de identificar a mujeres y personas de color. Pruebas separadas han descubierto comportamientos sexistas y racistas en chatbots, servicios de traducción y otros sistemas diseñados para procesar e imitar el lenguaje escrito y hablado.

No entiendo por qué no hay más diligencia debida por parte de estas empresas antes de que se publiquen estas tecnologías, dijo Ravi Shroff, profesor de estadística en la Universidad de Nueva York que explora el sesgo y la discriminación en las nuevas tecnologías. No entiendo por qué seguimos viendo estos problemas.

Todos estos sistemas aprenden analizando grandes cantidades de datos. Los sistemas de reconocimiento facial, por ejemplo, aprenden identificando patrones en miles de imágenes digitales de rostros.

En muchos casos, los sistemas imitan los sesgos que encuentran en los datos, de manera similar a los niños que adquieren malos hábitos de sus padres. Los chatbots, por ejemplo, aprenden analizando montones de diálogos humanos. Si este diálogo asocia a las mujeres con las tareas del hogar y a los hombres con C.E.O. trabajos, los chatbots harán lo mismo.

El estudio de Stanford indicó que los principales sistemas de reconocimiento de voz podrían tener fallas porque las empresas están capacitando la tecnología con datos que no son tan diversos como podría ser, aprendiendo su tarea principalmente de personas blancas y relativamente pocas personas negras.

  • Lo que fue dicho
  • Que maquina escucho

Bueno, cuando estabacuandoesa es eramuy joven tenía un libro de estadísticas de baloncesto. yNo me gustaríadedica mucho tiempo mucho tiempo a leerlos. Y por alguna razón, ahora olvido por qué, pero Jason Kiddterminó siendodolor. Sermi jugador favorito.


Estas son probablemente las cinco compañías más grandes que realizan reconocimiento de voz, y todas están cometiendo el mismo tipo de error, dijo John Rickford, uno de los investigadores de Stanford detrás del estudio, que se especializa en habla afroamericana. El supuesto es que todos los grupos étnicos están bien representados por estas empresas. Pero no lo son.

El estudio probó cinco herramientas disponibles públicamente de Apple, Amazon, Google, IBM y Microsoft que cualquiera puede usar para crear servicios de reconocimiento de voz. Estas herramientas no son necesariamente las que usa Apple para construir Siri o las que usa Amazon para construir Alexa. Pero pueden compartir tecnología y prácticas subyacentes con servicios como Siri y Alexa.

Cada herramienta se probó el año pasado, a fines de mayo y principios de junio, y es posible que ahora funcionen de manera diferente. El estudio también señala que cuando se probaron las herramientas, la herramienta de Apple se configuró de manera diferente a las demás y requirió algo de ingeniería adicional antes de que pudiera probarse.

Apple y Microsoft se negaron a comentar sobre el estudio. Una portavoz de Amazon señaló un Página web donde la compañía dice que está mejorando constantemente sus servicios de reconocimiento de voz. IBM no respondió a las solicitudes de comentarios.

Justin Burr, un portavoz de Google, dijo que la compañía estaba comprometida con mejorar la precisión. Hemos estado trabajando en el desafío de reconocer con precisión las variaciones del habla durante varios años y continuaremos haciéndolo, dijo.

Los investigadores utilizaron estos sistemas para transcribir entrevistas con 42 personas blancas y 73 negras. Luego compararon los resultados de cada grupo, mostrando una tasa de error significativamente mayor con las personas que eran negras.

Imagen

Crédito...Marcio José Sánchez / Associated Press

El sistema con mejor desempeño, de Microsoft, identificó erróneamente alrededor del 15 por ciento de las palabras de personas blancas y el 27 por ciento de personas negras. El sistema de Apple, el de menor rendimiento, falló el 23 por ciento del tiempo con los blancos y el 45 por ciento del tiempo con los negros.

Con base en una comunidad rural mayoritariamente afroamericana en el este de Carolina del Norte, una ciudad mediana en el oeste de Nueva York y Washington, DC, los evaluadores negros hablaron en lo que los lingüistas llaman inglés vernáculo afroamericano: una variedad de inglés que a veces hablan los afroamericanos. en áreas urbanas y otras partes de los Estados Unidos. Los blancos estaban en California, algunos en la capital del estado, Sacramento, y otros en un área rural y mayoritariamente blanca a unas 300 millas de distancia.

El estudio encontró que la brecha racial era igual de grande al comparar las frases idénticas pronunciadas por personas blancas y negras. Esto indica que el problema radica en la forma en que los sistemas están entrenados para reconocer el sonido. Las empresas, al parecer, no se están capacitando con suficientes datos que representen el inglés vernáculo afroamericano, según los investigadores.

  • Lo que fue dicho
  • Que maquina escucho

Mamá, sabes cuando tenía la tienda y ellausaría utilizará cerrarlosmás cercanoTienda. sobrePoronce en punto y ella prometenosotros, ahora que estamos cerradosy yo estaba más cerca. Pudimos fueronsoloir airdar un paseo yalrededormira la ciudad.


Los resultados no están aislados de una empresa específica, dijo Sharad Goel, profesor de ingeniería en Stanford y otro investigador involucrado en el estudio. Vimos patrones cualitativamente similares en las cinco empresas.

Las empresas son conscientes del problema. En 2014, por ejemplo, los investigadores de Google publicaron un artículo describir el sesgo en una generación anterior de reconocimiento de voz .

En noviembre, durante una habla en Stanford dedicado a la inteligencia artificial ética, Eric Schmidt, ex director ejecutivo y presidente de Google, dijo que Google y el resto de Silicon Valley eran muy conscientes de que la forma en que A.I. Se estaban construyendo sistemas que necesitaban arreglos.

Sabemos que los datos tienen sesgos. No necesitas gritar eso como un hecho nuevo, dijo. Los humanos tienen prejuicios en ellos, nuestros sistemas tienen prejuicios en ellos. La pregunta es: ¿Qué hacemos al respecto?

Imagen

Crédito...Joe Buglewicz para The New York Times

Las empresas como Google pueden tener problemas para recopilar los datos correctos y es posible que no estén lo suficientemente motivadas para recopilarlos. Esto es difícil de solucionar, dijo Brendan O'Connor, profesor de la Universidad de Massachusetts Amherst que se especializa en A.I. tecnologías. Los datos son difíciles de recopilar. Estás librando una batalla cuesta arriba.

Las empresas pueden enfrentarse al problema del huevo y la gallina. Si sus servicios son utilizados principalmente por personas blancas, tendrán problemas para recopilar datos que puedan servir a las personas negras. Y si tienen problemas para recopilar estos datos, los servicios seguirán siendo utilizados principalmente por personas de raza blanca.

Esos ciclos de retroalimentación dan un poco de miedo cuando empiezas a pensar en ellos, dijo Noah Smith, profesor de la Universidad de Washington. Esa es una gran preocupación.