Google Lanza IA Para Decodificar Lenguaje de Delfines: se Ejecuta en Teléfonos Pixel
En Resumen
- Google presentĂł DolphinGemma, una IA capaz de decodificar sonidos de delfines, coincidiendo con el DĂa Nacional del DelfĂn.
- El modelo fue entrenado con datos de WDP desde 1985 y funciona en teléfonos Pixel para análisis en tiempo real.
- DolphinGemma ayudĂł a identificar patrones sonoros que podrĂan formar un vocabulario compartido con delfines.
Google presentĂł hoy DolphinGemma, un modelo de IA de cĂłdigo abierto diseñado para decodificar la comunicaciĂłn de los delfines mediante el análisis de sus clics, silbidos y pulsos. El anuncio coincidiĂł con el DĂa Nacional del DelfĂn.
El modelo, creado en colaboraciĂłn con Georgia Tech y el Wild Dolphin Project (WDP), aprende la estructura de las vocalizaciones de los delfines y puede generar secuencias de sonidos similares a los de estos mamĂferos marinos.
Este avance podrĂa ayudar a determinar si la comunicaciĂłn de los delfines alcanza el nivel de lenguaje o no.
Entrenado en el proyecto de investigación submarina de delfines más largo del mundo, DolphinGemma aprovecha décadas de datos de audio y video meticulosamente etiquetados, recopilados por WDP desde 1985.
El proyecto ha estudiado a los delfines manchados del Atlántico en las Bahamas a lo largo de generaciones, utilizando un enfoque no invasivo que denominan “En su mundo, en sus tĂ©rminos”.
“Al identificar patrones de sonido recurrentes, agrupaciones y secuencias confiables, el modelo puede ayudar a los investigadores a descubrir estructuras ocultas y significados potenciales dentro de la comunicaciĂłn natural de los delfines, una tarea que anteriormente requerĂa un inmenso esfuerzo humano”, dijo Google en su anuncio.
El modelo de IA, que contiene aproximadamente 400 millones de parámetros, es lo suficientemente pequeño para funcionar en teléfonos Pixel que los investigadores utilizan en el campo. El modelo procesa los sonidos de los delfines utilizando el tokenizador SoundStream de Google y predice los sonidos posteriores en una secuencia, de manera similar a cómo los modelos de lenguaje humano predicen la siguiente palabra en una oración.
DolphinGemma no opera de forma aislada. Funciona junto con el sistema CHAT (Cetacean Hearing Augmentation Telemetry), que asocia silbidos sintĂ©ticos con objetos especĂficos que disfrutan los delfines, como sargazo, pastos marinos o bufandas, potencialmente estableciendo un vocabulario compartido para la interacciĂłn.
“Eventualmente, estos patrones, aumentados con sonidos sintĂ©ticos creados por los investigadores para referirse a objetos con los que a los delfines les gusta jugar, pueden establecer un vocabulario compartido con los delfines para la comunicaciĂłn interactiva”, segĂşn Google.
Los investigadores de campo actualmente utilizan teléfonos Pixel 6 para el análisis en tiempo real de los sonidos de los delfines.
El equipo planea actualizar a dispositivos Pixel 9 para la temporada de investigación del verano de 2025, que integrará funciones de altavoz y micrófono mientras ejecuta simultáneamente modelos de deep learning y algoritmos de coincidencia de plantillas.
El cambio a la tecnologĂa de smartphones reduce drásticamente la necesidad de hardware personalizado, una ventaja crucial para el trabajo de campo marino. Las capacidades predictivas de DolphinGemma pueden ayudar a los investigadores a anticipar e identificar posibles imitaciones más temprano en las secuencias de vocalizaciĂłn, haciendo las interacciones más fluidas.
Entendiendo lo que no puede ser entendido
DolphinGemma se une a varias otras iniciativas de IA destinadas a descifrar el cĂłdigo de la comunicaciĂłn animal.
El Earth Species Project (ESP), una organizaciĂłn sin fines de lucro, desarrollĂł recientemente NatureLM, un modelo de lenguaje de audio capaz de identificar especies animales, edad aproximada y si los sonidos indican angustia o juego —no realmente lenguaje, pero aĂşn asĂ, formas de establecer alguna comunicaciĂłn primitiva.
El modelo, entrenado en una mezcla de lenguaje humano, sonidos ambientales y vocalizaciones animales, ha mostrado resultados prometedores, incluso con especies que no ha encontrado antes.
El Proyecto CETI representa otro esfuerzo significativo en este espacio.
Dirigido por investigadores, incluido Michael Bronstein del Imperial College de Londres, se centra especĂficamente en la comunicaciĂłn de las ballenas cachalotes, analizando sus complejos patrones de clics utilizados a largas distancias.
El equipo ha identificado 143 combinaciones de clics que podrĂan formar una especie de alfabeto fonĂ©tico, que ahora están estudiando mediante redes neuronales profundas y tĂ©cnicas de procesamiento de lenguaje natural.
Mientras estos proyectos se centran en decodificar sonidos animales, investigadores de la Universidad de Nueva York se han inspirado en el desarrollo infantil para el aprendizaje de IA.
Su modelo Child’s View for Contrastive Learning (CVCL) aprendiĂł lenguaje viendo el mundo a travĂ©s de la perspectiva de un bebĂ©, utilizando imágenes de una cámara montada en la cabeza usada por un bebĂ© desde los 6 meses hasta los 2 años.
El equipo de NYU descubriĂł que su IA podĂa aprender eficientemente de datos naturalistas similares a cĂłmo lo hacen los bebĂ©s humanos, contrastando marcadamente con los modelos de IA tradicionales que requieren billones de palabras para el entrenamiento.
Google planea compartir una versión actualizada de DolphinGemma este verano, potencialmente extendiendo su utilidad más allá de los delfines manchados del Atlántico. Sin embargo, el modelo puede requerir ajustes para las vocalizaciones de diferentes especies.
WDP se ha centrado extensamente en correlacionar los sonidos de los delfines con comportamientos especĂficos, incluidos los silbidos distintivos utilizados por madres y crĂas para reunirse, los “graznidos” de pulsos durante los conflictos y los “zumbidos” de clics utilizados durante el cortejo o cuando persiguen tiburones.
“Ya no solo estamos escuchando”, señalĂł Google. “Estamos comenzando a entender los patrones dentro de los sonidos, allanando el camino para un futuro donde la brecha entre la comunicaciĂłn humana y la de los delfines podrĂa reducirse un poco”.
Editado por Sebastian Sinclair y Josh Quittner
Generally Intelligent Newsletter
A weekly AI journey narrated by Gen, a generative AI model.
Crédito: Enlace fuente
Responses