Google lanzó el miércoles Gemini, que considera su modelo de inteligencia artificial (AI, por sus siglas en inglés) “más grande y capaz”, diseñado para competir contra los modelos GPT de OpenAI y potenciar desde sus aplicaciones de consumo hasta los teléfonos inteligentes Android.
El modelo grande de lenguaje (LLM, por sus siglas en inglés) incluirá un conjunto de tres tamaños diferentes: Gemini Ultra, su categoría más grande y capaz; Pro, que se adapta a una amplia gama de tareas, y Nano, que utilizará para tareas específicas y dispositivos móviles.
A diferencia de los modelos de AI existentes, que trabajan sobre un solo tipo de entrada por parte del usuario, como exclusivamente imágenes o texto, Gemini es “multimodal”, lo que significa —según explicó la compañía— que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video.
El lanzamiento es la apuesta de Google por recuperar la vanguardia, luego de que hace un año se viera sorprendida por el surgimiento de ChatGPT de OpenAI, que aceleró la competencia de las herramientas de inteligencia artificial generativa (GenAI, por sus siglas en inglés).
Gemini fue adelantado en mayo pasado, durante la conferencia de desarrolladores Google I/O por el CEO de Alphabet, Sundar Pichair, quien aseguró en ese momento que “todavía está en formación”.
Según el sitio The Information, Google pospuso el lanzamiento de Gemini porque no estaba listo, un desafío que ha enfrentado todo este año con la presentación de sus herramientas de AI.
Gemini, disponible en Google Cloud
Gemini llega en momentos en que aumenta la presión sobre Google para responder cómo monetizará la AI. Por ahora, la compañía planea otorgar licencias a los clientes a través de Google Cloud para que lo utilicen en sus propias aplicaciones.
A partir del próximo 13 de diciembre, los desarrolladores y clientes empresariales podrán acceder a Pro a través de la API de Gemini en Google AI Studio o Google Cloud Vertex AI. Los desarrolladores de Android también podrán construir con Nano.
Las empresas y los negocios podrían usarlo para una participación más avanzada en el servicio al cliente a través de chatbots y recomendaciones de productos, así como para identificar tendencias para las empresas que buscan anunciar productos.
Además, podría usarse para la creación de contenido, si una empresa desea crear campañas de marketing o publicaciones de blog, así como aplicaciones de productividad que deseen resumir reuniones o generar código para desarrolladores.
La mayor actualización de Bard
También se utilizará Gemini para impulsar productos como el chatbot Bard y la Experiencia Generativa de Búsqueda (SGE, por sus siglas en inglés), que recientemente Google liberó en México.
A partir del miércoles, Bard usará Gemini Pro para ayudar con el razonamiento avanzado, la planificación, la comprensión y otras capacidades. La actualización llega ocho meses después de que el gigante de las búsquedas lanzara su chatbot por primera vez y un año después de que OpenAI lanzara ChatGPT en GPT-3.5.
Según medios especializados de Estados Unidos, a principios del próximo año, Google lanzará “Bard Advanced”, que utilizará Gemini Ultra, y que representará la mayor actualización de su herramienta similar a ChatGPT.
Gemini vs. GPT
La compañía dio ejemplos de las capacidades de Gemini, como tomar una captura de pantalla de un gráfico y analizar cientos de páginas de investigaciones y luego actualizar el gráfico o analizar una fotografía de la tarea de matemáticas de una persona e identificar las respuestas correctas y señalar las incorrectas.
En marzo de este año, la startup dirigida por Sam Altman lanzó GPT-4. Google afirmó Gemini Pro superó a GPT-3.5. El modelo Ultra de Gemini venció al GPT-4 en algunos puntos de referencia, según un documento técnico que Google publicó.
Incluso, añadió la empresa, Ultra es el primer modelo que supera a los expertos humanos en comprensión masiva de lenguajes multitarea (MMLU, por sus siglas en inglés), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar tanto el conocimiento mundial como las habilidades para resolver problemas. Supuestamente puede comprender matices y razonamientos en temas complejos.
La era de Geminis
La empresa propiedad de Alphabet prevé que Gemini se utilice en todos los entornos, desde grandes corporativos hasta dispositivos de consumo como el Google Pixel 8 Pro. De ahí que haya declarado la “era Gémini”.
En una publicación de blog, Sundar Pichai señaló que “estos son los primeros modelos de la era Gemini y la primera realización de la visión que tuvimos cuando formamos Google DeepMind a principios de este año”.
Esta nueva era, agregó, “representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos emprendido como empresa. Estoy realmente emocionado por lo que está por venir y por las oportunidades que Gemini desbloqueará para personas de todo el mundo”.