What is GPT-3, DALL-E and CLIP? - This is the state of the art of AI - Part 2 [SPA][ENG]

in GEMS2 years ago (edited)
Hi everyone! As I promised, in this post I'm going to continue talking about the amazing achievements of Artificial Intelligence until 2021. But, in this scientific disclosure post I'm going to focus on this new big thing: GPT-3, a generative language model created by OpenAI.


Image created with canva.com

GPT-3 stands for Generative Pre-Trained Transformer 3. It's a language model created by the company OpenAI. Is has 175 million parameter and is able to predict the next word in a sentence, thus, is able to generate realistic text with a lot of sense.

GPT-3 son las siglas de Generative Pre-Trained Transformer 3. Es un modelo de lenguaje creado por la empresa OpenAI. Su objetivo es predecir la palabra que viene a continuación, dado un texto de entrada. Por lo tanto, puede generar textos realistas y con mucho sentido.

It works through an API (Application Programming Interface), which is in private beta right now. A request is sent to the API and a response is returned.

Funciona a través de una API (Application Programming Interface). Se le hace una petición a una API y se devuelve una respuesta.

The GPT-3 language model has been fed with all the public books available on the internet, the entire Wikipedia and millions of web pages and scientific papers. So it is able to answer almost anything you ask it.

El modelo de lenguaje GPT-3 se ha entrenado con todos los libros públicos disponibles en internet, la Wikipedia por completo y millones de páginas webs y papers científicos. Asi que es capaz de responder casi todo lo que le preguntes.

GPT-3, can do many things related to language, it allows:

  • Generate song lyrics.
  • Automatically answer any question.
  • Get translations in any language.
  • The development of intelligent chatbots.
  • Generate code snippets and programming, for example, in React.
  • Content generation, e.g. in marketing.
  • Create eye-catching titles, post ideas, product descriptions, etc.

GPT-3, puede hacer muchas cosas relacionadas al lenguaje, permite:

  • Generar letras de canciones.
  • Responder automaticamente cualquier pregunta.
  • Obtener traducciones en cualquier idioma.
  • El desarrollo de chatbots inteligentes.
  • Generar fragmentos de código e programación, por ejemplo, en React.
  • La generación de contenidos, por ejemplo, en el area de marketing.
  • Crear títulos llamativos, ideas de publicaciones, descripciones de productos, etc.

There are many companies that use this technology, one of them is Replika, capable of creating a virtual companion that you can interact with and it will answer you as if it were a real person, making a lot of sense and remembering what you have said. Some of its responses are generated by GPT-3, as it uses different algorithms.


Screenshot taken from https://replika.ai/ website

Existen muchas empresas que utilizan esta tecnología, una de ella es Replika, capaz de crear un compañero virtual con el que puedas interactuar y te responderá como si fuera una persona real, con mucho sentido y que recuerda lo que le has dicho. Algunas de sus respuestas son generadas por GPT-3, ya que usa diferentes algoritmos.

In addition to this, I want to tell you about what Synthesia is doing, which is capable of generating videos with computer-generated actors, without the need to hire real actors or a professional film crew.

This technology combined with GPT-3's text generation can be used in media such as newscasts, where an anchor will not be needed, or to produce fully automated customer service. Artificial intelligence-generated virtual influencers are also emerging.


Screenshot taken from https://www.synthesia.io/ website

Aunado a esto quiero comentarles lo que está haciendo la empresa Synthesia, que es capaz de generar videos con actores generados por computadora, sin la necesidad de contratar actores reales o un equipo de filmación profesional.

Esta tecnología combinada con la generación de texto de GPT-3 puede ser utilizada en medios como los noticieros, donde no se necesitará un presentador o para elaborar un servicio de atención al cliente totalmente automatizado. Actualmente, también están surgiendo influencers virtuales generados por la inteligencia artificial.

Next, I'm goint to tell you about Copy.ai, it is an start-up which aim is tho help you with your copywritting strategiy. It can help you writing marketing content, social media content, e-commerce copy, digital ad copy, blog content and sales copy.


Screenshot taken from https://www.copy.ai/ website

On the other hand, OpenAI recently in 2020 published their models DALL·E and CLIP, that combines Natural Language Processing and Computer Vision. These models were trained using a dataset of text–image pairs and gives us interesting results.


Image created with canva.com

DALL·E is a 12-billion parameter model that allows you to generate an image that matches the text typed as input. You can create humanized versions of animals or objects and generate images by combining two concepts in a very creative way.

DALL·E es un modelo de 12-billones de parámetros que permite generar una imagen que coincida con el texto escrito como entrada. Puede crear versiones humanizadas de animales u objetos y generar imágenes combinando dos conceptos en una forma muy creativa.

The name of this model comes from the surrealist painter Salvador Dalí and the robot WALL·E from Pixar's movie.

Su nombre proviene del Pintor del surrealismo Salvador Dalí y el robot Wall•E, de la película de Pixar.

This model is able to perform this tasks based on text input:

  • Generate image of objects changing its attributes (shape, color, material and texture).
  • Draw one object or a bunch of them.
  • Create an image of an object or animal in different wats (3D render, wireframe, voxels, clay, etc.
  • Understant spatial relationships and visualize three-dimensionality (Close-up, areal view, front view, etc.)
  • Auto fill images given a context.
  • Visualize external and internal representation of an object.
  • It has temporal and geographical knowledge (e.g. an image of food of China or a telephone from the 20's.
  • Generate 3D faces from different angles.
  • Combine two concepts or objects in creative ways.
  • And much more.
    You can learn more about Dall•E capabilities at their blog post: https://openai.com/blog/dall-e/


Dall•E examples. Credits to OpenAI: https://openai.com/blog/dall-e/

Este modelo es capaz de realizar estas tareas basándose en la entrada de texto:

  • Generar imágenes de objetos cambiando sus atributos (forma, color, material y textura).
  • Dibujar un objeto o un grupo de ellos.
  • Crear una imagen de un objeto o animal en diferentes formas (renderizado 3D, wireframe, voxels, arcilla, etc.)
  • Subrayar las relaciones espaciales y visualizar la tridimensionalidad (Primer plano, vista de área, vista frontal, etc.)
  • Rellenar automáticamente las imágenes dado un contexto.
  • Visualiza la representación externa e interna de un objeto.
  • Tiene conocimiento temporal y geográfico (por ejemplo, una imagen de comida de China o un teléfono de los años 20.
  • Genera caras en 3D desde diferentes ángulos.
  • Combina dos conceptos u objetos de forma creativa.
  • Y mucho más.

Puedes aprender más sobre lo que puede hacer Dall•E en la publicación de su blog: https://openai.com/blog/dall-e/

DALL·E is a great revolution, since through a description we could generate any image. It is capable of serving in the fashion industry, where you can create different combinations of garments and have them modeled by your mannequins, and it is also useful for interior design.


Dall•E examples on Clothing and Fashion. Credits to OpenAI: https://openai.com/blog/dall-e/

DALL·E supone una gran revolución, ya que a través de una descripción podríamos generar cualquier imagen. Es capaz de servir en la industria de la moda, donde puedes crear diferentes combinaciones de prendas y que las modelen tus maniquíes y también sirve para el diseño de interiores.


Dall•E examples on Interior Design. Credits to OpenAI: https://openai.com/blog/dall-e/

Finally, there is CLIP, which stands for Contrastive Language Image Pre-training. It is a model that allows you to identify or describe what it see in an image, capable of working on different data sets, and getting excellect results.

Por último, está CLIP, que significa Contrastive Language Image Pre-training. Es un modelo que permite identificar o describir lo que observa una imágen, capaz de funcionar en diferentes conjuntos de datos, es decir, se desenvuelve muy bien en tareas distintas.

CLIP was trained with image-text pairs which can find across the internet.

CLIP fue entrenado a partir de pares Imagen-Texto que se pueden encontrar en Internet.

Computer Vision models are very good at completing a specific task, but often fail or decrease in performance when trying to solve a different task. This implies that the model will need to be retrained with another dataset and adjusted to learn to perform this other task.

Los modelos de Visión por ordenador son muy buenos para completar una tarea específica, pero suelen fallar o disminuyen su rendimiento al tratar de resolver una tarea diferente. Esto implica que se necesitará entrenar nuevamente el modelo con otro conjunto de datos y ajustarlo para que aprenda a realizar esta otra tarea.

For example, if a model was trained to identify dogs in an image, when i feed it with an image of a cat, it will not be able to identify it, it will classify it as a dog as well. But with CLIP you can get good results for many tasks, you can identify, animals, objects, numbers, vehicles.

Por ejemplo, si se entrenó un modelo para identificar perros en una imagen, al presentarle una imagen de un gato, no lo podrá identificar, lo clasificará como un perro también. Pero con CLIP se pueden obtener buenos resultados para muchas tareas, puede identificar, animales, objetos, números, vehículos.


CLIP examples. Credits to OpenAI: https://openai.com/blog/clip/

As you can see above, the model predicts very well what it sees in the image, the only weakness is describing a task that is too specific or too abstract.

CLIP is a breakthrough because it allows to create datasets in a faster way and with less human effort, which involves time and money.

Como pueden ver arriba, el modelo predice muy bien lo que ve en la imagen, la única debilidad es describir una tarea muy especifica o demasiada abstracta.

CLIP es un gran avance porque permite crear datasets de una forma más rápida y con menor esfuerzo humano, que implica tiempo y dinero.

What did you think of this post? Would you use any of these technologies or services provided by these companies? Let me know in the comments.

Bye and hope to see you soon!

¿Qué les ha parecido este post? ¿Usarías algunas de estas tecnologías o servicios que proveen estas empresas? Déjamelo saber en los comentarios.
¡Saludos y espero verlos pronto!

Disclaimer: The examples of DALL·E and CLIP are taken from the OpenAI blog. But they gave me permision for taking screenshots of their site. I'm on their Slack team and asked them via email.


Esto está muy bueno. Voy a averiguar bien como es todo esto porque ya he utilizado algunos sitios de Ai pero estos no los conocía.

¡Gracias Natalia! 🤗 Si, y como esas empresas hay muchísimas más, es impresionante 😄

Creación de contenidos, vídeos, salud, texto, imágenes, emociones, animales, minería de datos, finanzas, etc