ist ein multimodales Deep-Learning-Modell von OpenAI, das Bild- und Texteingaben verarbeiten und in Textform wieder ausgeben ...