CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation (2311.18775v1)

Published 30 Nov 2023 in cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, and eess.AS

Abstract: We present CoDi-2, a versatile and interactive Multimodal LLM (MLLM) that can follow complex multimodal interleaved instructions, conduct in-context learning (ICL), reason, chat, edit, etc., in an any-to-any input-output modality paradigm. By aligning modalities with language for both encoding and generation, CoDi-2 empowers LLMs to not only understand complex modality-interleaved instructions and in-context examples, but also autoregressively generate grounded and coherent multimodal outputs in the continuous feature space. To train CoDi-2, we build a large-scale generation dataset encompassing in-context multimodal instructions across text, vision, and audio. CoDi-2 demonstrates a wide range of zero-shot capabilities for multimodal generation, such as in-context learning, reasoning, and compositionality of any-to-any modality generation through multi-round interactive conversation. CoDi-2 surpasses previous domain-specific models on tasks such as subject-driven image generation, vision transformation, and audio editing. CoDi-2 signifies a substantial breakthrough in developing a comprehensive multimodal foundation model adept at interpreting in-context language-vision-audio interleaved instructions and producing multimodal outputs.

PDF HTML Abstract

Summarize PDF Markdown Bookmark Chat (Pro)

References (40)

Authors (6)

Zineng Tang (13 papers)
Ziyi Yang (77 papers)
Mahmoud Khademi (17 papers)
Yang Liu (2253 papers)
Chenguang Zhu (100 papers)
Mohit Bansal (304 papers)

Citations (30)

View on Semantic Scholar

GitHub

CoDi-2: Interleaved and In-Context Any-to-Any Generation

Tweets

https://twitter.com/1604504552572600320/status/1733172673864163460

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation (2311.18775v1)

Related Papers

GitHub

Tweets