X-VILA: Cross-Modality Alignment for Large Language Model (2405.19335v1)

Published 29 May 2024 in cs.CV, cs.CL, and cs.LG

Abstract: We introduce X-VILA, an omni-modality model designed to extend the capabilities of LLMs by incorporating image, video, and audio modalities. By aligning modality-specific encoders with LLM inputs and diffusion decoders with LLM outputs, X-VILA achieves cross-modality understanding, reasoning, and generation. To facilitate this cross-modality alignment, we curate an effective interleaved any-to-any modality instruction-following dataset. Furthermore, we identify a significant problem with the current cross-modality alignment method, which results in visual information loss. To address the issue, we propose a visual alignment mechanism with a visual embedding highway module. We then introduce a resource-efficient recipe for training X-VILA, that exhibits proficiency in any-to-any modality conversation, surpassing previous approaches by large margins. X-VILA also showcases emergent properties across modalities even in the absence of similar training data. The project will be made open-source.

PDF HTML Abstract

Summarize PDF Markdown Bookmark Chat (Pro)

References (71)

Authors (11)

Hanrong Ye (17 papers)
De-An Huang (45 papers)
Yao Lu (212 papers)
Zhiding Yu (94 papers)
Wei Ping (51 papers)
Andrew Tao (40 papers)
Jan Kautz (215 papers)
Song Han (155 papers)
Dan Xu (120 papers)
Pavlo Molchanov (70 papers)
Hongxu Yin (49 papers)

Citations (15)

View on Semantic Scholar

Tweets

https://twitter.com/Mlearning_ai/status/1796207753620324371

https://twitter.com/gm8xx8/status/1795995397069869411

X-VILA: Cross-Modality Alignment for Large Language Model (2405.19335v1)

Related Papers

Tweets