# Multimodality

### Overview

**Multimodal** is a library designed to handle multimodal content processing in Generative AI applications. It provides two fundamental capabilities:

1. [**Modality Converter**](https://gdplabs.gitbook.io/sdk/~/revisions/beykCxz0UanaEX0sPJJu/tutorials/multimodality/modality-converter): Transform data from one modality to another (e.g., audio → text, image → text)
2. [**Modality Transformer**](https://gdplabs.gitbook.io/sdk/~/revisions/beykCxz0UanaEX0sPJJu/tutorials/multimodality/modality-transformer): Handles the process of enriching a user source with additional information derived from various modalities, such as images, videos, or audio. It orchestrates one or more converters to add meaningful context to the query.