# Audio

[**`gllm-docproc`**](https://github.com/GDP-ADMIN/gl-sdk/tree/main/libs/gllm-docproc/gllm_docproc/loader/audio) | **Tutorial** : [Audio Loader](https://gdplabs.gitbook.io/sdk/~/revisions/w6A7tUKJGDYFXuci5HcW/tutorials/document-processing-orchestrator/loader/audio) | **Use Case**: [advanced-dpo-pipeline](https://gdplabs.gitbook.io/sdk/~/revisions/w6A7tUKJGDYFXuci5HcW/how-to-guides/build-document-processing-pipeline/advanced-dpo-pipeline "mention") | [API Reference](https://api.python.docs.glair.ai/generative-internal/library/gllm_docproc/api/loader.html)

**Audio Loader** is designed for **extracting information from Audio file**.

<details>

<summary>Prerequisites</summary>

This example specifically requires completion of all setup steps listed on the [Prerequisites](https://gdplabs.gitbook.io/sdk/~/revisions/w6A7tUKJGDYFXuci5HcW/gen-ai-sdk/prerequisites) page.

</details>

## **Installation**

{% tabs %}
{% tab title="Linux, macOS, or Windows WSL" %}

```bash
# you can use a Conda environment
pip install --extra-index-url https://oauth2accesstoken:$(gcloud auth print-access-token)@glsdk.gdplabs.id/gen-ai-internal/simple/ "gllm-docproc[audio]"
```

{% endtab %}

{% tab title="Windows Powershell" %}

```powershell
# you can use a Conda environment
$token = (gcloud auth print-access-token)
pip install --extra-index-url "https://oauth2accesstoken:$token@glsdk.gdplabs.id/gen-ai-internal/simple/" "gllm-docproc[audio]"
```

{% endtab %}

{% tab title="Windows Command Prompt" %}

```bash
# you can use a Conda environment
FOR /F "tokens=*" %T IN ('gcloud auth print-access-token') DO SET TOKEN=%T
pip install --extra-index-url "https://oauth2accesstoken:%TOKEN%@glsdk.gdplabs.id/gen-ai-internal/simple/" "gllm-docproc[audio]"
```

{% endtab %}
{% endtabs %}

You can use the following as a sample file: [sample-audio-1.mp3](https://assets.analytics.glair.ai/generative/audio/sample-audio-1.mp3).

## Audio Loader

**AudioLoader** is responsible to **extract information from audio file** by utilizing the [GLLM Multimodal Audio to Text](https://github.com/GDP-ADMIN/gl-sdk/tree/main/libs/gllm-multimodal/gllm_multimodal/modality_converter/audio_to_text).

{% stepper %}
{% step %}
Create a script called `main.py`:

```python
from gllm_docproc.loader.audio import AudioLoader

source = "https://assets.analytics.glair.ai/generative/audio/sample-audio-1.mp3"

# initialize audio loader
loader = AudioLoader()

# load audio file
loaded_elements = loader.load(source)
```

{% endstep %}

{% step %}
Run the script:

```bash
python main.py
```

{% endstep %}

{% step %}
The loader will generate the following: [output JSON](https://assets.analytics.glair.ai/generative/audio/audioloader-output.json).
{% endstep %}
{% endstepper %}