Audio

Audio Loader is designed for extracting information from Audio file.

Prerequisites

This example specifically requires completion of all setup steps listed on the Prerequisites page.

Installation

# you can use a Conda environment
pip install --extra-index-url https://oauth2accesstoken:$(gcloud auth print-access-token)@glsdk.gdplabs.id/gen-ai-internal/simple/ "gllm-docproc[audio]"

# you can use a Conda environment
$token = (gcloud auth print-access-token)
pip install --extra-index-url "https://oauth2accesstoken:$token@glsdk.gdplabs.id/gen-ai-internal/simple/" "gllm-docproc[audio]"

# you can use a Conda environment
FOR /F "tokens=*" %T IN ('gcloud auth print-access-token') DO SET TOKEN=%T
pip install --extra-index-url "https://oauth2accesstoken:%TOKEN%@glsdk.gdplabs.id/gen-ai-internal/simple/" "gllm-docproc[audio]"

You can use the following as a sample file: sample-audio-1.mp3.

Audio Loader

AudioLoader is responsible to extract information from audio file by utilizing the GLLM Multimodal Audio to Text.

Create a script called main.py:

from gllm_docproc.loader.audio import AudioLoader

source = "https://assets.analytics.glair.ai/generative/audio/sample-audio-1.mp3"

# initialize audio loader
loader = AudioLoader()

# load audio file
loaded_elements = loader.load(source)

Run the script:

python main.py

The loader will generate the following: output JSON.

Other Audio To Text

You can use other audio-to-text to customize the implementation. In this example, we use ProsaAudioToText from GLLM Multimodal ProsaAudioToText.

Create a script called main.py:

from gllm_docproc.loader.audio import AudioLoader
from gllm_multimodal.modality_converter.audio_to_text import ProsaAudioToText

source = "https://assets.analytics.glair.ai/generative/audio/sample-audio-1.mp3"

# initialize other audio to text (in this case using ProsaAudioToText)
prosa_audio_to_text = ProsaAudioToText(api_key="...", url="...", model="...")

# initialize audio loader
loader = AudioLoader([prosa_audio_to_text])

# load audio file
loaded_elements = loader.load(source)

Run the script:

python main.py

The loader will hit GL Speech service to convert the audio file to text.

GLLM Multimodal has the following implementations that you can use:

Custom Audio To Text

You can use fully custom audio-to-text to customize the implementation.

Create a script called custom_audio_to_text.py:

from gllm_multimodal.modality_converter.audio_to_text.audio_to_text import BaseAudioToText
from gllm_multimodal.modality_converter.schema.audio_transcript import AudioTranscript

class CustomAudioToText(BaseAudioToText):
  def __init__(self, ...):
    # your custom initialization

  async def convert(self, audio_source: str) -> list[AudioTranscript]:
    # your custom implementation

Create a script called main.py:

import CustomAudioToText
from gllm_docproc.loader.audio import AudioLoader

source = "https://assets.analytics.glair.ai/generative/audio/sample-audio-1.mp3"

# initialize custom audio to text (in this case using your own custom implementation)
custom_audio_to_text = CustomAudioToText(...)

# initialize audio loader
loader = AudioLoader([custom_audio_to_text])

# load audio file
loaded_elements = loader.load(source)

Run the script:

python main.py

The loader will use your custom implementation to convert the audio file to text.

PreviousLoader NextCSV

Last updated 1 month ago

Was this helpful?

hashtagInstallation

hashtagAudio Loader

hashtagOther Audio To Text

hashtagCustom Audio To Text

Installation

Audio Loader

Other Audio To Text

Custom Audio To Text