Bhashik Speech API | Krutrim Cloud Documentation

Text to Speech

post

Convert input text to an audio file in the specified language and speaker voice.

Authorizations

AuthorizationstringRequired

Bearer authentication header of the form Bearer <token>.

Body

input_textstringRequired

Input text to synthesize.

input_languagestring · enumRequired

Language code

Possible values:

input_speakerstring · enumRequiredPossible values:

Responses

200

Audio file link

application/json

400

Bad request

application/json

401

Unauthorized

application/json

post

/languagelabs/tts

POST /api/v1/languagelabs/tts HTTP/1.1
Host: cloud.olakrutrim.com
Authorization: Bearer YOUR_SECRET_TOKEN
Content-Type: application/json
Accept: */*
Content-Length: 202

{
  "input_text": "Major exports include petroleum products, textile goods, jewellery, software, engineering goods, chemicals, and manufactured leather goods.",
  "input_language": "eng",
  "input_speaker": "male"
}

{
  "status": "success",
  "data": {
    "audio_file": "https://.../audio-12345.wav"
  }
}

Text to Speech Translation

post

Translate input text from source language to target language and return synthesized speech.

Authorizations

AuthorizationstringRequired

Bearer authentication header of the form Bearer <token>.

Body

input_textstringRequired

Input text to translate and synthesize.

src_lang_codestring · enumRequired

Only 'eng' is supported as the source for certain translation endpoints.

Possible values:

tgt_lang_codestring · enumRequired

Target language code

Possible values:

input_speakerstring · enumRequiredPossible values:

Responses

200

Audio file link

application/json

400

Bad request

application/json

401

Unauthorized

application/json

post

/languagelabs/tts_trans

POST /api/v1/languagelabs/tts_trans HTTP/1.1
Host: cloud.olakrutrim.com
Authorization: Bearer YOUR_SECRET_TOKEN
Content-Type: application/json
Accept: */*
Content-Length: 118

{
  "input_text": "Who are you and how are you doing?",
  "src_lang_code": "eng",
  "tgt_lang_code": "hin",
  "input_speaker": "male"
}

{
  "status": "success",
  "data": {
    "audio_file": "https://.../audio-translate-67890.wav"
  }
}

Speech to Text (upload)

post

Upload a short audio file (mp3, wav) and get transcribed text.

Authorizations

AuthorizationstringRequired

Bearer authentication header of the form Bearer <token>.

Body

filestring · binaryRequired

Audio file (mp3 or wav).

lang_codestring · enumRequired

Language code

Possible values:

Responses

200

Transcribed text

application/json

400

Bad request

application/json

401

Unauthorized

application/json

post

/languagelabs/transcribe/upload

POST /api/v1/languagelabs/transcribe/upload HTTP/1.1
Host: cloud.olakrutrim.com
Authorization: Bearer YOUR_SECRET_TOKEN
Content-Type: multipart/form-data
Accept: */*
Content-Length: 35

{
  "file": "binary",
  "lang_code": "eng"
}

{
  "status": "success",
  "data": {
    "text": [
      "major exports include petroleum products textile goods jewelry software engineering goods chemicals and manufactured leather goods"
    ]
  }
}

Speech to Text Translation (upload)

post

Upload a short audio file (mp3, wav) and get translated text.

Authorizations

AuthorizationstringRequired

Bearer authentication header of the form Bearer <token>.

Body

filestring · binaryRequired

Audio file (mp3 or wav).

src_lang_codestring · enumRequired

Only 'eng' is supported as the source for certain translation endpoints.

Possible values:

tgt_lang_codestring · enumRequired

Target language code

Possible values:

Responses

200

Translated text

application/json

400

Bad request

application/json

401

Unauthorized

application/json

post

/languagelabs/stt_trans/upload

POST /api/v1/languagelabs/stt_trans/upload HTTP/1.1
Host: cloud.olakrutrim.com
Authorization: Bearer YOUR_SECRET_TOKEN
Content-Type: multipart/form-data
Accept: */*
Content-Length: 61

{
  "file": "binary",
  "src_lang_code": "eng",
  "tgt_lang_code": "eng"
}

{
  "status": "success",
  "data": {
    "translated_text": "प्रमुख निर्यातों में पेट्रोलियम उत्पाद, वस्त्र, आभूषण, सॉफ्टवेयर, इंजीनियरिंग सामान, रसायन और निर्मित चमड़े के सामान शामिल हैं।"
  }
}

Speech to Speech Translation (upload)

post

Upload a short audio file and receive translated synthesized speech.

Authorizations

AuthorizationstringRequired

Bearer authentication header of the form Bearer <token>.

Body

filestring · binaryRequired

Audio file (mp3 or wav).

src_lang_codestring · enumRequired

Only 'eng' is supported as the source for certain translation endpoints.

Possible values:

tgt_lang_codestring · enumRequired

Target language code

Possible values:

input_speakerstring · enumRequiredPossible values:

Responses

200

Audio file link

application/json

400

Bad request

application/json

401

Unauthorized

application/json

post

/languagelabs/sts_trans/upload

POST /api/v1/languagelabs/sts_trans/upload HTTP/1.1
Host: cloud.olakrutrim.com
Authorization: Bearer YOUR_SECRET_TOKEN
Content-Type: multipart/form-data
Accept: */*
Content-Length: 86

{
  "file": "binary",
  "src_lang_code": "eng",
  "tgt_lang_code": "eng",
  "input_speaker": "female"
}

{
  "status": "success",
  "data": {
    "audio_file": "https://.../audio-sts-abc123.wav"
  }
}

Long-duration Speech to Text (upload)

post

Upload a longer audio file for asynchronous transcription; returns a request_id that can be polled.

Authorizations

AuthorizationstringRequired

Bearer authentication header of the form Bearer <token>.

Body

filestring · binaryRequired

Audio file (mp3 or wav).

lang_codestring · enumRequired

Language code

Possible values:

Responses

200

Job queued

application/json

400

Bad request

application/json

401

Unauthorized

application/json

post

/languagelabs/transcribe/lf/upload

POST /api/v1/languagelabs/transcribe/lf/upload HTTP/1.1
Host: cloud.olakrutrim.com
Authorization: Bearer YOUR_SECRET_TOKEN
Content-Type: multipart/form-data
Accept: */*
Content-Length: 35

{
  "file": "binary",
  "lang_code": "eng"
}

{
  "status": "success",
  "data": {
    "request_id": "7b9a9d93-1f0b-4a9a-8e7d-9a5f2c8c1d23",
    "status": "QUEUED"
  }
}

Long-duration Speech to Text Translation (upload)

post

Upload a longer audio file for asynchronous speech-to-text translation; returns a request_id that can be polled.

Authorizations

AuthorizationstringRequired

Bearer authentication header of the form Bearer <token>.

Body

filestring · binaryRequired

Long audio file (mp3 or wav).

src_lang_codestring · enumRequired

Only 'eng' is supported as the source for certain translation endpoints.

Possible values:

tgt_lang_codestring · enumRequired

Target language code

Possible values:

Responses

200

Job queued

application/json

400

Bad request

application/json

401

Unauthorized

application/json

post

/languagelabs/stt_trans/lf/upload

POST /api/v1/languagelabs/stt_trans/lf/upload HTTP/1.1
Host: cloud.olakrutrim.com
Authorization: Bearer YOUR_SECRET_TOKEN
Content-Type: multipart/form-data
Accept: */*
Content-Length: 61

{
  "file": "binary",
  "src_lang_code": "eng",
  "tgt_lang_code": "eng"
}

{
  "status": "success",
  "data": {
    "request_id": "b1a2a3b4-c5d6-7890-1234-abcdef987654",
    "status": "QUEUED"
  }
}

Get long-duration job status

get

Poll the status of a long-duration transcription/translation job and obtain the output link/text when available.

Authorizations

AuthorizationstringRequired

Bearer authentication header of the form Bearer <token>.

Path parameters

request_idstringRequired

Request ID returned by the long-duration upload endpoint.

Responses

200

Job status payload

application/json

400

Bad request

application/json

401

Unauthorized

application/json

404

Request ID not found

application/json

get

/languagelabs/job_status/{request_id}

GET /api/v1/languagelabs/job_status/{request_id} HTTP/1.1
Host: cloud.olakrutrim.com
Authorization: Bearer YOUR_SECRET_TOKEN
Accept: */*

{
  "status": "success",
  "data": {
    "request_id": "12345678-4406-4931-8138-f64af4de82c2",
    "file_name": "dummy_file_name-2024-9-30-12-46-43.wav",
    "file_size_mb": 2.690715789794922,
    "service_type": "stttransservice",
    "status": "SUCCESS",
    "output_file": "https://.../output-123456.txt",
    "created_at": "2024-10-03T14:14:03.737880",
    "updated_at": "2024-10-03T14:14:04.017735"
  }
}

hashtagText to Speech

hashtagText to Speech Translation

hashtagSpeech to Text (upload)

hashtagSpeech to Text Translation (upload)

hashtagSpeech to Speech Translation (upload)

hashtagLong-duration Speech to Text (upload)

hashtagLong-duration Speech to Text Translation (upload)

hashtagGet long-duration job status

Text to Speech

Text to Speech Translation

Speech to Text (upload)

Speech to Text Translation (upload)

Speech to Speech Translation (upload)

Long-duration Speech to Text (upload)

Long-duration Speech to Text Translation (upload)

Get long-duration job status