transcript/transcript at main · menzhik/transcript

93 lines (80 loc) · 2.61 KB
#!/usr/bin/env bash
# transcript — extract audio with ffmpeg, transcribe with OpenAI Whisper API.
#   transcript <input> [-f txt|srt|vtt|json|verbose_json] [-l <lang>] [-o <out>] [-k]
#   OPENAI_API_KEY   required
#   - Encodes to 16 kHz mono MP3 @ 32 kbps (Whisper-optimal, tiny files).
#   - Auto-splits if encoded audio exceeds 25 MB (API limit).
set -euo pipefail
die() { echo "error: $*" >&2; exit 1; }
[[ $# -ge 1 ]] || die "usage: transcript <input> [-f fmt] [-l lang] [-o out] [-k]"
input=$1; shift
while [[ $# -gt 0 ]]; do
  case $1 in
    -f|--format) fmt=$2; shift 2 ;;
    -l|--lang)   lang=$2; shift 2 ;;
    -o|--output) out=$2; shift 2 ;;
    -k|--keep)   keep=1; shift ;;
    *) die "unknown arg: $1" ;;
[[ -f $input ]]            || die "file not found: $input"
[[ -n ${OPENAI_API_KEY-} ]] || die "OPENAI_API_KEY not set"
command -v ffmpeg >/dev/null || die "ffmpeg not installed"
command -v curl   >/dev/null || die "curl not installed"
# API format mapping (API uses 'text' not 'txt')
case $fmt in
  txt|text) api_fmt=text;  ext=txt  ;;
  srt)      api_fmt=srt;   ext=srt  ;;
  vtt)      api_fmt=vtt;   ext=vtt  ;;
  json)     api_fmt=json;  ext=json ;;
  verbose_json) api_fmt=verbose_json; ext=json ;;
  *) die "unknown format: $fmt" ;;
base=${input%.*}
out=${out:-${base}.${ext}}
tmp_mp3=$(mktemp --suffix=.mp3)
trap '[[ $keep -eq 0 ]] && rm -f "$tmp_mp3"' EXIT
echo ">> encoding audio (16 kHz mono, 32 kbps mp3)..." >&2
ffmpeg -y -loglevel error -i "$input" \
  -vn -ac 1 -ar 16000 -c:a libmp3lame -b:a 32k \
  "$tmp_mp3"
size=$(stat -c%s "$tmp_mp3")
limit=$((25 * 1024 * 1024))
transcribe_one() {
  local file=$1
  local args=(-sS -X POST https://api.openai.com/v1/audio/transcriptions
    -H "Authorization: Bearer $OPENAI_API_KEY"
    -F "file=@${file}"
    -F "model=whisper-1"
    -F "response_format=${api_fmt}")
  [[ -n $lang ]] && args+=(-F "language=${lang}")
  curl "${args[@]}"
if (( size <= limit )); then
  echo ">> transcribing ($(numfmt --to=iec "$size"))..." >&2
  transcribe_one "$tmp_mp3" > "$out"
  echo ">> audio > 25MB, splitting into chunks..." >&2
  chunk_dir=$(mktemp -d)
  trap '[[ $keep -eq 0 ]] && rm -rf "$tmp_mp3" "$chunk_dir"' EXIT
  # 10-minute chunks @ 32kbps ≈ 2.4 MB each, safely under limit
  ffmpeg -y -loglevel error -i "$tmp_mp3" -f segment -segment_time 600 \
    -c copy "$chunk_dir/chunk_%03d.mp3"
  : > "$out"
  for c in "$chunk_dir"/chunk_*.mp3; do
    echo ">> chunk $(basename "$c")" >&2
    transcribe_one "$c" >> "$out"
    [[ $api_fmt == text ]] && echo "" >> "$out"
echo ">> done: $out" >&2
Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

transcript

Latest commit

History

transcript

File metadata and controls