ASR
Collection
1 item • Updated
한국어 음성 인식(ASR)을 위해 LoRA fine-tuning된 Whisper-base 모델입니다.
독거노인 및 취약계층 복지 상담 시스템을 위해 학습된 한국어 음성 인식 모델입니다.
| Model | Category | WER | CER |
|---|---|---|---|
| Baseline | ALL | 0.4236 | 0.1588 |
| LoRA Fine-tuned | ALL | 0.2592 | 0.0584 |
| Baseline | 정신 건강 복지 | 0.354 | 0.1315 |
| LoRA Fine-tuned | 정신 건강 복지 | 0.228 | 0.0571 |
한국어 음성을 텍스트로 변환하는 ASR 작업에 사용됩니다.
from transformers import WhisperProcessor, WhisperForConditionalGeneration
from peft import PeftModel
import torch
import librosa
# Load base model and processor
processor = WhisperProcessor.from_pretrained("openai/whisper-base")
base_model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")
# Load LoRA adapter
model = PeftModel.from_pretrained(base_model, "jaehyeono/whisper-base-korean-lora")
model = model.merge_and_unload() # Merge for faster inference
model.eval()
# Inference
audio, sr = librosa.load("audio.wav", sr=16000)
input_features = processor(audio, sampling_rate=16000, return_tensors="pt").input_features
with torch.no_grad():
predicted_ids = model.generate(input_features, language="ko", task="transcribe")
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(transcription)
| Dataset | Description |
|---|---|
| AIHub 186 | 한국어 음성 데이터 (일반 대화) |
| Zeroth Korean | 공개 한국어 음성 데이터셋 |
| AIHub 134 | 감정/정신건강 관련 음성 데이터 |
Whisper-base 모델에 LoRA adapter를 적용하여 한국어 ASR 성능을 향상시켰습니다.
@misc{whisper-korean-lora-2026,
title={Whisper-Base Korean LoRA for Welfare Call Center},
author={Jaehyeon},
year={2026},
publisher={HuggingFace}
}
Base model
openai/whisper-base