KoBART Summarization - Fine-tuned on XL-Sum (Korean)

이 모델은 gogamza/kobart-summarization을 기반으로 XL-Sum 한국어 데이터셋을 활용해 LoRA(Low-Rank Adaptation) 기법으로 파인튜닝한 모델입니다. 뉴스 기사와 같은 긴 텍스트를 핵심 문장으로 압축하는 데 특화되어 있습니다.

How to Use

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("rudalson/kobart-summarization-ko")
model = AutoModelForSeq2SeqLM.from_pretrained("rudalson/kobart-summarization-ko")

text = """5월 1일 노동절부터 5일 어린이날까지 이어지는 최대 5일간의 황금연휴를 앞두고 국내 주요 관광지의 숙박 요금이 천정부지로 치솟고 있습니다.
중동전쟁 여파로 항공 유류비가 오르자 해외 대신 국내 여행으로 수요가 몰린 데다, 일본과 중국의 연휴까지 겹치며 숙소 구하기가 그야말로 '하늘의 별따기'가 된 상황입니다."""

inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=1024)
summary_ids = model.generate(
    inputs["input_ids"], 
    num_beams=4, 
    max_length=128,
    min_length=10,
    no_repeat_ngram_size=3,
    repetition_penalty=1.2,
    early_stopping=True
)

print(tokenizer.decode(summary_ids[0], skip_special_tokens=True))

Training Detail

Training Data: XL-Sum (Korean)
Technique: LoRA
Epochs: 5
Learning Rate: 2e-5

Evaluation

평가 시 형태소 분석기 Kiwi를 사용하여 토큰화 후 측정되었습니다.

Metric	Score
ROUGE-1	11.63%
ROUGE-L	11.57%

Support

SSAFY Tesla V100-PCIE-32GB

Downloads last month: 197

Safetensors

Model size

0.1B params

Tensor type

F16

Model tree for rudalson/kobart-summarization-xlsum

Base model

gogamza/kobart-summarization

Finetuned

(5)

this model

rudalson
/

kobart-summarization-xlsum