Edit model card

Model Card

This is an Estonian Parliament stenograms summarization model. Model is trained on the et_parliament_stenos_summary dataset which consists of Parliament dialogues/talks.

Model Description

Reason for creating this model is related to experiment if there would be possible to simply train Estonian summarization model which is has longer input sequence length than 1024 tokens.

  • Model type: T5
  • Language(s) (NLP): Estonian
  • Finetuned from model: agemagician/mlong-t5-tglobal-base. Vocabulary of the original model was reduced to keep only tokens present in training data.
  • Maximum input sequence (tokens): 2048

Uses

Direct Use

Model is tended to be used summarizing Estonian Parliament talks stenograms. It might work with somewhat reasonable accurary with other Estonian texts.

Bias, Risks, and Limitations

Biases coming from the original pre-trained model and from Estonian Parliament dataset (and GPT-3.5 which was used to create training data summaries) are probably present in the model. No extensive study has been made.

Recommendations

Don't use model in case you need very accurate results, model might miss important aspects from the original text and hallucinate.

How to Get Started with the Model

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")
model = AutoModelForSeq2SeqLM.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")

text="""Varasematest uuringutest on teada, et punetav nägu võib märku anda erutusest näiteks aaradel ja raisakotkastel. Sestap huvitas Tours'i Ülikooli etoloog Delphine Soulet'd ja tema kolleege, kas sarnast tundemärki võib näha ka kodukanade (Gallus gallus domesticus) nägudel.
Töörühm filmis esmalt kuut Sussexi tõugu kana erinevates olukordades. Mõnes olukorras toimetasid kanad loomulikult omasoodu, teistes aga juhtisid uurijad lindude tegevust. Põnevates ja autasu tõotavates olukordades lasi töörühm kanadel võtta tolmuvanni või söötis neid ussikestega. Hirmuga seotud olukordades püüdsid uurijad linde käsitsi kinni.
Katsete järel oli töörühma päralt videosalvestistest võetud tuhandeid üksikkaadreid. Just nende analüüsiks loodud algoritmi toel said uurijad täpselt jälgida, kui punased olid igas olukorras kanade hari, põsed, kõrvanibud ja lotid.
Töörühma sõnul oli uuringu valim väike, mistõttu vajavad tulemused kinnitamist suuremas kordusuuringus. Siiski ilmneb tulemustest, et vähem punetavad põsed ja kõrvanibud võivad viidata linnu rahulikule ja rõõmsale seisundile. Vastukaaluks näib punetavam nägu märku andvat linnu suuremast emotsionaalsest erutusest. Sinna hulka kuuluvad nii ussikeste saamisega seotud elevus kui ka hirm.
Soulet ja kolleegid tegid veel ühe katse, kus jaotasid 25 Sussexi tõugu kana kahte rühma. Uurijad käisid viie nädala jooksul 13 linnu juures, et kanu pisitasa inimese kohaoluga harjutada. Ülejäänud 12 lindu jäeti viieks nädalaks kontrollrühmana omapäi.
Kui siis kõik kanad viie nädala möödudes uuesti inimestega kokku puutusid, ilmnes kahe kanarühma vahel selge vahe. Uurijatega harjunud linnud pelgasid inimest vähem ja muutusid nende juuresolekul näost vähem punaseks, kui nende üksi jäetud liigikaaslased."""


def summarize(text, model, tokenizer, max_new_tokens=512, device='cuda'):
    input_ids = tokenizer(
         text, return_tensors="pt"
    ).input_ids  # Batch size 1
    outputs = model.generate(input_ids=input_ids.to(device), max_new_tokens=max_new_tokens)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

DEVICE='cuda'
model=model.to(DEVICE)

summarize(text, model, tokenizer, device=DEVICE)

Training Details

Training Data

Training Procedure

Training notebook is available here Explanation of the process could be found here.

Training Hyperparameters

  • Training regime: fp32
  • learning_rate: 5e-5
  • num_train_epochs: 12

Evaluation

Testing Data, Factors & Metrics

Testing Data

Test data is from et_parliament_stenos_summary test set, which contains stenograms not present in the training data.

Metrics and results

  • rouge1: 36.1651
  • rouge2: 15.9668
  • rougeL: 28.339
  • rougeLsum: 33.767
Downloads last month
5
Safetensors
Model size
226M params
Tensor type
F32
·

Dataset used to train rristo/mlong-t5-tglobal-base-et-riigikogu-summary