Edit model card

Model Card for KartonBERT_base_cased_v1

This is a classic Polish BERT model, trained with MLM task. It comes with a custom ~38k-tokens BWPT tokenizer. While not ideal, it performs well on certain downstream tasks and serves as a checkpoint in my work.

Model Description

How to use model for fill-mask task

Use the code below to get started with the model.

from transformers import pipeline

tokenizer_kwargs={'truncation': True, 'max_length': 512}
model = pipeline('fill-mask', model='OrlikB/KartonBERT_base_cased_v1', tokenizer_kwargs=tokenizer_kwargs)

model("Kartony to inaczej [MASK], które produkowane są z tektury.")

# Output
[{'score': 0.14289526641368866,
  'token': 13141,
  'token_str': 'opakowania',
  'sequence': 'Kartony to inaczej opakowania, które produkowane są z tektury.'},
 {'score': 0.13409359753131866,
  'token': 23447,
  'token_str': 'pudełka',
  'sequence': 'Kartony to inaczej pudełka, które produkowane są z tektury.'},
 {'score': 0.11648454517126083,
  'token': 2879,
  'token_str': 'produkty',
  'sequence': 'Kartony to inaczej produkty, które produkowane są z tektury.'},
 {'score': 0.06563600897789001,
  'token': 10929,
  'token_str': 'przedmioty',
  'sequence': 'Kartony to inaczej przedmioty, które produkowane są z tektury.'},
 {'score': 0.028728993609547615,
  'token': 35869,
  'token_str': 'pojemniki',
  'sequence': 'Kartony to inaczej pojemniki, które produkowane są z tektury.'}]
Downloads last month
19
Safetensors
Model size
116M params
Tensor type
F32
·