stefan-it
/

hmbench-hipe2020-de-hmbert_64k-bs4-wsFalse-e10-lr5e-05-poolingfirst-layers-1-crfFalse-2

Upload ./training.log with huggingface_hub

e7916a6 7 months ago

No virus

37 kB

	2023-10-23 20:53:59,183 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,184 Model: "SequenceTagger(
	(embeddings): TransformerWordEmbeddings(
	(model): BertModel(
	(embeddings): BertEmbeddings(
	(word_embeddings): Embedding(64001, 768)
	(position_embeddings): Embedding(512, 768)
	(token_type_embeddings): Embedding(2, 768)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(encoder): BertEncoder(
	(layer): ModuleList(
	(0): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(1): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(2): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(3): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(4): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(5): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(6): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(7): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(8): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(9): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(10): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(11): BertLayer(
	(attention): BertAttention(
	(self): BertSelfAttention(
	(query): Linear(in_features=768, out_features=768, bias=True)
	(key): Linear(in_features=768, out_features=768, bias=True)
	(value): Linear(in_features=768, out_features=768, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): BertSelfOutput(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): BertIntermediate(
	(dense): Linear(in_features=768, out_features=3072, bias=True)
	(intermediate_act_fn): GELUActivation()
	)
	(output): BertOutput(
	(dense): Linear(in_features=3072, out_features=768, bias=True)
	(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(pooler): BertPooler(
	(dense): Linear(in_features=768, out_features=768, bias=True)
	(activation): Tanh()
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=768, out_features=21, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-23 20:53:59,184 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,184 MultiCorpus: 3575 train + 1235 dev + 1266 test sentences
	- NER_HIPE_2022 Corpus: 3575 train + 1235 dev + 1266 test sentences - /home/ubuntu/.flair/datasets/ner_hipe_2022/v2.1/hipe2020/de/with_doc_seperator
	2023-10-23 20:53:59,184 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,184 Train: 3575 sentences
	2023-10-23 20:53:59,184 (train_with_dev=False, train_with_test=False)
	2023-10-23 20:53:59,184 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,184 Training Params:
	2023-10-23 20:53:59,184 - learning_rate: "5e-05"
	2023-10-23 20:53:59,184 - mini_batch_size: "4"
	2023-10-23 20:53:59,184 - max_epochs: "10"
	2023-10-23 20:53:59,184 - shuffle: "True"
	2023-10-23 20:53:59,184 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,184 Plugins:
	2023-10-23 20:53:59,185 - TensorboardLogger
	2023-10-23 20:53:59,185 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-23 20:53:59,185 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,185 Final evaluation on model from best epoch (best-model.pt)
	2023-10-23 20:53:59,185 - metric: "('micro avg', 'f1-score')"
	2023-10-23 20:53:59,185 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,185 Computation:
	2023-10-23 20:53:59,185 - compute on device: cuda:0
	2023-10-23 20:53:59,185 - embedding storage: none
	2023-10-23 20:53:59,185 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,185 Model training base path: "hmbench-hipe2020/de-dbmdz/bert-base-historic-multilingual-64k-td-cased-bs4-wsFalse-e10-lr5e-05-poolingfirst-layers-1-crfFalse-2"
	2023-10-23 20:53:59,185 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,185 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:53:59,185 Logging anything other than scalars to TensorBoard is currently not supported.
	2023-10-23 20:54:04,695 epoch 1 - iter 89/894 - loss 2.05648241 - time (sec): 5.51 - samples/sec: 1445.62 - lr: 0.000005 - momentum: 0.000000
	2023-10-23 20:54:10,399 epoch 1 - iter 178/894 - loss 1.21404748 - time (sec): 11.21 - samples/sec: 1485.36 - lr: 0.000010 - momentum: 0.000000
	2023-10-23 20:54:16,086 epoch 1 - iter 267/894 - loss 0.90628017 - time (sec): 16.90 - samples/sec: 1488.84 - lr: 0.000015 - momentum: 0.000000
	2023-10-23 20:54:21,773 epoch 1 - iter 356/894 - loss 0.76044414 - time (sec): 22.59 - samples/sec: 1492.63 - lr: 0.000020 - momentum: 0.000000
	2023-10-23 20:54:27,374 epoch 1 - iter 445/894 - loss 0.66552201 - time (sec): 28.19 - samples/sec: 1501.30 - lr: 0.000025 - momentum: 0.000000
	2023-10-23 20:54:32,883 epoch 1 - iter 534/894 - loss 0.60071179 - time (sec): 33.70 - samples/sec: 1495.06 - lr: 0.000030 - momentum: 0.000000
	2023-10-23 20:54:38,479 epoch 1 - iter 623/894 - loss 0.54372354 - time (sec): 39.29 - samples/sec: 1500.03 - lr: 0.000035 - momentum: 0.000000
	2023-10-23 20:54:44,124 epoch 1 - iter 712/894 - loss 0.50080113 - time (sec): 44.94 - samples/sec: 1504.45 - lr: 0.000040 - momentum: 0.000000
	2023-10-23 20:54:50,084 epoch 1 - iter 801/894 - loss 0.46387916 - time (sec): 50.90 - samples/sec: 1517.16 - lr: 0.000045 - momentum: 0.000000
	2023-10-23 20:54:55,699 epoch 1 - iter 890/894 - loss 0.43757430 - time (sec): 56.51 - samples/sec: 1526.27 - lr: 0.000050 - momentum: 0.000000
	2023-10-23 20:54:55,932 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:54:55,932 EPOCH 1 done: loss 0.4371 - lr: 0.000050
	2023-10-23 20:55:00,775 DEV : loss 0.1591983586549759 - f1-score (micro avg) 0.6143
	2023-10-23 20:55:00,795 saving best model
	2023-10-23 20:55:01,267 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:55:06,720 epoch 2 - iter 89/894 - loss 0.16974048 - time (sec): 5.45 - samples/sec: 1518.20 - lr: 0.000049 - momentum: 0.000000
	2023-10-23 20:55:12,416 epoch 2 - iter 178/894 - loss 0.16143225 - time (sec): 11.15 - samples/sec: 1525.41 - lr: 0.000049 - momentum: 0.000000
	2023-10-23 20:55:18,123 epoch 2 - iter 267/894 - loss 0.15180311 - time (sec): 16.85 - samples/sec: 1537.73 - lr: 0.000048 - momentum: 0.000000
	2023-10-23 20:55:23,889 epoch 2 - iter 356/894 - loss 0.15236701 - time (sec): 22.62 - samples/sec: 1532.24 - lr: 0.000048 - momentum: 0.000000
	2023-10-23 20:55:29,405 epoch 2 - iter 445/894 - loss 0.14334298 - time (sec): 28.14 - samples/sec: 1509.83 - lr: 0.000047 - momentum: 0.000000
	2023-10-23 20:55:35,194 epoch 2 - iter 534/894 - loss 0.15247437 - time (sec): 33.93 - samples/sec: 1517.25 - lr: 0.000047 - momentum: 0.000000
	2023-10-23 20:55:40,912 epoch 2 - iter 623/894 - loss 0.14975823 - time (sec): 39.64 - samples/sec: 1525.54 - lr: 0.000046 - momentum: 0.000000
	2023-10-23 20:55:46,390 epoch 2 - iter 712/894 - loss 0.14876006 - time (sec): 45.12 - samples/sec: 1514.34 - lr: 0.000046 - momentum: 0.000000
	2023-10-23 20:55:52,336 epoch 2 - iter 801/894 - loss 0.14878889 - time (sec): 51.07 - samples/sec: 1525.36 - lr: 0.000045 - momentum: 0.000000
	2023-10-23 20:55:57,878 epoch 2 - iter 890/894 - loss 0.14578259 - time (sec): 56.61 - samples/sec: 1520.97 - lr: 0.000044 - momentum: 0.000000
	2023-10-23 20:55:58,141 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:55:58,141 EPOCH 2 done: loss 0.1456 - lr: 0.000044
	2023-10-23 20:56:04,638 DEV : loss 0.22977472841739655 - f1-score (micro avg) 0.6806
	2023-10-23 20:56:04,659 saving best model
	2023-10-23 20:56:05,256 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:56:11,024 epoch 3 - iter 89/894 - loss 0.10865051 - time (sec): 5.77 - samples/sec: 1553.30 - lr: 0.000044 - momentum: 0.000000
	2023-10-23 20:56:16,764 epoch 3 - iter 178/894 - loss 0.11003605 - time (sec): 11.51 - samples/sec: 1535.17 - lr: 0.000043 - momentum: 0.000000
	2023-10-23 20:56:22,515 epoch 3 - iter 267/894 - loss 0.10395964 - time (sec): 17.26 - samples/sec: 1555.50 - lr: 0.000043 - momentum: 0.000000
	2023-10-23 20:56:28,133 epoch 3 - iter 356/894 - loss 0.09794376 - time (sec): 22.88 - samples/sec: 1524.17 - lr: 0.000042 - momentum: 0.000000
	2023-10-23 20:56:33,749 epoch 3 - iter 445/894 - loss 0.09527822 - time (sec): 28.49 - samples/sec: 1527.06 - lr: 0.000042 - momentum: 0.000000
	2023-10-23 20:56:39,381 epoch 3 - iter 534/894 - loss 0.09373453 - time (sec): 34.12 - samples/sec: 1519.68 - lr: 0.000041 - momentum: 0.000000
	2023-10-23 20:56:44,925 epoch 3 - iter 623/894 - loss 0.09364125 - time (sec): 39.67 - samples/sec: 1511.34 - lr: 0.000041 - momentum: 0.000000
	2023-10-23 20:56:50,828 epoch 3 - iter 712/894 - loss 0.09013864 - time (sec): 45.57 - samples/sec: 1518.87 - lr: 0.000040 - momentum: 0.000000
	2023-10-23 20:56:56,436 epoch 3 - iter 801/894 - loss 0.09096854 - time (sec): 51.18 - samples/sec: 1513.59 - lr: 0.000039 - momentum: 0.000000
	2023-10-23 20:57:02,199 epoch 3 - iter 890/894 - loss 0.08996061 - time (sec): 56.94 - samples/sec: 1514.41 - lr: 0.000039 - momentum: 0.000000
	2023-10-23 20:57:02,431 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:57:02,431 EPOCH 3 done: loss 0.0898 - lr: 0.000039
	2023-10-23 20:57:08,939 DEV : loss 0.19408421218395233 - f1-score (micro avg) 0.7459
	2023-10-23 20:57:08,960 saving best model
	2023-10-23 20:57:09,557 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:57:15,087 epoch 4 - iter 89/894 - loss 0.07126826 - time (sec): 5.53 - samples/sec: 1467.85 - lr: 0.000038 - momentum: 0.000000
	2023-10-23 20:57:20,786 epoch 4 - iter 178/894 - loss 0.06075018 - time (sec): 11.23 - samples/sec: 1492.76 - lr: 0.000038 - momentum: 0.000000
	2023-10-23 20:57:26,437 epoch 4 - iter 267/894 - loss 0.05637859 - time (sec): 16.88 - samples/sec: 1508.80 - lr: 0.000037 - momentum: 0.000000
	2023-10-23 20:57:32,295 epoch 4 - iter 356/894 - loss 0.05891890 - time (sec): 22.74 - samples/sec: 1518.14 - lr: 0.000037 - momentum: 0.000000
	2023-10-23 20:57:38,003 epoch 4 - iter 445/894 - loss 0.06114642 - time (sec): 28.44 - samples/sec: 1512.47 - lr: 0.000036 - momentum: 0.000000
	2023-10-23 20:57:43,730 epoch 4 - iter 534/894 - loss 0.06236999 - time (sec): 34.17 - samples/sec: 1514.92 - lr: 0.000036 - momentum: 0.000000
	2023-10-23 20:57:49,533 epoch 4 - iter 623/894 - loss 0.06392335 - time (sec): 39.97 - samples/sec: 1525.05 - lr: 0.000035 - momentum: 0.000000
	2023-10-23 20:57:55,255 epoch 4 - iter 712/894 - loss 0.06295692 - time (sec): 45.70 - samples/sec: 1526.07 - lr: 0.000034 - momentum: 0.000000
	2023-10-23 20:58:00,800 epoch 4 - iter 801/894 - loss 0.06292309 - time (sec): 51.24 - samples/sec: 1518.26 - lr: 0.000034 - momentum: 0.000000
	2023-10-23 20:58:06,323 epoch 4 - iter 890/894 - loss 0.06266573 - time (sec): 56.76 - samples/sec: 1518.51 - lr: 0.000033 - momentum: 0.000000
	2023-10-23 20:58:06,577 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:58:06,577 EPOCH 4 done: loss 0.0631 - lr: 0.000033
	2023-10-23 20:58:13,122 DEV : loss 0.22660154104232788 - f1-score (micro avg) 0.7247
	2023-10-23 20:58:13,143 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:58:18,820 epoch 5 - iter 89/894 - loss 0.03574570 - time (sec): 5.68 - samples/sec: 1548.77 - lr: 0.000033 - momentum: 0.000000
	2023-10-23 20:58:24,508 epoch 5 - iter 178/894 - loss 0.03970603 - time (sec): 11.36 - samples/sec: 1500.75 - lr: 0.000032 - momentum: 0.000000
	2023-10-23 20:58:30,000 epoch 5 - iter 267/894 - loss 0.04068036 - time (sec): 16.86 - samples/sec: 1487.29 - lr: 0.000032 - momentum: 0.000000
	2023-10-23 20:58:35,851 epoch 5 - iter 356/894 - loss 0.04525724 - time (sec): 22.71 - samples/sec: 1521.43 - lr: 0.000031 - momentum: 0.000000
	2023-10-23 20:58:41,423 epoch 5 - iter 445/894 - loss 0.04526026 - time (sec): 28.28 - samples/sec: 1507.73 - lr: 0.000031 - momentum: 0.000000
	2023-10-23 20:58:46,970 epoch 5 - iter 534/894 - loss 0.04516609 - time (sec): 33.83 - samples/sec: 1503.75 - lr: 0.000030 - momentum: 0.000000
	2023-10-23 20:58:52,901 epoch 5 - iter 623/894 - loss 0.04404538 - time (sec): 39.76 - samples/sec: 1518.02 - lr: 0.000029 - momentum: 0.000000
	2023-10-23 20:58:58,571 epoch 5 - iter 712/894 - loss 0.04347653 - time (sec): 45.43 - samples/sec: 1519.94 - lr: 0.000029 - momentum: 0.000000
	2023-10-23 20:59:04,172 epoch 5 - iter 801/894 - loss 0.04427952 - time (sec): 51.03 - samples/sec: 1526.89 - lr: 0.000028 - momentum: 0.000000
	2023-10-23 20:59:09,706 epoch 5 - iter 890/894 - loss 0.04395567 - time (sec): 56.56 - samples/sec: 1523.08 - lr: 0.000028 - momentum: 0.000000
	2023-10-23 20:59:09,959 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:59:09,959 EPOCH 5 done: loss 0.0440 - lr: 0.000028
	2023-10-23 20:59:16,476 DEV : loss 0.2578391432762146 - f1-score (micro avg) 0.7454
	2023-10-23 20:59:16,496 ----------------------------------------------------------------------------------------------------
	2023-10-23 20:59:22,046 epoch 6 - iter 89/894 - loss 0.02996543 - time (sec): 5.55 - samples/sec: 1443.43 - lr: 0.000027 - momentum: 0.000000
	2023-10-23 20:59:27,682 epoch 6 - iter 178/894 - loss 0.02468163 - time (sec): 11.19 - samples/sec: 1441.23 - lr: 0.000027 - momentum: 0.000000
	2023-10-23 20:59:33,444 epoch 6 - iter 267/894 - loss 0.02950738 - time (sec): 16.95 - samples/sec: 1480.05 - lr: 0.000026 - momentum: 0.000000
	2023-10-23 20:59:39,138 epoch 6 - iter 356/894 - loss 0.02848739 - time (sec): 22.64 - samples/sec: 1520.93 - lr: 0.000026 - momentum: 0.000000
	2023-10-23 20:59:44,762 epoch 6 - iter 445/894 - loss 0.02765367 - time (sec): 28.27 - samples/sec: 1524.43 - lr: 0.000025 - momentum: 0.000000
	2023-10-23 20:59:50,448 epoch 6 - iter 534/894 - loss 0.02635219 - time (sec): 33.95 - samples/sec: 1514.47 - lr: 0.000024 - momentum: 0.000000
	2023-10-23 20:59:55,967 epoch 6 - iter 623/894 - loss 0.02640742 - time (sec): 39.47 - samples/sec: 1514.26 - lr: 0.000024 - momentum: 0.000000
	2023-10-23 21:00:01,649 epoch 6 - iter 712/894 - loss 0.02966489 - time (sec): 45.15 - samples/sec: 1521.97 - lr: 0.000023 - momentum: 0.000000
	2023-10-23 21:00:07,488 epoch 6 - iter 801/894 - loss 0.02907114 - time (sec): 50.99 - samples/sec: 1516.15 - lr: 0.000023 - momentum: 0.000000
	2023-10-23 21:00:13,087 epoch 6 - iter 890/894 - loss 0.02979063 - time (sec): 56.59 - samples/sec: 1523.94 - lr: 0.000022 - momentum: 0.000000
	2023-10-23 21:00:13,331 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:00:13,331 EPOCH 6 done: loss 0.0298 - lr: 0.000022
	2023-10-23 21:00:19,831 DEV : loss 0.25447967648506165 - f1-score (micro avg) 0.7468
	2023-10-23 21:00:19,852 saving best model
	2023-10-23 21:00:20,442 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:00:26,004 epoch 7 - iter 89/894 - loss 0.02097532 - time (sec): 5.56 - samples/sec: 1524.38 - lr: 0.000022 - momentum: 0.000000
	2023-10-23 21:00:31,783 epoch 7 - iter 178/894 - loss 0.02109630 - time (sec): 11.34 - samples/sec: 1519.21 - lr: 0.000021 - momentum: 0.000000
	2023-10-23 21:00:37,788 epoch 7 - iter 267/894 - loss 0.01994670 - time (sec): 17.35 - samples/sec: 1536.45 - lr: 0.000021 - momentum: 0.000000
	2023-10-23 21:00:43,398 epoch 7 - iter 356/894 - loss 0.01812653 - time (sec): 22.96 - samples/sec: 1528.07 - lr: 0.000020 - momentum: 0.000000
	2023-10-23 21:00:49,036 epoch 7 - iter 445/894 - loss 0.01965635 - time (sec): 28.59 - samples/sec: 1522.92 - lr: 0.000019 - momentum: 0.000000
	2023-10-23 21:00:54,701 epoch 7 - iter 534/894 - loss 0.01998244 - time (sec): 34.26 - samples/sec: 1526.54 - lr: 0.000019 - momentum: 0.000000
	2023-10-23 21:01:00,374 epoch 7 - iter 623/894 - loss 0.02031292 - time (sec): 39.93 - samples/sec: 1523.49 - lr: 0.000018 - momentum: 0.000000
	2023-10-23 21:01:05,941 epoch 7 - iter 712/894 - loss 0.01882461 - time (sec): 45.50 - samples/sec: 1520.45 - lr: 0.000018 - momentum: 0.000000
	2023-10-23 21:01:11,509 epoch 7 - iter 801/894 - loss 0.02001490 - time (sec): 51.07 - samples/sec: 1523.08 - lr: 0.000017 - momentum: 0.000000
	2023-10-23 21:01:17,109 epoch 7 - iter 890/894 - loss 0.01945576 - time (sec): 56.67 - samples/sec: 1521.90 - lr: 0.000017 - momentum: 0.000000
	2023-10-23 21:01:17,349 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:01:17,350 EPOCH 7 done: loss 0.0197 - lr: 0.000017
	2023-10-23 21:01:23,819 DEV : loss 0.27903473377227783 - f1-score (micro avg) 0.744
	2023-10-23 21:01:23,840 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:01:29,442 epoch 8 - iter 89/894 - loss 0.01477492 - time (sec): 5.60 - samples/sec: 1514.72 - lr: 0.000016 - momentum: 0.000000
	2023-10-23 21:01:35,014 epoch 8 - iter 178/894 - loss 0.01911420 - time (sec): 11.17 - samples/sec: 1524.00 - lr: 0.000016 - momentum: 0.000000
	2023-10-23 21:01:40,581 epoch 8 - iter 267/894 - loss 0.01561106 - time (sec): 16.74 - samples/sec: 1490.26 - lr: 0.000015 - momentum: 0.000000
	2023-10-23 21:01:46,683 epoch 8 - iter 356/894 - loss 0.01289383 - time (sec): 22.84 - samples/sec: 1535.64 - lr: 0.000014 - momentum: 0.000000
	2023-10-23 21:01:52,319 epoch 8 - iter 445/894 - loss 0.01328556 - time (sec): 28.48 - samples/sec: 1539.25 - lr: 0.000014 - momentum: 0.000000
	2023-10-23 21:01:57,972 epoch 8 - iter 534/894 - loss 0.01205554 - time (sec): 34.13 - samples/sec: 1518.84 - lr: 0.000013 - momentum: 0.000000
	2023-10-23 21:02:03,588 epoch 8 - iter 623/894 - loss 0.01126584 - time (sec): 39.75 - samples/sec: 1517.09 - lr: 0.000013 - momentum: 0.000000
	2023-10-23 21:02:09,239 epoch 8 - iter 712/894 - loss 0.01248566 - time (sec): 45.40 - samples/sec: 1515.56 - lr: 0.000012 - momentum: 0.000000
	2023-10-23 21:02:15,129 epoch 8 - iter 801/894 - loss 0.01195343 - time (sec): 51.29 - samples/sec: 1520.84 - lr: 0.000012 - momentum: 0.000000
	2023-10-23 21:02:20,671 epoch 8 - iter 890/894 - loss 0.01193844 - time (sec): 56.83 - samples/sec: 1517.08 - lr: 0.000011 - momentum: 0.000000
	2023-10-23 21:02:20,912 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:02:20,912 EPOCH 8 done: loss 0.0123 - lr: 0.000011
	2023-10-23 21:02:27,403 DEV : loss 0.31139957904815674 - f1-score (micro avg) 0.7589
	2023-10-23 21:02:27,424 saving best model
	2023-10-23 21:02:28,018 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:02:33,491 epoch 9 - iter 89/894 - loss 0.00404374 - time (sec): 5.47 - samples/sec: 1479.01 - lr: 0.000011 - momentum: 0.000000
	2023-10-23 21:02:39,146 epoch 9 - iter 178/894 - loss 0.00808564 - time (sec): 11.13 - samples/sec: 1479.90 - lr: 0.000010 - momentum: 0.000000
	2023-10-23 21:02:44,983 epoch 9 - iter 267/894 - loss 0.00904128 - time (sec): 16.96 - samples/sec: 1498.79 - lr: 0.000009 - momentum: 0.000000
	2023-10-23 21:02:50,610 epoch 9 - iter 356/894 - loss 0.00830892 - time (sec): 22.59 - samples/sec: 1509.23 - lr: 0.000009 - momentum: 0.000000
	2023-10-23 21:02:56,263 epoch 9 - iter 445/894 - loss 0.00809236 - time (sec): 28.24 - samples/sec: 1519.59 - lr: 0.000008 - momentum: 0.000000
	2023-10-23 21:03:02,035 epoch 9 - iter 534/894 - loss 0.00805290 - time (sec): 34.02 - samples/sec: 1522.78 - lr: 0.000008 - momentum: 0.000000
	2023-10-23 21:03:07,916 epoch 9 - iter 623/894 - loss 0.00765601 - time (sec): 39.90 - samples/sec: 1532.31 - lr: 0.000007 - momentum: 0.000000
	2023-10-23 21:03:13,497 epoch 9 - iter 712/894 - loss 0.00744532 - time (sec): 45.48 - samples/sec: 1524.91 - lr: 0.000007 - momentum: 0.000000
	2023-10-23 21:03:18,999 epoch 9 - iter 801/894 - loss 0.00757061 - time (sec): 50.98 - samples/sec: 1522.42 - lr: 0.000006 - momentum: 0.000000
	2023-10-23 21:03:24,708 epoch 9 - iter 890/894 - loss 0.00716724 - time (sec): 56.69 - samples/sec: 1521.97 - lr: 0.000006 - momentum: 0.000000
	2023-10-23 21:03:24,937 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:03:24,938 EPOCH 9 done: loss 0.0071 - lr: 0.000006
	2023-10-23 21:03:31,158 DEV : loss 0.2947549819946289 - f1-score (micro avg) 0.772
	2023-10-23 21:03:31,178 saving best model
	2023-10-23 21:03:31,770 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:03:37,625 epoch 10 - iter 89/894 - loss 0.00103907 - time (sec): 5.85 - samples/sec: 1472.22 - lr: 0.000005 - momentum: 0.000000
	2023-10-23 21:03:43,366 epoch 10 - iter 178/894 - loss 0.00117928 - time (sec): 11.60 - samples/sec: 1525.80 - lr: 0.000004 - momentum: 0.000000
	2023-10-23 21:03:48,985 epoch 10 - iter 267/894 - loss 0.00126812 - time (sec): 17.21 - samples/sec: 1511.46 - lr: 0.000004 - momentum: 0.000000
	2023-10-23 21:03:54,482 epoch 10 - iter 356/894 - loss 0.00168602 - time (sec): 22.71 - samples/sec: 1511.69 - lr: 0.000003 - momentum: 0.000000
	2023-10-23 21:04:00,365 epoch 10 - iter 445/894 - loss 0.00234417 - time (sec): 28.59 - samples/sec: 1530.30 - lr: 0.000003 - momentum: 0.000000
	2023-10-23 21:04:05,924 epoch 10 - iter 534/894 - loss 0.00256521 - time (sec): 34.15 - samples/sec: 1513.63 - lr: 0.000002 - momentum: 0.000000
	2023-10-23 21:04:11,476 epoch 10 - iter 623/894 - loss 0.00250174 - time (sec): 39.71 - samples/sec: 1518.09 - lr: 0.000002 - momentum: 0.000000
	2023-10-23 21:04:17,189 epoch 10 - iter 712/894 - loss 0.00262420 - time (sec): 45.42 - samples/sec: 1515.93 - lr: 0.000001 - momentum: 0.000000
	2023-10-23 21:04:23,075 epoch 10 - iter 801/894 - loss 0.00338086 - time (sec): 51.30 - samples/sec: 1513.04 - lr: 0.000001 - momentum: 0.000000
	2023-10-23 21:04:28,776 epoch 10 - iter 890/894 - loss 0.00333224 - time (sec): 57.01 - samples/sec: 1511.84 - lr: 0.000000 - momentum: 0.000000
	2023-10-23 21:04:29,013 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:04:29,013 EPOCH 10 done: loss 0.0033 - lr: 0.000000
	2023-10-23 21:04:35,263 DEV : loss 0.3027936816215515 - f1-score (micro avg) 0.7733
	2023-10-23 21:04:35,284 saving best model
	2023-10-23 21:04:36,353 ----------------------------------------------------------------------------------------------------
	2023-10-23 21:04:36,354 Loading model from best epoch ...
	2023-10-23 21:04:38,053 SequenceTagger predicts: Dictionary with 21 tags: O, S-loc, B-loc, E-loc, I-loc, S-pers, B-pers, E-pers, I-pers, S-org, B-org, E-org, I-org, S-prod, B-prod, E-prod, I-prod, S-time, B-time, E-time, I-time
	2023-10-23 21:04:42,902
	Results:
	- F-score (micro) 0.7427
	- F-score (macro) 0.6605
	- Accuracy 0.6064

	By class:
	precision recall f1-score support

	loc 0.7984 0.8507 0.8237 596
	pers 0.6863 0.7688 0.7252 333
	org 0.5385 0.4773 0.5060 132
	prod 0.5818 0.4848 0.5289 66
	time 0.6852 0.7551 0.7184 49

	micro avg 0.7253 0.7611 0.7427 1176
	macro avg 0.6580 0.6673 0.6605 1176
	weighted avg 0.7206 0.7611 0.7392 1176

	2023-10-23 21:04:42,902 ----------------------------------------------------------------------------------------------------