{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.985781990521327,
  "eval_steps": 100,
  "global_step": 52,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.02,
      "grad_norm": 49.199695117761074,
      "learning_rate": 8.333333333333333e-08,
      "logits/chosen": 124.78954315185547,
      "logits/rejected": 100.39772033691406,
      "logps/chosen": -796.0274658203125,
      "logps/rejected": -794.6148071289062,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.19,
      "grad_norm": 156.82435731198214,
      "learning_rate": 4.907293218369498e-07,
      "logits/chosen": 110.10317993164062,
      "logits/rejected": 132.51995849609375,
      "logps/chosen": -719.847412109375,
      "logps/rejected": -819.7335815429688,
      "loss": 0.6959,
      "rewards/accuracies": 0.4722222089767456,
      "rewards/chosen": 0.7197124361991882,
      "rewards/margins": 0.07708275318145752,
      "rewards/rejected": 0.6426296234130859,
      "step": 10
    },
    {
      "epoch": 0.38,
      "grad_norm": 37.419738746448516,
      "learning_rate": 3.941700805287168e-07,
      "logits/chosen": 109.86607360839844,
      "logits/rejected": 121.95865631103516,
      "logps/chosen": -588.1119384765625,
      "logps/rejected": -731.8922119140625,
      "loss": 0.5646,
      "rewards/accuracies": 0.768750011920929,
      "rewards/chosen": 1.8224143981933594,
      "rewards/margins": 0.6938327550888062,
      "rewards/rejected": 1.1285816431045532,
      "step": 20
    },
    {
      "epoch": 0.57,
      "grad_norm": 70.45063652472086,
      "learning_rate": 2.3293939665883228e-07,
      "logits/chosen": 103.52474212646484,
      "logits/rejected": 110.13504791259766,
      "logps/chosen": -746.6776733398438,
      "logps/rejected": -894.1080932617188,
      "loss": 0.5108,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": 0.6234104633331299,
      "rewards/margins": 1.0504566431045532,
      "rewards/rejected": -0.42704614996910095,
      "step": 30
    },
    {
      "epoch": 0.76,
      "grad_norm": 70.03302286350015,
      "learning_rate": 7.936171419533652e-08,
      "logits/chosen": 99.47705841064453,
      "logits/rejected": 96.3049087524414,
      "logps/chosen": -729.3297729492188,
      "logps/rejected": -837.92578125,
      "loss": 0.4859,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": 0.9277679324150085,
      "rewards/margins": 1.0992282629013062,
      "rewards/rejected": -0.17146030068397522,
      "step": 40
    },
    {
      "epoch": 0.95,
      "grad_norm": 74.20415465739686,
      "learning_rate": 2.328513490917311e-09,
      "logits/chosen": 113.7992172241211,
      "logits/rejected": 114.873046875,
      "logps/chosen": -748.3582763671875,
      "logps/rejected": -870.6051025390625,
      "loss": 0.4827,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": 0.8657277822494507,
      "rewards/margins": 1.0814939737319946,
      "rewards/rejected": -0.21576616168022156,
      "step": 50
    },
    {
      "epoch": 0.99,
      "step": 52,
      "total_flos": 0.0,
      "train_loss": 0.5449507053081806,
      "train_runtime": 579.8166,
      "train_samples_per_second": 11.642,
      "train_steps_per_second": 0.09
    }
  ],
  "logging_steps": 10,
  "max_steps": 52,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}