{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9995795432403884,
  "eval_steps": 500,
  "global_step": 1523,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.000656322746710695,
      "grad_norm": 1.0,
      "learning_rate": 1.3071895424836602e-06,
      "loss": 2.0939,
      "step": 1
    },
    {
      "epoch": 0.003281613733553475,
      "grad_norm": 0.9765625,
      "learning_rate": 6.535947712418301e-06,
      "loss": 2.0618,
      "step": 5
    },
    {
      "epoch": 0.00656322746710695,
      "grad_norm": 0.91796875,
      "learning_rate": 1.3071895424836602e-05,
      "loss": 2.0432,
      "step": 10
    },
    {
      "epoch": 0.009844841200660424,
      "grad_norm": 0.71484375,
      "learning_rate": 1.9607843137254903e-05,
      "loss": 2.001,
      "step": 15
    },
    {
      "epoch": 0.0131264549342139,
      "grad_norm": 0.578125,
      "learning_rate": 2.6143790849673204e-05,
      "loss": 1.9571,
      "step": 20
    },
    {
      "epoch": 0.016408068667767374,
      "grad_norm": 0.5625,
      "learning_rate": 3.2679738562091506e-05,
      "loss": 1.8829,
      "step": 25
    },
    {
      "epoch": 0.019689682401320848,
      "grad_norm": 0.90234375,
      "learning_rate": 3.9215686274509805e-05,
      "loss": 1.8114,
      "step": 30
    },
    {
      "epoch": 0.022971296134874326,
      "grad_norm": 0.490234375,
      "learning_rate": 4.5751633986928104e-05,
      "loss": 1.6748,
      "step": 35
    },
    {
      "epoch": 0.0262529098684278,
      "grad_norm": 0.3828125,
      "learning_rate": 5.228758169934641e-05,
      "loss": 1.665,
      "step": 40
    },
    {
      "epoch": 0.029534523601981274,
      "grad_norm": 0.2099609375,
      "learning_rate": 5.882352941176471e-05,
      "loss": 1.6295,
      "step": 45
    },
    {
      "epoch": 0.03281613733553475,
      "grad_norm": 0.2314453125,
      "learning_rate": 6.535947712418301e-05,
      "loss": 1.6194,
      "step": 50
    },
    {
      "epoch": 0.036097751069088226,
      "grad_norm": 0.18359375,
      "learning_rate": 7.189542483660131e-05,
      "loss": 1.5773,
      "step": 55
    },
    {
      "epoch": 0.039379364802641696,
      "grad_norm": 0.140625,
      "learning_rate": 7.843137254901961e-05,
      "loss": 1.542,
      "step": 60
    },
    {
      "epoch": 0.042660978536195174,
      "grad_norm": 0.126953125,
      "learning_rate": 8.496732026143791e-05,
      "loss": 1.5303,
      "step": 65
    },
    {
      "epoch": 0.04594259226974865,
      "grad_norm": 0.1123046875,
      "learning_rate": 9.150326797385621e-05,
      "loss": 1.5031,
      "step": 70
    },
    {
      "epoch": 0.04922420600330212,
      "grad_norm": 0.10595703125,
      "learning_rate": 9.80392156862745e-05,
      "loss": 1.5177,
      "step": 75
    },
    {
      "epoch": 0.0525058197368556,
      "grad_norm": 0.09814453125,
      "learning_rate": 0.00010457516339869282,
      "loss": 1.5038,
      "step": 80
    },
    {
      "epoch": 0.05578743347040908,
      "grad_norm": 0.09130859375,
      "learning_rate": 0.00011111111111111112,
      "loss": 1.4847,
      "step": 85
    },
    {
      "epoch": 0.05906904720396255,
      "grad_norm": 0.0986328125,
      "learning_rate": 0.00011764705882352942,
      "loss": 1.5054,
      "step": 90
    },
    {
      "epoch": 0.062350660937516025,
      "grad_norm": 0.09912109375,
      "learning_rate": 0.00012418300653594771,
      "loss": 1.4672,
      "step": 95
    },
    {
      "epoch": 0.0656322746710695,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.00013071895424836603,
      "loss": 1.4626,
      "step": 100
    },
    {
      "epoch": 0.06891388840462297,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0001372549019607843,
      "loss": 1.451,
      "step": 105
    },
    {
      "epoch": 0.07219550213817645,
      "grad_norm": 0.111328125,
      "learning_rate": 0.00014379084967320262,
      "loss": 1.4631,
      "step": 110
    },
    {
      "epoch": 0.07547711587172992,
      "grad_norm": 0.10302734375,
      "learning_rate": 0.0001503267973856209,
      "loss": 1.4423,
      "step": 115
    },
    {
      "epoch": 0.07875872960528339,
      "grad_norm": 0.1064453125,
      "learning_rate": 0.00015686274509803922,
      "loss": 1.4301,
      "step": 120
    },
    {
      "epoch": 0.08204034333883688,
      "grad_norm": 0.1123046875,
      "learning_rate": 0.00016339869281045753,
      "loss": 1.4287,
      "step": 125
    },
    {
      "epoch": 0.08532195707239035,
      "grad_norm": 0.162109375,
      "learning_rate": 0.00016993464052287582,
      "loss": 1.4294,
      "step": 130
    },
    {
      "epoch": 0.08860357080594382,
      "grad_norm": 0.1240234375,
      "learning_rate": 0.00017647058823529413,
      "loss": 1.4201,
      "step": 135
    },
    {
      "epoch": 0.0918851845394973,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.00018300653594771241,
      "loss": 1.4044,
      "step": 140
    },
    {
      "epoch": 0.09516679827305077,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.00018954248366013073,
      "loss": 1.4114,
      "step": 145
    },
    {
      "epoch": 0.09844841200660424,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.000196078431372549,
      "loss": 1.3928,
      "step": 150
    },
    {
      "epoch": 0.10173002574015773,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0001999989483097553,
      "loss": 1.4054,
      "step": 155
    },
    {
      "epoch": 0.1050116394737112,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.00019998711704854725,
      "loss": 1.3996,
      "step": 160
    },
    {
      "epoch": 0.10829325320726467,
      "grad_norm": 0.15625,
      "learning_rate": 0.0001999621414738484,
      "loss": 1.4015,
      "step": 165
    },
    {
      "epoch": 0.11157486694081815,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0001999240248689495,
      "loss": 1.387,
      "step": 170
    },
    {
      "epoch": 0.11485648067437162,
      "grad_norm": 0.140625,
      "learning_rate": 0.00019987277224466215,
      "loss": 1.4057,
      "step": 175
    },
    {
      "epoch": 0.1181380944079251,
      "grad_norm": 0.142578125,
      "learning_rate": 0.00019980839033865994,
      "loss": 1.3844,
      "step": 180
    },
    {
      "epoch": 0.12141970814147857,
      "grad_norm": 0.146484375,
      "learning_rate": 0.00019973088761459287,
      "loss": 1.3654,
      "step": 185
    },
    {
      "epoch": 0.12470132187503205,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.00019964027426097448,
      "loss": 1.3632,
      "step": 190
    },
    {
      "epoch": 0.12798293560858554,
      "grad_norm": 0.154296875,
      "learning_rate": 0.00019953656218984263,
      "loss": 1.3982,
      "step": 195
    },
    {
      "epoch": 0.131264549342139,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0001994197650351936,
      "loss": 1.3842,
      "step": 200
    },
    {
      "epoch": 0.13454616307569248,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0001992898981511896,
      "loss": 1.3528,
      "step": 205
    },
    {
      "epoch": 0.13782777680924593,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0001991469786101404,
      "loss": 1.3811,
      "step": 210
    },
    {
      "epoch": 0.14110939054279942,
      "grad_norm": 0.162109375,
      "learning_rate": 0.00019899102520025896,
      "loss": 1.3594,
      "step": 215
    },
    {
      "epoch": 0.1443910042763529,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0001988220584231916,
      "loss": 1.3675,
      "step": 220
    },
    {
      "epoch": 0.14767261800990636,
      "grad_norm": 0.15234375,
      "learning_rate": 0.00019864010049132287,
      "loss": 1.3532,
      "step": 225
    },
    {
      "epoch": 0.15095423174345984,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0001984451753248553,
      "loss": 1.3672,
      "step": 230
    },
    {
      "epoch": 0.15423584547701333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0001982373085486651,
      "loss": 1.3553,
      "step": 235
    },
    {
      "epoch": 0.15751745921056678,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.00019801652748893347,
      "loss": 1.3303,
      "step": 240
    },
    {
      "epoch": 0.16079907294412027,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.00019778286116955407,
      "loss": 1.35,
      "step": 245
    },
    {
      "epoch": 0.16408068667767375,
      "grad_norm": 0.1484375,
      "learning_rate": 0.00019753634030831782,
      "loss": 1.3451,
      "step": 250
    },
    {
      "epoch": 0.1673623004112272,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.00019727699731287465,
      "loss": 1.3604,
      "step": 255
    },
    {
      "epoch": 0.1706439141447807,
      "grad_norm": 0.15625,
      "learning_rate": 0.00019700486627647305,
      "loss": 1.3418,
      "step": 260
    },
    {
      "epoch": 0.17392552787833418,
      "grad_norm": 0.171875,
      "learning_rate": 0.0001967199829734784,
      "loss": 1.3463,
      "step": 265
    },
    {
      "epoch": 0.17720714161188764,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.00019642238485466989,
      "loss": 1.357,
      "step": 270
    },
    {
      "epoch": 0.18048875534544112,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.00019611211104231724,
      "loss": 1.3678,
      "step": 275
    },
    {
      "epoch": 0.1837703690789946,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0001957892023250379,
      "loss": 1.3296,
      "step": 280
    },
    {
      "epoch": 0.18705198281254806,
      "grad_norm": 0.154296875,
      "learning_rate": 0.00019545370115243462,
      "loss": 1.3445,
      "step": 285
    },
    {
      "epoch": 0.19033359654610155,
      "grad_norm": 0.146484375,
      "learning_rate": 0.00019510565162951537,
      "loss": 1.3407,
      "step": 290
    },
    {
      "epoch": 0.19361521027965503,
      "grad_norm": 0.1484375,
      "learning_rate": 0.00019474509951089507,
      "loss": 1.3419,
      "step": 295
    },
    {
      "epoch": 0.1968968240132085,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.00019437209219478084,
      "loss": 1.349,
      "step": 300
    },
    {
      "epoch": 0.20017843774676197,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.00019398667871674082,
      "loss": 1.3282,
      "step": 305
    },
    {
      "epoch": 0.20346005148031546,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.00019358890974325817,
      "loss": 1.3115,
      "step": 310
    },
    {
      "epoch": 0.2067416652138689,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.00019317883756507026,
      "loss": 1.339,
      "step": 315
    },
    {
      "epoch": 0.2100232789474224,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0001927565160902948,
      "loss": 1.3186,
      "step": 320
    },
    {
      "epoch": 0.21330489268097588,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.00019232200083734265,
      "loss": 1.3434,
      "step": 325
    },
    {
      "epoch": 0.21658650641452934,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.00019187534892761986,
      "loss": 1.3186,
      "step": 330
    },
    {
      "epoch": 0.21986812014808282,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0001914166190780181,
      "loss": 1.3394,
      "step": 335
    },
    {
      "epoch": 0.2231497338816363,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.00019094587159319585,
      "loss": 1.317,
      "step": 340
    },
    {
      "epoch": 0.22643134761518977,
      "grad_norm": 0.142578125,
      "learning_rate": 0.00019046316835765083,
      "loss": 1.3344,
      "step": 345
    },
    {
      "epoch": 0.22971296134874325,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.00018996857282758462,
      "loss": 1.3402,
      "step": 350
    },
    {
      "epoch": 0.2329945750822967,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.00018946215002256061,
      "loss": 1.3396,
      "step": 355
    },
    {
      "epoch": 0.2362761888158502,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.00018894396651695662,
      "loss": 1.3289,
      "step": 360
    },
    {
      "epoch": 0.23955780254940368,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.00018841409043121306,
      "loss": 1.3274,
      "step": 365
    },
    {
      "epoch": 0.24283941628295713,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0001878725914228776,
      "loss": 1.3312,
      "step": 370
    },
    {
      "epoch": 0.24612103001651062,
      "grad_norm": 0.14453125,
      "learning_rate": 0.00018731954067744834,
      "loss": 1.3258,
      "step": 375
    },
    {
      "epoch": 0.2494026437500641,
      "grad_norm": 0.150390625,
      "learning_rate": 0.00018675501089901542,
      "loss": 1.3224,
      "step": 380
    },
    {
      "epoch": 0.25268425748361756,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.00018617907630070352,
      "loss": 1.3219,
      "step": 385
    },
    {
      "epoch": 0.25596587121717107,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.0001855918125949157,
      "loss": 1.3191,
      "step": 390
    },
    {
      "epoch": 0.2592474849507245,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.00018499329698338035,
      "loss": 1.3183,
      "step": 395
    },
    {
      "epoch": 0.262529098684278,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0001843836081470022,
      "loss": 1.3154,
      "step": 400
    },
    {
      "epoch": 0.2658107124178315,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0001837628262355188,
      "loss": 1.3131,
      "step": 405
    },
    {
      "epoch": 0.26909232615138495,
      "grad_norm": 0.14453125,
      "learning_rate": 0.00018313103285696425,
      "loss": 1.3211,
      "step": 410
    },
    {
      "epoch": 0.2723739398849384,
      "grad_norm": 0.150390625,
      "learning_rate": 0.00018248831106694086,
      "loss": 1.3082,
      "step": 415
    },
    {
      "epoch": 0.27565555361849187,
      "grad_norm": 0.15234375,
      "learning_rate": 0.00018183474535770068,
      "loss": 1.3046,
      "step": 420
    },
    {
      "epoch": 0.2789371673520454,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.00018117042164703814,
      "loss": 1.3026,
      "step": 425
    },
    {
      "epoch": 0.28221878108559884,
      "grad_norm": 0.1484375,
      "learning_rate": 0.00018049542726699533,
      "loss": 1.3265,
      "step": 430
    },
    {
      "epoch": 0.2855003948191523,
      "grad_norm": 0.142578125,
      "learning_rate": 0.00017980985095238124,
      "loss": 1.2958,
      "step": 435
    },
    {
      "epoch": 0.2887820085527058,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.00017911378282910675,
      "loss": 1.311,
      "step": 440
    },
    {
      "epoch": 0.29206362228625926,
      "grad_norm": 0.138671875,
      "learning_rate": 0.00017840731440233674,
      "loss": 1.3126,
      "step": 445
    },
    {
      "epoch": 0.2953452360198127,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.00017769053854446053,
      "loss": 1.303,
      "step": 450
    },
    {
      "epoch": 0.29862684975336623,
      "grad_norm": 0.1484375,
      "learning_rate": 0.00017696354948288327,
      "loss": 1.3106,
      "step": 455
    },
    {
      "epoch": 0.3019084634869197,
      "grad_norm": 0.14453125,
      "learning_rate": 0.00017622644278763843,
      "loss": 1.2993,
      "step": 460
    },
    {
      "epoch": 0.30519007722047314,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.00017547931535882445,
      "loss": 1.3031,
      "step": 465
    },
    {
      "epoch": 0.30847169095402666,
      "grad_norm": 0.134765625,
      "learning_rate": 0.000174722265413866,
      "loss": 1.3175,
      "step": 470
    },
    {
      "epoch": 0.3117533046875801,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0001739553924746025,
      "loss": 1.3086,
      "step": 475
    },
    {
      "epoch": 0.31503491842113357,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0001731787973542049,
      "loss": 1.3364,
      "step": 480
    },
    {
      "epoch": 0.3183165321546871,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0001723925821439227,
      "loss": 1.3103,
      "step": 485
    },
    {
      "epoch": 0.32159814588824054,
      "grad_norm": 0.13671875,
      "learning_rate": 0.00017159685019966316,
      "loss": 1.3312,
      "step": 490
    },
    {
      "epoch": 0.324879759621794,
      "grad_norm": 0.142578125,
      "learning_rate": 0.00017079170612840404,
      "loss": 1.3064,
      "step": 495
    },
    {
      "epoch": 0.3281613733553475,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.00016997725577444205,
      "loss": 1.3109,
      "step": 500
    },
    {
      "epoch": 0.33144298708890096,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0001691536062054783,
      "loss": 1.3083,
      "step": 505
    },
    {
      "epoch": 0.3347246008224544,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0001683208656985436,
      "loss": 1.2997,
      "step": 510
    },
    {
      "epoch": 0.33800621455600793,
      "grad_norm": 0.140625,
      "learning_rate": 0.00016747914372576393,
      "loss": 1.3161,
      "step": 515
    },
    {
      "epoch": 0.3412878282895614,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.00016662855093996945,
      "loss": 1.2811,
      "step": 520
    },
    {
      "epoch": 0.34456944202311485,
      "grad_norm": 0.14453125,
      "learning_rate": 0.00016576919916014808,
      "loss": 1.3146,
      "step": 525
    },
    {
      "epoch": 0.34785105575666836,
      "grad_norm": 0.13671875,
      "learning_rate": 0.00016490120135674566,
      "loss": 1.2922,
      "step": 530
    },
    {
      "epoch": 0.3511326694902218,
      "grad_norm": 0.146484375,
      "learning_rate": 0.00016402467163681493,
      "loss": 1.2962,
      "step": 535
    },
    {
      "epoch": 0.3544142832237753,
      "grad_norm": 0.138671875,
      "learning_rate": 0.00016313972522901491,
      "loss": 1.3008,
      "step": 540
    },
    {
      "epoch": 0.3576958969573288,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.00016224647846846315,
      "loss": 1.3042,
      "step": 545
    },
    {
      "epoch": 0.36097751069088224,
      "grad_norm": 0.134765625,
      "learning_rate": 0.00016134504878144204,
      "loss": 1.2876,
      "step": 550
    },
    {
      "epoch": 0.3642591244244357,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.00016043555466996206,
      "loss": 1.3086,
      "step": 555
    },
    {
      "epoch": 0.3675407381579892,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0001595181156961836,
      "loss": 1.2894,
      "step": 560
    },
    {
      "epoch": 0.37082235189154267,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.00015859285246669913,
      "loss": 1.2933,
      "step": 565
    },
    {
      "epoch": 0.3741039656250961,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.00015765988661667834,
      "loss": 1.2885,
      "step": 570
    },
    {
      "epoch": 0.37738557935864964,
      "grad_norm": 0.150390625,
      "learning_rate": 0.00015671934079387797,
      "loss": 1.2719,
      "step": 575
    },
    {
      "epoch": 0.3806671930922031,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.00015577133864251848,
      "loss": 1.3012,
      "step": 580
    },
    {
      "epoch": 0.38394880682575655,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.00015481600478702996,
      "loss": 1.3046,
      "step": 585
    },
    {
      "epoch": 0.38723042055931006,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0001538534648156686,
      "loss": 1.3017,
      "step": 590
    },
    {
      "epoch": 0.3905120342928635,
      "grad_norm": 0.13671875,
      "learning_rate": 0.00015288384526400734,
      "loss": 1.307,
      "step": 595
    },
    {
      "epoch": 0.393793648026417,
      "grad_norm": 0.134765625,
      "learning_rate": 0.00015190727359830109,
      "loss": 1.2755,
      "step": 600
    },
    {
      "epoch": 0.3970752617599705,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.00015092387819873014,
      "loss": 1.2961,
      "step": 605
    },
    {
      "epoch": 0.40035687549352394,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0001499337883425235,
      "loss": 1.2989,
      "step": 610
    },
    {
      "epoch": 0.4036384892270774,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0001489371341869638,
      "loss": 1.2897,
      "step": 615
    },
    {
      "epoch": 0.4069201029606309,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.00014793404675227684,
      "loss": 1.3068,
      "step": 620
    },
    {
      "epoch": 0.41020171669418437,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.00014692465790440792,
      "loss": 1.28,
      "step": 625
    },
    {
      "epoch": 0.4134833304277378,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0001459091003376865,
      "loss": 1.274,
      "step": 630
    },
    {
      "epoch": 0.41676494416129134,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.00014488750755738223,
      "loss": 1.3007,
      "step": 635
    },
    {
      "epoch": 0.4200465578948448,
      "grad_norm": 0.14453125,
      "learning_rate": 0.00014386001386215434,
      "loss": 1.2852,
      "step": 640
    },
    {
      "epoch": 0.42332817162839825,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0001428267543263969,
      "loss": 1.2861,
      "step": 645
    },
    {
      "epoch": 0.42660978536195177,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.00014178786478248162,
      "loss": 1.2873,
      "step": 650
    },
    {
      "epoch": 0.4298913990955052,
      "grad_norm": 0.140625,
      "learning_rate": 0.0001407434818029015,
      "loss": 1.283,
      "step": 655
    },
    {
      "epoch": 0.4331730128290587,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.00013969374268231713,
      "loss": 1.2828,
      "step": 660
    },
    {
      "epoch": 0.4364546265626122,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0001386387854195076,
      "loss": 1.2577,
      "step": 665
    },
    {
      "epoch": 0.43973624029616565,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0001375787486992294,
      "loss": 1.3003,
      "step": 670
    },
    {
      "epoch": 0.4430178540297191,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.00013651377187398492,
      "loss": 1.2879,
      "step": 675
    },
    {
      "epoch": 0.4462994677632726,
      "grad_norm": 0.140625,
      "learning_rate": 0.00013544399494570307,
      "loss": 1.2947,
      "step": 680
    },
    {
      "epoch": 0.4495810814968261,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0001343695585473346,
      "loss": 1.263,
      "step": 685
    },
    {
      "epoch": 0.45286269523037953,
      "grad_norm": 0.1328125,
      "learning_rate": 0.00013329060392436456,
      "loss": 1.2842,
      "step": 690
    },
    {
      "epoch": 0.456144308963933,
      "grad_norm": 0.14453125,
      "learning_rate": 0.00013220727291624415,
      "loss": 1.2789,
      "step": 695
    },
    {
      "epoch": 0.4594259226974865,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.00013111970793774439,
      "loss": 1.2638,
      "step": 700
    },
    {
      "epoch": 0.46270753643103996,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.00013002805196023448,
      "loss": 1.2978,
      "step": 705
    },
    {
      "epoch": 0.4659891501645934,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0001289324484928865,
      "loss": 1.2863,
      "step": 710
    },
    {
      "epoch": 0.4692707638981469,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.0001278330415638099,
      "loss": 1.2774,
      "step": 715
    },
    {
      "epoch": 0.4725523776317004,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0001267299757011175,
      "loss": 1.2741,
      "step": 720
    },
    {
      "epoch": 0.47583399136525384,
      "grad_norm": 0.1328125,
      "learning_rate": 0.00012562339591392572,
      "loss": 1.2904,
      "step": 725
    },
    {
      "epoch": 0.47911560509880735,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.00012451344767329178,
      "loss": 1.2737,
      "step": 730
    },
    {
      "epoch": 0.4823972188323608,
      "grad_norm": 0.140625,
      "learning_rate": 0.00012340027689309,
      "loss": 1.2958,
      "step": 735
    },
    {
      "epoch": 0.48567883256591426,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0001222840299108301,
      "loss": 1.2914,
      "step": 740
    },
    {
      "epoch": 0.4889604462994678,
      "grad_norm": 0.1435546875,
      "learning_rate": 0.0001211648534684194,
      "loss": 1.3006,
      "step": 745
    },
    {
      "epoch": 0.49224206003302123,
      "grad_norm": 0.134765625,
      "learning_rate": 0.00012004289469287229,
      "loss": 1.2698,
      "step": 750
    },
    {
      "epoch": 0.4955236737665747,
      "grad_norm": 0.146484375,
      "learning_rate": 0.00011891830107696891,
      "loss": 1.2954,
      "step": 755
    },
    {
      "epoch": 0.4988052875001282,
      "grad_norm": 0.138671875,
      "learning_rate": 0.00011779122045986567,
      "loss": 1.2682,
      "step": 760
    },
    {
      "epoch": 0.5020869012336817,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.00011666180100766036,
      "loss": 1.2779,
      "step": 765
    },
    {
      "epoch": 0.5053685149672351,
      "grad_norm": 0.1318359375,
      "learning_rate": 0.00011553019119391412,
      "loss": 1.2848,
      "step": 770
    },
    {
      "epoch": 0.5086501287007886,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.00011439653978013334,
      "loss": 1.2788,
      "step": 775
    },
    {
      "epoch": 0.5119317424343421,
      "grad_norm": 0.146484375,
      "learning_rate": 0.0001132609957962131,
      "loss": 1.2696,
      "step": 780
    },
    {
      "epoch": 0.5152133561678955,
      "grad_norm": 0.1337890625,
      "learning_rate": 0.00011212370852084603,
      "loss": 1.272,
      "step": 785
    },
    {
      "epoch": 0.518494969901449,
      "grad_norm": 0.13671875,
      "learning_rate": 0.00011098482746189786,
      "loss": 1.2893,
      "step": 790
    },
    {
      "epoch": 0.5217765836350026,
      "grad_norm": 0.138671875,
      "learning_rate": 0.00010984450233675334,
      "loss": 1.2761,
      "step": 795
    },
    {
      "epoch": 0.525058197368556,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0001087028830526342,
      "loss": 1.2472,
      "step": 800
    },
    {
      "epoch": 0.5283398111021095,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.00010756011968689242,
      "loss": 1.2683,
      "step": 805
    },
    {
      "epoch": 0.531621424835663,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.00010641636246728095,
      "loss": 1.2535,
      "step": 810
    },
    {
      "epoch": 0.5349030385692164,
      "grad_norm": 0.134765625,
      "learning_rate": 0.00010527176175220499,
      "loss": 1.2508,
      "step": 815
    },
    {
      "epoch": 0.5381846523027699,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0001041264680109556,
      "loss": 1.2801,
      "step": 820
    },
    {
      "epoch": 0.5414662660363233,
      "grad_norm": 0.142578125,
      "learning_rate": 0.00010298063180392917,
      "loss": 1.2661,
      "step": 825
    },
    {
      "epoch": 0.5447478797698768,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0001018344037628346,
      "loss": 1.2817,
      "step": 830
    },
    {
      "epoch": 0.5480294935034303,
      "grad_norm": 0.134765625,
      "learning_rate": 0.00010068793457089141,
      "loss": 1.2881,
      "step": 835
    },
    {
      "epoch": 0.5513111072369837,
      "grad_norm": 0.134765625,
      "learning_rate": 9.954137494302079e-05,
      "loss": 1.2755,
      "step": 840
    },
    {
      "epoch": 0.5545927209705372,
      "grad_norm": 0.1396484375,
      "learning_rate": 9.839487560603266e-05,
      "loss": 1.2741,
      "step": 845
    },
    {
      "epoch": 0.5578743347040908,
      "grad_norm": 0.1357421875,
      "learning_rate": 9.724858727881107e-05,
      "loss": 1.304,
      "step": 850
    },
    {
      "epoch": 0.5611559484376442,
      "grad_norm": 0.13671875,
      "learning_rate": 9.610266065250077e-05,
      "loss": 1.2742,
      "step": 855
    },
    {
      "epoch": 0.5644375621711977,
      "grad_norm": 0.13671875,
      "learning_rate": 9.495724637069718e-05,
      "loss": 1.2988,
      "step": 860
    },
    {
      "epoch": 0.5677191759047512,
      "grad_norm": 0.1337890625,
      "learning_rate": 9.381249500964294e-05,
      "loss": 1.2753,
      "step": 865
    },
    {
      "epoch": 0.5710007896383046,
      "grad_norm": 0.1376953125,
      "learning_rate": 9.266855705843309e-05,
      "loss": 1.273,
      "step": 870
    },
    {
      "epoch": 0.5742824033718581,
      "grad_norm": 0.13671875,
      "learning_rate": 9.152558289923177e-05,
      "loss": 1.2702,
      "step": 875
    },
    {
      "epoch": 0.5775640171054116,
      "grad_norm": 0.1396484375,
      "learning_rate": 9.038372278750287e-05,
      "loss": 1.2854,
      "step": 880
    },
    {
      "epoch": 0.580845630838965,
      "grad_norm": 0.140625,
      "learning_rate": 8.92431268322576e-05,
      "loss": 1.285,
      "step": 885
    },
    {
      "epoch": 0.5841272445725185,
      "grad_norm": 0.1318359375,
      "learning_rate": 8.810394497632102e-05,
      "loss": 1.2743,
      "step": 890
    },
    {
      "epoch": 0.587408858306072,
      "grad_norm": 0.142578125,
      "learning_rate": 8.696632697662063e-05,
      "loss": 1.2741,
      "step": 895
    },
    {
      "epoch": 0.5906904720396254,
      "grad_norm": 0.13671875,
      "learning_rate": 8.58304223844993e-05,
      "loss": 1.2847,
      "step": 900
    },
    {
      "epoch": 0.593972085773179,
      "grad_norm": 0.1376953125,
      "learning_rate": 8.469638052605513e-05,
      "loss": 1.2753,
      "step": 905
    },
    {
      "epoch": 0.5972536995067325,
      "grad_norm": 0.138671875,
      "learning_rate": 8.356435048251126e-05,
      "loss": 1.2679,
      "step": 910
    },
    {
      "epoch": 0.6005353132402859,
      "grad_norm": 0.1650390625,
      "learning_rate": 8.243448107061729e-05,
      "loss": 1.2631,
      "step": 915
    },
    {
      "epoch": 0.6038169269738394,
      "grad_norm": 0.134765625,
      "learning_rate": 8.130692082308624e-05,
      "loss": 1.2655,
      "step": 920
    },
    {
      "epoch": 0.6070985407073929,
      "grad_norm": 0.130859375,
      "learning_rate": 8.01818179690681e-05,
      "loss": 1.3186,
      "step": 925
    },
    {
      "epoch": 0.6103801544409463,
      "grad_norm": 0.1337890625,
      "learning_rate": 7.90593204146638e-05,
      "loss": 1.2895,
      "step": 930
    },
    {
      "epoch": 0.6136617681744998,
      "grad_norm": 0.1337890625,
      "learning_rate": 7.793957572348131e-05,
      "loss": 1.2751,
      "step": 935
    },
    {
      "epoch": 0.6169433819080533,
      "grad_norm": 0.13671875,
      "learning_rate": 7.682273109723712e-05,
      "loss": 1.2663,
      "step": 940
    },
    {
      "epoch": 0.6202249956416067,
      "grad_norm": 0.1357421875,
      "learning_rate": 7.570893335640487e-05,
      "loss": 1.2706,
      "step": 945
    },
    {
      "epoch": 0.6235066093751602,
      "grad_norm": 0.13671875,
      "learning_rate": 7.459832892091455e-05,
      "loss": 1.2638,
      "step": 950
    },
    {
      "epoch": 0.6267882231087137,
      "grad_norm": 0.134765625,
      "learning_rate": 7.349106379090381e-05,
      "loss": 1.275,
      "step": 955
    },
    {
      "epoch": 0.6300698368422671,
      "grad_norm": 0.1328125,
      "learning_rate": 7.23872835275252e-05,
      "loss": 1.272,
      "step": 960
    },
    {
      "epoch": 0.6333514505758207,
      "grad_norm": 0.1337890625,
      "learning_rate": 7.128713323381032e-05,
      "loss": 1.2768,
      "step": 965
    },
    {
      "epoch": 0.6366330643093742,
      "grad_norm": 0.1318359375,
      "learning_rate": 7.019075753559468e-05,
      "loss": 1.2743,
      "step": 970
    },
    {
      "epoch": 0.6399146780429276,
      "grad_norm": 0.13671875,
      "learning_rate": 6.909830056250527e-05,
      "loss": 1.2707,
      "step": 975
    },
    {
      "epoch": 0.6431962917764811,
      "grad_norm": 0.1337890625,
      "learning_rate": 6.800990592901315e-05,
      "loss": 1.2844,
      "step": 980
    },
    {
      "epoch": 0.6464779055100346,
      "grad_norm": 0.1376953125,
      "learning_rate": 6.692571671555398e-05,
      "loss": 1.264,
      "step": 985
    },
    {
      "epoch": 0.649759519243588,
      "grad_norm": 0.1435546875,
      "learning_rate": 6.584587544971854e-05,
      "loss": 1.2481,
      "step": 990
    },
    {
      "epoch": 0.6530411329771415,
      "grad_norm": 0.130859375,
      "learning_rate": 6.477052408751616e-05,
      "loss": 1.2738,
      "step": 995
    },
    {
      "epoch": 0.656322746710695,
      "grad_norm": 0.1337890625,
      "learning_rate": 6.369980399471306e-05,
      "loss": 1.2806,
      "step": 1000
    },
    {
      "epoch": 0.6596043604442484,
      "grad_norm": 0.13671875,
      "learning_rate": 6.263385592824857e-05,
      "loss": 1.2911,
      "step": 1005
    },
    {
      "epoch": 0.6628859741778019,
      "grad_norm": 0.134765625,
      "learning_rate": 6.157282001773095e-05,
      "loss": 1.2794,
      "step": 1010
    },
    {
      "epoch": 0.6661675879113554,
      "grad_norm": 0.134765625,
      "learning_rate": 6.051683574701616e-05,
      "loss": 1.2664,
      "step": 1015
    },
    {
      "epoch": 0.6694492016449088,
      "grad_norm": 0.142578125,
      "learning_rate": 5.946604193587134e-05,
      "loss": 1.2674,
      "step": 1020
    },
    {
      "epoch": 0.6727308153784624,
      "grad_norm": 0.1357421875,
      "learning_rate": 5.842057672172525e-05,
      "loss": 1.2696,
      "step": 1025
    },
    {
      "epoch": 0.6760124291120159,
      "grad_norm": 0.138671875,
      "learning_rate": 5.738057754150905e-05,
      "loss": 1.2657,
      "step": 1030
    },
    {
      "epoch": 0.6792940428455693,
      "grad_norm": 0.1318359375,
      "learning_rate": 5.634618111358865e-05,
      "loss": 1.2726,
      "step": 1035
    },
    {
      "epoch": 0.6825756565791228,
      "grad_norm": 0.134765625,
      "learning_rate": 5.531752341979173e-05,
      "loss": 1.2842,
      "step": 1040
    },
    {
      "epoch": 0.6858572703126763,
      "grad_norm": 0.134765625,
      "learning_rate": 5.429473968753157e-05,
      "loss": 1.265,
      "step": 1045
    },
    {
      "epoch": 0.6891388840462297,
      "grad_norm": 0.13671875,
      "learning_rate": 5.327796437203019e-05,
      "loss": 1.2795,
      "step": 1050
    },
    {
      "epoch": 0.6924204977797832,
      "grad_norm": 0.1328125,
      "learning_rate": 5.226733113864242e-05,
      "loss": 1.2817,
      "step": 1055
    },
    {
      "epoch": 0.6957021115133367,
      "grad_norm": 0.13671875,
      "learning_rate": 5.126297284528485e-05,
      "loss": 1.2538,
      "step": 1060
    },
    {
      "epoch": 0.6989837252468901,
      "grad_norm": 0.1416015625,
      "learning_rate": 5.0265021524969857e-05,
      "loss": 1.2608,
      "step": 1065
    },
    {
      "epoch": 0.7022653389804436,
      "grad_norm": 0.1318359375,
      "learning_rate": 4.927360836844868e-05,
      "loss": 1.2743,
      "step": 1070
    },
    {
      "epoch": 0.7055469527139971,
      "grad_norm": 0.1357421875,
      "learning_rate": 4.82888637069651e-05,
      "loss": 1.2725,
      "step": 1075
    },
    {
      "epoch": 0.7088285664475505,
      "grad_norm": 0.1328125,
      "learning_rate": 4.731091699512215e-05,
      "loss": 1.2578,
      "step": 1080
    },
    {
      "epoch": 0.7121101801811041,
      "grad_norm": 0.1357421875,
      "learning_rate": 4.6339896793863804e-05,
      "loss": 1.2784,
      "step": 1085
    },
    {
      "epoch": 0.7153917939146576,
      "grad_norm": 0.13671875,
      "learning_rate": 4.537593075357451e-05,
      "loss": 1.2708,
      "step": 1090
    },
    {
      "epoch": 0.718673407648211,
      "grad_norm": 0.13671875,
      "learning_rate": 4.441914559729825e-05,
      "loss": 1.2797,
      "step": 1095
    },
    {
      "epoch": 0.7219550213817645,
      "grad_norm": 0.13671875,
      "learning_rate": 4.346966710407937e-05,
      "loss": 1.3013,
      "step": 1100
    },
    {
      "epoch": 0.725236635115318,
      "grad_norm": 0.134765625,
      "learning_rate": 4.2527620092428e-05,
      "loss": 1.2535,
      "step": 1105
    },
    {
      "epoch": 0.7285182488488714,
      "grad_norm": 0.1337890625,
      "learning_rate": 4.159312840391086e-05,
      "loss": 1.2779,
      "step": 1110
    },
    {
      "epoch": 0.7317998625824249,
      "grad_norm": 0.134765625,
      "learning_rate": 4.066631488687166e-05,
      "loss": 1.2659,
      "step": 1115
    },
    {
      "epoch": 0.7350814763159784,
      "grad_norm": 0.1337890625,
      "learning_rate": 3.974730138028095e-05,
      "loss": 1.2653,
      "step": 1120
    },
    {
      "epoch": 0.7383630900495318,
      "grad_norm": 0.130859375,
      "learning_rate": 3.883620869771943e-05,
      "loss": 1.2735,
      "step": 1125
    },
    {
      "epoch": 0.7416447037830853,
      "grad_norm": 0.134765625,
      "learning_rate": 3.79331566114957e-05,
      "loss": 1.2653,
      "step": 1130
    },
    {
      "epoch": 0.7449263175166388,
      "grad_norm": 0.134765625,
      "learning_rate": 3.703826383690099e-05,
      "loss": 1.262,
      "step": 1135
    },
    {
      "epoch": 0.7482079312501922,
      "grad_norm": 0.1328125,
      "learning_rate": 3.6151648016602794e-05,
      "loss": 1.2491,
      "step": 1140
    },
    {
      "epoch": 0.7514895449837458,
      "grad_norm": 0.1357421875,
      "learning_rate": 3.527342570517975e-05,
      "loss": 1.2551,
      "step": 1145
    },
    {
      "epoch": 0.7547711587172993,
      "grad_norm": 0.1328125,
      "learning_rate": 3.44037123537991e-05,
      "loss": 1.2605,
      "step": 1150
    },
    {
      "epoch": 0.7580527724508527,
      "grad_norm": 0.134765625,
      "learning_rate": 3.3542622295039593e-05,
      "loss": 1.2621,
      "step": 1155
    },
    {
      "epoch": 0.7613343861844062,
      "grad_norm": 0.12890625,
      "learning_rate": 3.269026872786145e-05,
      "loss": 1.2798,
      "step": 1160
    },
    {
      "epoch": 0.7646159999179597,
      "grad_norm": 0.1318359375,
      "learning_rate": 3.184676370272488e-05,
      "loss": 1.2823,
      "step": 1165
    },
    {
      "epoch": 0.7678976136515131,
      "grad_norm": 0.1318359375,
      "learning_rate": 3.1012218106860345e-05,
      "loss": 1.284,
      "step": 1170
    },
    {
      "epoch": 0.7711792273850666,
      "grad_norm": 0.1357421875,
      "learning_rate": 3.0186741649690963e-05,
      "loss": 1.2825,
      "step": 1175
    },
    {
      "epoch": 0.7744608411186201,
      "grad_norm": 0.1337890625,
      "learning_rate": 2.937044284841026e-05,
      "loss": 1.2561,
      "step": 1180
    },
    {
      "epoch": 0.7777424548521735,
      "grad_norm": 0.1337890625,
      "learning_rate": 2.8563429013716514e-05,
      "loss": 1.2587,
      "step": 1185
    },
    {
      "epoch": 0.781024068585727,
      "grad_norm": 0.1328125,
      "learning_rate": 2.7765806235705594e-05,
      "loss": 1.2545,
      "step": 1190
    },
    {
      "epoch": 0.7843056823192806,
      "grad_norm": 0.1337890625,
      "learning_rate": 2.6977679369924357e-05,
      "loss": 1.2553,
      "step": 1195
    },
    {
      "epoch": 0.787587296052834,
      "grad_norm": 0.1337890625,
      "learning_rate": 2.6199152023586503e-05,
      "loss": 1.2713,
      "step": 1200
    },
    {
      "epoch": 0.7908689097863875,
      "grad_norm": 0.1318359375,
      "learning_rate": 2.5430326541952087e-05,
      "loss": 1.2593,
      "step": 1205
    },
    {
      "epoch": 0.794150523519941,
      "grad_norm": 0.13671875,
      "learning_rate": 2.4671303994873373e-05,
      "loss": 1.2509,
      "step": 1210
    },
    {
      "epoch": 0.7974321372534944,
      "grad_norm": 0.1328125,
      "learning_rate": 2.3922184163508254e-05,
      "loss": 1.2682,
      "step": 1215
    },
    {
      "epoch": 0.8007137509870479,
      "grad_norm": 0.134765625,
      "learning_rate": 2.3183065527202718e-05,
      "loss": 1.2596,
      "step": 1220
    },
    {
      "epoch": 0.8039953647206014,
      "grad_norm": 0.1337890625,
      "learning_rate": 2.245404525054515e-05,
      "loss": 1.2634,
      "step": 1225
    },
    {
      "epoch": 0.8072769784541548,
      "grad_norm": 0.130859375,
      "learning_rate": 2.1735219170592734e-05,
      "loss": 1.2717,
      "step": 1230
    },
    {
      "epoch": 0.8105585921877083,
      "grad_norm": 0.1357421875,
      "learning_rate": 2.1026681784272872e-05,
      "loss": 1.2607,
      "step": 1235
    },
    {
      "epoch": 0.8138402059212618,
      "grad_norm": 0.1337890625,
      "learning_rate": 2.0328526235960565e-05,
      "loss": 1.2733,
      "step": 1240
    },
    {
      "epoch": 0.8171218196548152,
      "grad_norm": 0.1318359375,
      "learning_rate": 1.9640844305233642e-05,
      "loss": 1.2696,
      "step": 1245
    },
    {
      "epoch": 0.8204034333883687,
      "grad_norm": 0.1318359375,
      "learning_rate": 1.8963726394807424e-05,
      "loss": 1.2779,
      "step": 1250
    },
    {
      "epoch": 0.8236850471219223,
      "grad_norm": 0.1328125,
      "learning_rate": 1.8297261518650456e-05,
      "loss": 1.2668,
      "step": 1255
    },
    {
      "epoch": 0.8269666608554757,
      "grad_norm": 0.130859375,
      "learning_rate": 1.7641537290282472e-05,
      "loss": 1.2646,
      "step": 1260
    },
    {
      "epoch": 0.8302482745890292,
      "grad_norm": 0.130859375,
      "learning_rate": 1.699663991125705e-05,
      "loss": 1.2696,
      "step": 1265
    },
    {
      "epoch": 0.8335298883225827,
      "grad_norm": 0.12890625,
      "learning_rate": 1.636265415982936e-05,
      "loss": 1.2604,
      "step": 1270
    },
    {
      "epoch": 0.8368115020561361,
      "grad_norm": 0.1328125,
      "learning_rate": 1.5739663379811122e-05,
      "loss": 1.2664,
      "step": 1275
    },
    {
      "epoch": 0.8400931157896896,
      "grad_norm": 0.130859375,
      "learning_rate": 1.512774946961445e-05,
      "loss": 1.2804,
      "step": 1280
    },
    {
      "epoch": 0.8433747295232431,
      "grad_norm": 0.1337890625,
      "learning_rate": 1.4526992871485345e-05,
      "loss": 1.2641,
      "step": 1285
    },
    {
      "epoch": 0.8466563432567965,
      "grad_norm": 0.1298828125,
      "learning_rate": 1.3937472560928733e-05,
      "loss": 1.2795,
      "step": 1290
    },
    {
      "epoch": 0.84993795699035,
      "grad_norm": 0.1318359375,
      "learning_rate": 1.3359266036326412e-05,
      "loss": 1.2659,
      "step": 1295
    },
    {
      "epoch": 0.8532195707239035,
      "grad_norm": 0.1337890625,
      "learning_rate": 1.2792449308749076e-05,
      "loss": 1.2643,
      "step": 1300
    },
    {
      "epoch": 0.8565011844574569,
      "grad_norm": 0.1298828125,
      "learning_rate": 1.2237096891963862e-05,
      "loss": 1.2812,
      "step": 1305
    },
    {
      "epoch": 0.8597827981910104,
      "grad_norm": 0.1298828125,
      "learning_rate": 1.1693281792638877e-05,
      "loss": 1.2669,
      "step": 1310
    },
    {
      "epoch": 0.863064411924564,
      "grad_norm": 0.1298828125,
      "learning_rate": 1.1161075500745543e-05,
      "loss": 1.2734,
      "step": 1315
    },
    {
      "epoch": 0.8663460256581174,
      "grad_norm": 0.1318359375,
      "learning_rate": 1.0640547980160742e-05,
      "loss": 1.2607,
      "step": 1320
    },
    {
      "epoch": 0.8696276393916709,
      "grad_norm": 0.1298828125,
      "learning_rate": 1.0131767659469205e-05,
      "loss": 1.2717,
      "step": 1325
    },
    {
      "epoch": 0.8729092531252244,
      "grad_norm": 0.1376953125,
      "learning_rate": 9.634801422967887e-06,
      "loss": 1.2767,
      "step": 1330
    },
    {
      "epoch": 0.8761908668587778,
      "grad_norm": 0.1337890625,
      "learning_rate": 9.149714601873516e-06,
      "loss": 1.274,
      "step": 1335
    },
    {
      "epoch": 0.8794724805923313,
      "grad_norm": 0.1328125,
      "learning_rate": 8.67657096573391e-06,
      "loss": 1.2553,
      "step": 1340
    },
    {
      "epoch": 0.8827540943258848,
      "grad_norm": 0.1279296875,
      "learning_rate": 8.215432714045024e-06,
      "loss": 1.2758,
      "step": 1345
    },
    {
      "epoch": 0.8860357080594382,
      "grad_norm": 0.1279296875,
      "learning_rate": 7.766360468074074e-06,
      "loss": 1.288,
      "step": 1350
    },
    {
      "epoch": 0.8893173217929917,
      "grad_norm": 0.1318359375,
      "learning_rate": 7.32941326289035e-06,
      "loss": 1.2421,
      "step": 1355
    },
    {
      "epoch": 0.8925989355265452,
      "grad_norm": 0.130859375,
      "learning_rate": 6.904648539604364e-06,
      "loss": 1.2517,
      "step": 1360
    },
    {
      "epoch": 0.8958805492600986,
      "grad_norm": 0.1328125,
      "learning_rate": 6.4921221378167915e-06,
      "loss": 1.2712,
      "step": 1365
    },
    {
      "epoch": 0.8991621629936521,
      "grad_norm": 0.12890625,
      "learning_rate": 6.091888288277569e-06,
      "loss": 1.264,
      "step": 1370
    },
    {
      "epoch": 0.9024437767272055,
      "grad_norm": 0.1328125,
      "learning_rate": 5.70399960575696e-06,
      "loss": 1.2713,
      "step": 1375
    },
    {
      "epoch": 0.9057253904607591,
      "grad_norm": 0.1337890625,
      "learning_rate": 5.328507082128642e-06,
      "loss": 1.272,
      "step": 1380
    },
    {
      "epoch": 0.9090070041943126,
      "grad_norm": 0.12890625,
      "learning_rate": 4.965460079666362e-06,
      "loss": 1.2672,
      "step": 1385
    },
    {
      "epoch": 0.912288617927866,
      "grad_norm": 0.1298828125,
      "learning_rate": 4.61490632455478e-06,
      "loss": 1.2732,
      "step": 1390
    },
    {
      "epoch": 0.9155702316614195,
      "grad_norm": 0.130859375,
      "learning_rate": 4.2768919006153876e-06,
      "loss": 1.2467,
      "step": 1395
    },
    {
      "epoch": 0.918851845394973,
      "grad_norm": 0.1328125,
      "learning_rate": 3.951461243248311e-06,
      "loss": 1.2634,
      "step": 1400
    },
    {
      "epoch": 0.9221334591285264,
      "grad_norm": 0.130859375,
      "learning_rate": 3.638657133590817e-06,
      "loss": 1.2571,
      "step": 1405
    },
    {
      "epoch": 0.9254150728620799,
      "grad_norm": 0.134765625,
      "learning_rate": 3.3385206928933097e-06,
      "loss": 1.2528,
      "step": 1410
    },
    {
      "epoch": 0.9286966865956334,
      "grad_norm": 0.130859375,
      "learning_rate": 3.0510913771135463e-06,
      "loss": 1.2647,
      "step": 1415
    },
    {
      "epoch": 0.9319783003291868,
      "grad_norm": 0.1337890625,
      "learning_rate": 2.7764069717297724e-06,
      "loss": 1.2769,
      "step": 1420
    },
    {
      "epoch": 0.9352599140627403,
      "grad_norm": 0.1318359375,
      "learning_rate": 2.5145035867733312e-06,
      "loss": 1.2616,
      "step": 1425
    },
    {
      "epoch": 0.9385415277962939,
      "grad_norm": 0.1357421875,
      "learning_rate": 2.265415652081804e-06,
      "loss": 1.2698,
      "step": 1430
    },
    {
      "epoch": 0.9418231415298473,
      "grad_norm": 0.1337890625,
      "learning_rate": 2.0291759127727294e-06,
      "loss": 1.2415,
      "step": 1435
    },
    {
      "epoch": 0.9451047552634008,
      "grad_norm": 0.1279296875,
      "learning_rate": 1.8058154249389502e-06,
      "loss": 1.2907,
      "step": 1440
    },
    {
      "epoch": 0.9483863689969543,
      "grad_norm": 0.130859375,
      "learning_rate": 1.5953635515660425e-06,
      "loss": 1.2786,
      "step": 1445
    },
    {
      "epoch": 0.9516679827305077,
      "grad_norm": 0.1337890625,
      "learning_rate": 1.3978479586721716e-06,
      "loss": 1.2634,
      "step": 1450
    },
    {
      "epoch": 0.9549495964640612,
      "grad_norm": 0.1337890625,
      "learning_rate": 1.2132946116711897e-06,
      "loss": 1.2866,
      "step": 1455
    },
    {
      "epoch": 0.9582312101976147,
      "grad_norm": 0.12890625,
      "learning_rate": 1.0417277719591667e-06,
      "loss": 1.2671,
      "step": 1460
    },
    {
      "epoch": 0.9615128239311681,
      "grad_norm": 0.1328125,
      "learning_rate": 8.831699937249859e-07,
      "loss": 1.251,
      "step": 1465
    },
    {
      "epoch": 0.9647944376647216,
      "grad_norm": 0.1318359375,
      "learning_rate": 7.376421209854267e-07,
      "loss": 1.2793,
      "step": 1470
    },
    {
      "epoch": 0.9680760513982751,
      "grad_norm": 0.126953125,
      "learning_rate": 6.051632848449562e-07,
      "loss": 1.2684,
      "step": 1475
    },
    {
      "epoch": 0.9713576651318285,
      "grad_norm": 0.1318359375,
      "learning_rate": 4.857509009807304e-07,
      "loss": 1.2605,
      "step": 1480
    },
    {
      "epoch": 0.974639278865382,
      "grad_norm": 0.130859375,
      "learning_rate": 3.7942066735321414e-07,
      "loss": 1.2608,
      "step": 1485
    },
    {
      "epoch": 0.9779208925989356,
      "grad_norm": 0.1318359375,
      "learning_rate": 2.861865621424431e-07,
      "loss": 1.2735,
      "step": 1490
    },
    {
      "epoch": 0.981202506332489,
      "grad_norm": 0.130859375,
      "learning_rate": 2.060608419105048e-07,
      "loss": 1.2788,
      "step": 1495
    },
    {
      "epoch": 0.9844841200660425,
      "grad_norm": 0.2451171875,
      "learning_rate": 1.3905403999024957e-07,
      "loss": 1.264,
      "step": 1500
    },
    {
      "epoch": 0.987765733799596,
      "grad_norm": 0.130859375,
      "learning_rate": 8.517496510059841e-08,
      "loss": 1.2673,
      "step": 1505
    },
    {
      "epoch": 0.9910473475331494,
      "grad_norm": 0.12890625,
      "learning_rate": 4.4430700188569095e-08,
      "loss": 1.2753,
      "step": 1510
    },
    {
      "epoch": 0.9943289612667029,
      "grad_norm": 0.130859375,
      "learning_rate": 1.6826601498098894e-08,
      "loss": 1.2567,
      "step": 1515
    },
    {
      "epoch": 0.9976105750002564,
      "grad_norm": 0.1337890625,
      "learning_rate": 2.3662978659633183e-09,
      "loss": 1.2568,
      "step": 1520
    },
    {
      "epoch": 0.9995795432403884,
      "eval_loss": 1.4362765550613403,
      "eval_runtime": 1174.833,
      "eval_samples_per_second": 12.068,
      "eval_steps_per_second": 12.068,
      "step": 1523
    },
    {
      "epoch": 0.9995795432403884,
      "step": 1523,
      "total_flos": 2.6010044317889987e+18,
      "train_loss": 1.1185581020360233,
      "train_runtime": 52635.226,
      "train_samples_per_second": 3.705,
      "train_steps_per_second": 0.029
    }
  ],
  "logging_steps": 5,
  "max_steps": 1523,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 20,
  "total_flos": 2.6010044317889987e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}