Training in progress, step 102000, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b98730936aa6dc10188205017677ff9e14fddcaabd946d7ee45496f79bc09381
 size 304481530

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7f5ea86071f8a443230b23461cfbfb9011f2eb0c114ed9f153b2befd1980b09
 size 304481530

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dab2512418edabf09a1f198b3ec1e34ef7a4c1ef244751dc6f143ee5c83a138a
 size 402029570

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2436d9ce5048c7b249db87baeb4a99589f5cb4ba3d6a5e83bf03cb11fe8f0be
 size 402029570

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a09508e2b30c85c33c8c92e149720f8c4c88cb50fa6fa2edbc4d77909aa39abc
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f0b98a5ebb9ed78e7e8e5b9ffb2e444a0031c547ea9bedbf7d34b7fa2ad1116
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b692cd01a96ee7aba0dd93b934c38beb8d67bf930ea0c2c3cc4357d8083ee1d
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cfcb9518936230adad38b3ece3c6f950bb8431417e2c158d94db199da5ecc7f
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2a004b1fccaef20bc4d739ab300e21e9c86f45064b872c12bf23541f452b512
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ca0fc3fe7a9627836bbdc1a3373de9ea1ca12bc7235315729c74c1a4f443961
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6d823023bcdcfcd96199c4d0cbbb176cb114397dd8cc91feea8c9e58ee31394
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b7069c2c37db8f9fc224f696a3a2d7a164145b4eecb3137491caa9925d870ba
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a078e01d117ebf31a09758a1d53fa5c61bd25aa21a07401f65e09cce62479119
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:922cd08a83c902a03c338945ddd81b7601735a1921c4a20e3f521ea886a2772d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.14961278433835598,
   "eval_steps": 500,
-  "global_step": 101000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -35358,6 +35358,356 @@
       "learning_rate": 0.000475182098533729,
       "loss": 15.8686,
       "step": 101000
     }
   ],
   "logging_steps": 20,
@@ -35377,7 +35727,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.426261166766581e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.15109409903477533,
   "eval_steps": 500,
+  "global_step": 102000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.000475182098533729,
       "loss": 15.8686,
       "step": 101000
+    },
+    {
+      "epoch": 0.14964241063228437,
+      "grad_norm": 6.21875,
+      "learning_rate": 0.0004751771595987214,
+      "loss": 15.8408,
+      "step": 101020
+    },
+    {
+      "epoch": 0.14967203692621275,
+      "grad_norm": 6.46875,
+      "learning_rate": 0.00047517222066371386,
+      "loss": 15.8667,
+      "step": 101040
+    },
+    {
+      "epoch": 0.14970166322014114,
+      "grad_norm": 8.25,
+      "learning_rate": 0.00047516728172870625,
+      "loss": 15.8582,
+      "step": 101060
+    },
+    {
+      "epoch": 0.14973128951406953,
+      "grad_norm": 6.78125,
+      "learning_rate": 0.00047516234279369876,
+      "loss": 15.8413,
+      "step": 101080
+    },
+    {
+      "epoch": 0.1497609158079979,
+      "grad_norm": 6.84375,
+      "learning_rate": 0.00047515740385869115,
+      "loss": 15.837,
+      "step": 101100
+    },
+    {
+      "epoch": 0.1497905421019263,
+      "grad_norm": 6.8125,
+      "learning_rate": 0.0004751524649236836,
+      "loss": 15.8153,
+      "step": 101120
+    },
+    {
+      "epoch": 0.14982016839585469,
+      "grad_norm": 5.875,
+      "learning_rate": 0.000475147525988676,
+      "loss": 15.8841,
+      "step": 101140
+    },
+    {
+      "epoch": 0.14984979468978307,
+      "grad_norm": 6.9375,
+      "learning_rate": 0.0004751425870536685,
+      "loss": 15.7932,
+      "step": 101160
+    },
+    {
+      "epoch": 0.14987942098371146,
+      "grad_norm": 6.65625,
+      "learning_rate": 0.0004751376481186609,
+      "loss": 15.8238,
+      "step": 101180
+    },
+    {
+      "epoch": 0.14990904727763985,
+      "grad_norm": 6.53125,
+      "learning_rate": 0.00047513270918365333,
+      "loss": 15.8007,
+      "step": 101200
+    },
+    {
+      "epoch": 0.14993867357156823,
+      "grad_norm": 6.6875,
+      "learning_rate": 0.00047512777024864573,
+      "loss": 15.8114,
+      "step": 101220
+    },
+    {
+      "epoch": 0.14996829986549662,
+      "grad_norm": 6.40625,
+      "learning_rate": 0.00047512283131363823,
+      "loss": 15.8998,
+      "step": 101240
+    },
+    {
+      "epoch": 0.149997926159425,
+      "grad_norm": 7.28125,
+      "learning_rate": 0.0004751178923786306,
+      "loss": 15.7957,
+      "step": 101260
+    },
+    {
+      "epoch": 0.1500275524533534,
+      "grad_norm": 6.9375,
+      "learning_rate": 0.000475112953443623,
+      "loss": 15.792,
+      "step": 101280
+    },
+    {
+      "epoch": 0.15005717874728178,
+      "grad_norm": 6.90625,
+      "learning_rate": 0.00047510801450861547,
+      "loss": 15.858,
+      "step": 101300
+    },
+    {
+      "epoch": 0.15008680504121016,
+      "grad_norm": 6.3125,
+      "learning_rate": 0.0004751030755736079,
+      "loss": 15.9071,
+      "step": 101320
+    },
+    {
+      "epoch": 0.15011643133513855,
+      "grad_norm": 5.875,
+      "learning_rate": 0.00047509813663860036,
+      "loss": 15.8434,
+      "step": 101340
+    },
+    {
+      "epoch": 0.15014605762906694,
+      "grad_norm": 6.84375,
+      "learning_rate": 0.00047509319770359275,
+      "loss": 15.8702,
+      "step": 101360
+    },
+    {
+      "epoch": 0.15017568392299532,
+      "grad_norm": 6.96875,
+      "learning_rate": 0.00047508825876858526,
+      "loss": 15.8149,
+      "step": 101380
+    },
+    {
+      "epoch": 0.15020531021692374,
+      "grad_norm": 6.78125,
+      "learning_rate": 0.00047508331983357765,
+      "loss": 15.8167,
+      "step": 101400
+    },
+    {
+      "epoch": 0.15023493651085212,
+      "grad_norm": 5.71875,
+      "learning_rate": 0.0004750783808985701,
+      "loss": 15.8355,
+      "step": 101420
+    },
+    {
+      "epoch": 0.1502645628047805,
+      "grad_norm": 6.125,
+      "learning_rate": 0.0004750734419635625,
+      "loss": 15.8727,
+      "step": 101440
+    },
+    {
+      "epoch": 0.1502941890987089,
+      "grad_norm": 6.625,
+      "learning_rate": 0.000475068503028555,
+      "loss": 15.8786,
+      "step": 101460
+    },
+    {
+      "epoch": 0.15032381539263728,
+      "grad_norm": 7.21875,
+      "learning_rate": 0.0004750635640935474,
+      "loss": 15.8171,
+      "step": 101480
+    },
+    {
+      "epoch": 0.15035344168656567,
+      "grad_norm": 6.84375,
+      "learning_rate": 0.00047505862515853983,
+      "loss": 15.7871,
+      "step": 101500
+    },
+    {
+      "epoch": 0.15038306798049406,
+      "grad_norm": 6.53125,
+      "learning_rate": 0.00047505368622353223,
+      "loss": 15.8054,
+      "step": 101520
+    },
+    {
+      "epoch": 0.15041269427442244,
+      "grad_norm": 7.375,
+      "learning_rate": 0.00047504874728852473,
+      "loss": 15.834,
+      "step": 101540
+    },
+    {
+      "epoch": 0.15044232056835083,
+      "grad_norm": 6.65625,
+      "learning_rate": 0.0004750438083535171,
+      "loss": 15.906,
+      "step": 101560
+    },
+    {
+      "epoch": 0.15047194686227922,
+      "grad_norm": 6.59375,
+      "learning_rate": 0.00047503886941850957,
+      "loss": 15.8236,
+      "step": 101580
+    },
+    {
+      "epoch": 0.1505015731562076,
+      "grad_norm": 7.875,
+      "learning_rate": 0.00047503393048350197,
+      "loss": 15.8215,
+      "step": 101600
+    },
+    {
+      "epoch": 0.150531199450136,
+      "grad_norm": 6.625,
+      "learning_rate": 0.0004750289915484944,
+      "loss": 15.8343,
+      "step": 101620
+    },
+    {
+      "epoch": 0.15056082574406437,
+      "grad_norm": 6.875,
+      "learning_rate": 0.00047502405261348686,
+      "loss": 15.7763,
+      "step": 101640
+    },
+    {
+      "epoch": 0.15059045203799276,
+      "grad_norm": 7.0,
+      "learning_rate": 0.00047501911367847925,
+      "loss": 15.8537,
+      "step": 101660
+    },
+    {
+      "epoch": 0.15062007833192115,
+      "grad_norm": 6.5,
+      "learning_rate": 0.00047501417474347176,
+      "loss": 15.902,
+      "step": 101680
+    },
+    {
+      "epoch": 0.15064970462584953,
+      "grad_norm": 6.15625,
+      "learning_rate": 0.00047500923580846415,
+      "loss": 15.8103,
+      "step": 101700
+    },
+    {
+      "epoch": 0.15067933091977792,
+      "grad_norm": 6.40625,
+      "learning_rate": 0.0004750042968734566,
+      "loss": 15.8109,
+      "step": 101720
+    },
+    {
+      "epoch": 0.1507089572137063,
+      "grad_norm": 7.3125,
+      "learning_rate": 0.000474999357938449,
+      "loss": 15.8841,
+      "step": 101740
+    },
+    {
+      "epoch": 0.1507385835076347,
+      "grad_norm": 6.375,
+      "learning_rate": 0.0004749944190034415,
+      "loss": 15.8348,
+      "step": 101760
+    },
+    {
+      "epoch": 0.15076820980156308,
+      "grad_norm": 7.09375,
+      "learning_rate": 0.0004749894800684339,
+      "loss": 15.851,
+      "step": 101780
+    },
+    {
+      "epoch": 0.15079783609549147,
+      "grad_norm": 6.59375,
+      "learning_rate": 0.00047498454113342634,
+      "loss": 15.822,
+      "step": 101800
+    },
+    {
+      "epoch": 0.15082746238941985,
+      "grad_norm": 6.46875,
+      "learning_rate": 0.00047497960219841873,
+      "loss": 15.8174,
+      "step": 101820
+    },
+    {
+      "epoch": 0.15085708868334824,
+      "grad_norm": 7.0625,
+      "learning_rate": 0.00047497466326341123,
+      "loss": 15.8871,
+      "step": 101840
+    },
+    {
+      "epoch": 0.15088671497727663,
+      "grad_norm": 6.75,
+      "learning_rate": 0.0004749697243284036,
+      "loss": 15.8636,
+      "step": 101860
+    },
+    {
+      "epoch": 0.150916341271205,
+      "grad_norm": 6.625,
+      "learning_rate": 0.00047496478539339607,
+      "loss": 15.8234,
+      "step": 101880
+    },
+    {
+      "epoch": 0.1509459675651334,
+      "grad_norm": 7.78125,
+      "learning_rate": 0.00047495984645838847,
+      "loss": 15.8701,
+      "step": 101900
+    },
+    {
+      "epoch": 0.15097559385906179,
+      "grad_norm": 6.25,
+      "learning_rate": 0.00047495490752338097,
+      "loss": 15.826,
+      "step": 101920
+    },
+    {
+      "epoch": 0.15100522015299017,
+      "grad_norm": 6.84375,
+      "learning_rate": 0.00047494996858837336,
+      "loss": 15.8412,
+      "step": 101940
+    },
+    {
+      "epoch": 0.15103484644691856,
+      "grad_norm": 6.21875,
+      "learning_rate": 0.00047494502965336576,
+      "loss": 15.831,
+      "step": 101960
+    },
+    {
+      "epoch": 0.15106447274084694,
+      "grad_norm": 6.8125,
+      "learning_rate": 0.00047494009071835826,
+      "loss": 15.8454,
+      "step": 101980
+    },
+    {
+      "epoch": 0.15109409903477533,
+      "grad_norm": 6.53125,
+      "learning_rate": 0.00047493515178335065,
+      "loss": 15.837,
+      "step": 102000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 7.499797585582883e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null