Training in progress, step 1000, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/config.json +30 -0
last-checkpoint/generation_config.json +8 -0
last-checkpoint/model.safetensors +3 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +322 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 31989,
+  "eos_token_id": 31989,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.036084391824351615,
+  "intermediate_size": 1920,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 27,
+  "num_key_value_heads": 4,
+  "pad_token_id": 31989,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.54.1",
+  "use_cache": false,
+  "vocab_size": 32000
+}

last-checkpoint/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 31989,
+  "eos_token_id": 31989,
+  "pad_token_id": 31989,
+  "transformers_version": "4.54.1",
+  "use_cache": false
+}

last-checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:013c7fc72260d69c7b4bd7e22c5a1b3d0154c7dc1b872fdafec73a570e539692
+size 373077376

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f75bd419b54bf437d6794e0e46c0bf78cc292e651457d4d86a7a6fa804712b4c
+size 209816139

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e27c30a8804a9166cb35ef95d4b96fe4a88ae8ab12f66c7df2cd80c284d9ad60
+size 14917

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e56c20334ecc931a4a5e6aaf40ab675bba6da4e48dedcde541bc576d40159ecc
+size 14917

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a08a6a4d67b84579ef3d0c3f7b82b0f64dc1e355fdee07cf30572bf265c6492
+size 1401

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,322 @@

+{
+  "best_global_step": 1000,
+  "best_metric": 10.227066993713379,
+  "best_model_checkpoint": "./artifacts/models/base-250725-test/checkpoint-1000",
+  "epoch": 0.003123106616613678,
+  "eval_steps": 1000,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 7.807766541534195e-05,
+      "grad_norm": 1.9921875,
+      "learning_rate": 1.499063085571518e-06,
+      "loss": 10.8863,
+      "step": 25
+    },
+    {
+      "epoch": 0.0001561553308306839,
+      "grad_norm": 2.40625,
+      "learning_rate": 3.0605871330418487e-06,
+      "loss": 10.8814,
+      "step": 50
+    },
+    {
+      "epoch": 0.00023423299624602585,
+      "grad_norm": 2.328125,
+      "learning_rate": 4.62211118051218e-06,
+      "loss": 10.883,
+      "step": 75
+    },
+    {
+      "epoch": 0.0003123106616613678,
+      "grad_norm": 2.03125,
+      "learning_rate": 6.183635227982511e-06,
+      "loss": 10.8828,
+      "step": 100
+    },
+    {
+      "epoch": 0.00039038832707670977,
+      "grad_norm": 1.9765625,
+      "learning_rate": 7.745159275452842e-06,
+      "loss": 10.8834,
+      "step": 125
+    },
+    {
+      "epoch": 0.0004684659924920517,
+      "grad_norm": 2.125,
+      "learning_rate": 9.306683322923173e-06,
+      "loss": 10.8796,
+      "step": 150
+    },
+    {
+      "epoch": 0.0005465436579073936,
+      "grad_norm": 1.96875,
+      "learning_rate": 1.0868207370393504e-05,
+      "loss": 10.8798,
+      "step": 175
+    },
+    {
+      "epoch": 0.0006246213233227356,
+      "grad_norm": 1.9765625,
+      "learning_rate": 1.2429731417863835e-05,
+      "loss": 10.8764,
+      "step": 200
+    },
+    {
+      "epoch": 0.0007026989887380775,
+      "grad_norm": 2.203125,
+      "learning_rate": 1.3991255465334166e-05,
+      "loss": 10.8779,
+      "step": 225
+    },
+    {
+      "epoch": 0.0007807766541534195,
+      "grad_norm": 2.296875,
+      "learning_rate": 1.5552779512804497e-05,
+      "loss": 10.8715,
+      "step": 250
+    },
+    {
+      "epoch": 0.0008588543195687615,
+      "grad_norm": 2.234375,
+      "learning_rate": 1.7114303560274827e-05,
+      "loss": 10.8676,
+      "step": 275
+    },
+    {
+      "epoch": 0.0009369319849841034,
+      "grad_norm": 2.3125,
+      "learning_rate": 1.867582760774516e-05,
+      "loss": 10.8621,
+      "step": 300
+    },
+    {
+      "epoch": 0.0010150096503994453,
+      "grad_norm": 2.359375,
+      "learning_rate": 2.0237351655215492e-05,
+      "loss": 10.8566,
+      "step": 325
+    },
+    {
+      "epoch": 0.0010930873158147873,
+      "grad_norm": 2.015625,
+      "learning_rate": 2.179887570268582e-05,
+      "loss": 10.8515,
+      "step": 350
+    },
+    {
+      "epoch": 0.0011711649812301292,
+      "grad_norm": 2.21875,
+      "learning_rate": 2.3360399750156154e-05,
+      "loss": 10.8445,
+      "step": 375
+    },
+    {
+      "epoch": 0.0012492426466454711,
+      "grad_norm": 2.09375,
+      "learning_rate": 2.4921923797626483e-05,
+      "loss": 10.8383,
+      "step": 400
+    },
+    {
+      "epoch": 0.001327320312060813,
+      "grad_norm": 2.0625,
+      "learning_rate": 2.6483447845096816e-05,
+      "loss": 10.8244,
+      "step": 425
+    },
+    {
+      "epoch": 0.001405397977476155,
+      "grad_norm": 1.890625,
+      "learning_rate": 2.804497189256715e-05,
+      "loss": 10.8193,
+      "step": 450
+    },
+    {
+      "epoch": 0.001483475642891497,
+      "grad_norm": 2.21875,
+      "learning_rate": 2.9606495940037475e-05,
+      "loss": 10.7992,
+      "step": 475
+    },
+    {
+      "epoch": 0.001561553308306839,
+      "grad_norm": 2.09375,
+      "learning_rate": 3.116801998750781e-05,
+      "loss": 10.7987,
+      "step": 500
+    },
+    {
+      "epoch": 0.001639630973722181,
+      "grad_norm": 2.0625,
+      "learning_rate": 3.272954403497814e-05,
+      "loss": 10.7803,
+      "step": 525
+    },
+    {
+      "epoch": 0.001717708639137523,
+      "grad_norm": 2.140625,
+      "learning_rate": 3.429106808244847e-05,
+      "loss": 10.7653,
+      "step": 550
+    },
+    {
+      "epoch": 0.0017957863045528649,
+      "grad_norm": 2.578125,
+      "learning_rate": 3.58525921299188e-05,
+      "loss": 10.745,
+      "step": 575
+    },
+    {
+      "epoch": 0.0018738639699682068,
+      "grad_norm": 1.8515625,
+      "learning_rate": 3.741411617738913e-05,
+      "loss": 10.7327,
+      "step": 600
+    },
+    {
+      "epoch": 0.0019519416353835487,
+      "grad_norm": 2.15625,
+      "learning_rate": 3.897564022485946e-05,
+      "loss": 10.7159,
+      "step": 625
+    },
+    {
+      "epoch": 0.0020300193007988907,
+      "grad_norm": 2.53125,
+      "learning_rate": 4.053716427232979e-05,
+      "loss": 10.6931,
+      "step": 650
+    },
+    {
+      "epoch": 0.0021080969662142326,
+      "grad_norm": 2.078125,
+      "learning_rate": 4.2098688319800126e-05,
+      "loss": 10.6688,
+      "step": 675
+    },
+    {
+      "epoch": 0.0021861746316295745,
+      "grad_norm": 2.6875,
+      "learning_rate": 4.3660212367270456e-05,
+      "loss": 10.6408,
+      "step": 700
+    },
+    {
+      "epoch": 0.0022642522970449165,
+      "grad_norm": 2.6875,
+      "learning_rate": 4.522173641474079e-05,
+      "loss": 10.63,
+      "step": 725
+    },
+    {
+      "epoch": 0.0023423299624602584,
+      "grad_norm": 2.8125,
+      "learning_rate": 4.678326046221112e-05,
+      "loss": 10.6057,
+      "step": 750
+    },
+    {
+      "epoch": 0.0024204076278756003,
+      "grad_norm": 2.796875,
+      "learning_rate": 4.834478450968145e-05,
+      "loss": 10.5781,
+      "step": 775
+    },
+    {
+      "epoch": 0.0024984852932909423,
+      "grad_norm": 2.484375,
+      "learning_rate": 4.990630855715178e-05,
+      "loss": 10.5501,
+      "step": 800
+    },
+    {
+      "epoch": 0.002576562958706284,
+      "grad_norm": 3.171875,
+      "learning_rate": 5.1467832604622116e-05,
+      "loss": 10.5076,
+      "step": 825
+    },
+    {
+      "epoch": 0.002654640624121626,
+      "grad_norm": 3.078125,
+      "learning_rate": 5.3029356652092445e-05,
+      "loss": 10.477,
+      "step": 850
+    },
+    {
+      "epoch": 0.002732718289536968,
+      "grad_norm": 2.53125,
+      "learning_rate": 5.4590880699562774e-05,
+      "loss": 10.4528,
+      "step": 875
+    },
+    {
+      "epoch": 0.00281079595495231,
+      "grad_norm": 2.90625,
+      "learning_rate": 5.6152404747033104e-05,
+      "loss": 10.4192,
+      "step": 900
+    },
+    {
+      "epoch": 0.002888873620367652,
+      "grad_norm": 2.859375,
+      "learning_rate": 5.771392879450343e-05,
+      "loss": 10.3672,
+      "step": 925
+    },
+    {
+      "epoch": 0.002966951285782994,
+      "grad_norm": 3.078125,
+      "learning_rate": 5.927545284197377e-05,
+      "loss": 10.3219,
+      "step": 950
+    },
+    {
+      "epoch": 0.003045028951198336,
+      "grad_norm": 2.890625,
+      "learning_rate": 6.08369768894441e-05,
+      "loss": 10.3154,
+      "step": 975
+    },
+    {
+      "epoch": 0.003123106616613678,
+      "grad_norm": 3.125,
+      "learning_rate": 6.239850093691443e-05,
+      "loss": 10.2594,
+      "step": 1000
+    },
+    {
+      "epoch": 0.003123106616613678,
+      "eval_loss": 10.227066993713379,
+      "eval_runtime": 102.2402,
+      "eval_samples_per_second": 50.89,
+      "eval_steps_per_second": 3.189,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 320194,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2682383335201178e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:506dbfc2d414a423d9f6f7b5da859fa434e5990d545a7361ca3bc06e672d8c42
+size 5777