records/120424_ValueEmbed/d12cb409-0f5d-4624-951c-60119a482bca.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 04:31:46 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   37C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   30C    P0             117W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   37C    P0             116W / 700W |     31MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   38C    P0             122W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   38C    P0             127W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   29C    P0             119W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31580ms step_avg:nanms
step:2/1530 train_loss:10.0770 train_time:31691ms step_avg:nanms
step:3/1530 train_loss:8.3805 train_time:31849ms step_avg:nanms
step:4/1530 train_loss:7.5635 train_time:32010ms step_avg:nanms
step:5/1530 train_loss:7.4629 train_time:32171ms step_avg:nanms
step:6/1530 train_loss:6.9835 train_time:32332ms step_avg:nanms
step:7/1530 train_loss:7.1982 train_time:32494ms step_avg:nanms
step:8/1530 train_loss:6.7361 train_time:32654ms step_avg:nanms
step:9/1530 train_loss:6.6157 train_time:32815ms step_avg:nanms
step:10/1530 train_loss:6.5130 train_time:32974ms step_avg:nanms
step:11/1530 train_loss:6.4837 train_time:115ms step_avg:nanms
step:12/1530 train_loss:6.3948 train_time:275ms step_avg:nanms
step:13/1530 train_loss:6.2366 train_time:435ms step_avg:145.15ms
step:14/1530 train_loss:6.2122 train_time:596ms step_avg:148.97ms
step:15/1530 train_loss:6.1548 train_time:756ms step_avg:151.20ms
step:16/1530 train_loss:6.1037 train_time:916ms step_avg:152.68ms
step:17/1530 train_loss:6.1614 train_time:1077ms step_avg:153.80ms
step:18/1530 train_loss:5.9802 train_time:1237ms step_avg:154.58ms
step:19/1530 train_loss:5.9646 train_time:1397ms step_avg:155.20ms
step:20/1530 train_loss:5.6793 train_time:1556ms step_avg:155.65ms
step:21/1530 train_loss:5.9421 train_time:1717ms step_avg:156.12ms
step:22/1530 train_loss:6.1756 train_time:1878ms step_avg:156.46ms
step:23/1530 train_loss:5.8308 train_time:2037ms step_avg:156.68ms
step:24/1530 train_loss:5.9866 train_time:2198ms step_avg:156.99ms
step:25/1530 train_loss:5.6590 train_time:2358ms step_avg:157.17ms
step:26/1530 train_loss:5.5710 train_time:2518ms step_avg:157.36ms
step:27/1530 train_loss:5.7502 train_time:2678ms step_avg:157.53ms
step:28/1530 train_loss:5.4231 train_time:2838ms step_avg:157.69ms
step:29/1530 train_loss:5.6581 train_time:2999ms step_avg:157.84ms
step:30/1530 train_loss:5.4614 train_time:3158ms step_avg:157.92ms
step:31/1530 train_loss:5.4264 train_time:3319ms step_avg:158.06ms
step:32/1530 train_loss:5.2912 train_time:3479ms step_avg:158.15ms
step:33/1530 train_loss:5.5654 train_time:3639ms step_avg:158.22ms
step:34/1530 train_loss:5.4843 train_time:3798ms step_avg:158.26ms
step:35/1530 train_loss:5.5958 train_time:3959ms step_avg:158.35ms
step:36/1530 train_loss:5.5333 train_time:4118ms step_avg:158.40ms
step:37/1530 train_loss:5.4512 train_time:4279ms step_avg:158.49ms
step:38/1530 train_loss:5.3020 train_time:4438ms step_avg:158.52ms
step:39/1530 train_loss:5.3077 train_time:4600ms step_avg:158.62ms
step:40/1530 train_loss:5.2414 train_time:4760ms step_avg:158.68ms
step:41/1530 train_loss:5.2415 train_time:4919ms step_avg:158.69ms
step:42/1530 train_loss:5.2014 train_time:5080ms step_avg:158.75ms
step:43/1530 train_loss:5.2458 train_time:5241ms step_avg:158.80ms
step:44/1530 train_loss:5.2218 train_time:5401ms step_avg:158.84ms
step:45/1530 train_loss:5.3740 train_time:5561ms step_avg:158.88ms
step:46/1530 train_loss:5.1479 train_time:5721ms step_avg:158.91ms
step:47/1530 train_loss:5.0630 train_time:5881ms step_avg:158.95ms
step:48/1530 train_loss:5.2228 train_time:6041ms step_avg:158.97ms
step:49/1530 train_loss:5.1351 train_time:6202ms step_avg:159.03ms
step:50/1530 train_loss:5.2451 train_time:6362ms step_avg:159.06ms
step:51/1530 train_loss:5.1289 train_time:6522ms step_avg:159.07ms
step:52/1530 train_loss:5.0136 train_time:6682ms step_avg:159.10ms
step:53/1530 train_loss:5.1526 train_time:6843ms step_avg:159.14ms
step:54/1530 train_loss:4.9971 train_time:7004ms step_avg:159.18ms
step:55/1530 train_loss:5.4046 train_time:7163ms step_avg:159.19ms
step:56/1530 train_loss:5.0293 train_time:7325ms step_avg:159.25ms
step:57/1530 train_loss:4.8964 train_time:7486ms step_avg:159.27ms
step:58/1530 train_loss:5.0436 train_time:7647ms step_avg:159.31ms
step:59/1530 train_loss:5.0125 train_time:7808ms step_avg:159.35ms
step:60/1530 train_loss:5.1322 train_time:7970ms step_avg:159.39ms
step:61/1530 train_loss:4.8590 train_time:8130ms step_avg:159.42ms
step:62/1530 train_loss:4.9717 train_time:8291ms step_avg:159.45ms
step:63/1530 train_loss:4.9565 train_time:8452ms step_avg:159.46ms
step:64/1530 train_loss:4.8673 train_time:8612ms step_avg:159.49ms
step:65/1530 train_loss:4.7862 train_time:8772ms step_avg:159.49ms
step:66/1530 train_loss:4.9107 train_time:8933ms step_avg:159.51ms
step:67/1530 train_loss:4.8101 train_time:9093ms step_avg:159.53ms
step:68/1530 train_loss:5.0863 train_time:9253ms step_avg:159.54ms
step:69/1530 train_loss:4.7330 train_time:9414ms step_avg:159.56ms
step:70/1530 train_loss:4.8428 train_time:9574ms step_avg:159.57ms
step:71/1530 train_loss:4.9822 train_time:9734ms step_avg:159.58ms
step:72/1530 train_loss:4.8797 train_time:9895ms step_avg:159.59ms
step:73/1530 train_loss:4.7782 train_time:10054ms step_avg:159.59ms
step:74/1530 train_loss:4.8976 train_time:10215ms step_avg:159.62ms
step:75/1530 train_loss:4.8596 train_time:10376ms step_avg:159.63ms
step:76/1530 train_loss:4.8092 train_time:10536ms step_avg:159.64ms
step:77/1530 train_loss:4.9186 train_time:10697ms step_avg:159.66ms
step:78/1530 train_loss:5.1047 train_time:10858ms step_avg:159.67ms
step:79/1530 train_loss:4.8197 train_time:11018ms step_avg:159.68ms
step:80/1530 train_loss:4.8507 train_time:11179ms step_avg:159.69ms
step:81/1530 train_loss:4.6365 train_time:11340ms step_avg:159.72ms
step:82/1530 train_loss:4.8084 train_time:11500ms step_avg:159.72ms
step:83/1530 train_loss:4.7616 train_time:11661ms step_avg:159.74ms
step:84/1530 train_loss:4.7533 train_time:11822ms step_avg:159.75ms
step:85/1530 train_loss:4.6135 train_time:11982ms step_avg:159.76ms
step:86/1530 train_loss:4.8321 train_time:12142ms step_avg:159.77ms
step:87/1530 train_loss:4.7311 train_time:12304ms step_avg:159.80ms
step:88/1530 train_loss:4.7312 train_time:12464ms step_avg:159.79ms
step:89/1530 train_loss:4.7035 train_time:12623ms step_avg:159.79ms
step:90/1530 train_loss:4.6423 train_time:12784ms step_avg:159.80ms
step:91/1530 train_loss:4.6362 train_time:12946ms step_avg:159.83ms
step:92/1530 train_loss:4.7952 train_time:13106ms step_avg:159.82ms
step:93/1530 train_loss:4.6157 train_time:13267ms step_avg:159.84ms
step:94/1530 train_loss:4.6260 train_time:13427ms step_avg:159.84ms
step:95/1530 train_loss:4.6747 train_time:13588ms step_avg:159.86ms
step:96/1530 train_loss:4.5764 train_time:13748ms step_avg:159.86ms
step:97/1530 train_loss:4.6318 train_time:13910ms step_avg:159.89ms
step:98/1530 train_loss:4.5763 train_time:14070ms step_avg:159.89ms
step:99/1530 train_loss:4.6606 train_time:14231ms step_avg:159.90ms
step:100/1530 train_loss:4.6711 train_time:14393ms step_avg:159.92ms
step:101/1530 train_loss:4.5389 train_time:14553ms step_avg:159.92ms
step:102/1530 train_loss:4.7103 train_time:14715ms step_avg:159.94ms
step:103/1530 train_loss:4.5765 train_time:14875ms step_avg:159.95ms
step:104/1530 train_loss:4.5435 train_time:15037ms step_avg:159.97ms
step:105/1530 train_loss:4.5711 train_time:15198ms step_avg:159.98ms
step:106/1530 train_loss:4.6147 train_time:15357ms step_avg:159.97ms
step:107/1530 train_loss:4.5146 train_time:15517ms step_avg:159.97ms
step:108/1530 train_loss:4.3621 train_time:15678ms step_avg:159.98ms
step:109/1530 train_loss:4.5055 train_time:15838ms step_avg:159.98ms
step:110/1530 train_loss:4.4883 train_time:15998ms step_avg:159.98ms
step:111/1530 train_loss:4.4130 train_time:16158ms step_avg:159.98ms
step:112/1530 train_loss:4.5801 train_time:16318ms step_avg:159.98ms
step:113/1530 train_loss:4.4923 train_time:16479ms step_avg:159.99ms
step:114/1530 train_loss:4.3674 train_time:16640ms step_avg:160.00ms
step:115/1530 train_loss:4.5038 train_time:16802ms step_avg:160.02ms
step:116/1530 train_loss:4.4665 train_time:16966ms step_avg:160.05ms
step:117/1530 train_loss:4.3889 train_time:17130ms step_avg:160.10ms
step:118/1530 train_loss:4.6167 train_time:17295ms step_avg:160.14ms
step:119/1530 train_loss:4.4746 train_time:17458ms step_avg:160.16ms
step:120/1530 train_loss:4.3450 train_time:17622ms step_avg:160.20ms
step:121/1530 train_loss:4.3103 train_time:17787ms step_avg:160.24ms
step:122/1530 train_loss:4.4533 train_time:17951ms step_avg:160.28ms
step:123/1530 train_loss:4.2883 train_time:18115ms step_avg:160.31ms
step:124/1530 train_loss:4.5868 train_time:18278ms step_avg:160.33ms
step:125/1530 train_loss:4.4584 train_time:18441ms step_avg:160.36ms
step:125/1530 val_loss:4.4040 train_time:18488ms step_avg:160.77ms
step:126/1530 train_loss:4.4195 train_time:18608ms step_avg:160.41ms
step:127/1530 train_loss:4.4329 train_time:18776ms step_avg:160.48ms
step:128/1530 train_loss:4.3891 train_time:18940ms step_avg:160.51ms
step:129/1530 train_loss:4.7035 train_time:19103ms step_avg:160.53ms
step:130/1530 train_loss:4.3654 train_time:19268ms step_avg:160.57ms
step:131/1530 train_loss:4.3907 train_time:19432ms step_avg:160.60ms
step:132/1530 train_loss:4.3486 train_time:19596ms step_avg:160.63ms
step:133/1530 train_loss:4.4622 train_time:19761ms step_avg:160.65ms
step:134/1530 train_loss:4.2820 train_time:19925ms step_avg:160.69ms
step:135/1530 train_loss:4.4492 train_time:20089ms step_avg:160.71ms
step:136/1530 train_loss:4.2087 train_time:20254ms step_avg:160.75ms
step:137/1530 train_loss:4.3743 train_time:20419ms step_avg:160.78ms
step:138/1530 train_loss:4.2905 train_time:20582ms step_avg:160.80ms
step:139/1530 train_loss:4.3917 train_time:20747ms step_avg:160.83ms
step:140/1530 train_loss:4.4791 train_time:20912ms step_avg:160.86ms
step:141/1530 train_loss:4.3203 train_time:21075ms step_avg:160.88ms
step:142/1530 train_loss:4.3143 train_time:21238ms step_avg:160.90ms
step:143/1530 train_loss:4.2740 train_time:21402ms step_avg:160.91ms
step:144/1530 train_loss:4.3603 train_time:21567ms step_avg:160.94ms
step:145/1530 train_loss:4.3178 train_time:21731ms step_avg:160.97ms
step:146/1530 train_loss:4.1733 train_time:21895ms step_avg:160.99ms
step:147/1530 train_loss:4.3247 train_time:22058ms step_avg:161.01ms
step:148/1530 train_loss:4.3658 train_time:22222ms step_avg:161.03ms
step:149/1530 train_loss:4.3079 train_time:22386ms step_avg:161.05ms
step:150/1530 train_loss:4.4446 train_time:22551ms step_avg:161.08ms
step:151/1530 train_loss:4.2732 train_time:22715ms step_avg:161.10ms
step:152/1530 train_loss:4.2712 train_time:22878ms step_avg:161.12ms
step:153/1530 train_loss:4.3651 train_time:23043ms step_avg:161.14ms
step:154/1530 train_loss:4.3757 train_time:23208ms step_avg:161.17ms
step:155/1530 train_loss:4.2757 train_time:23373ms step_avg:161.20ms
step:156/1530 train_loss:4.3491 train_time:23537ms step_avg:161.21ms
step:157/1530 train_loss:4.4114 train_time:23701ms step_avg:161.23ms
step:158/1530 train_loss:4.2515 train_time:23865ms step_avg:161.25ms
step:159/1530 train_loss:4.3035 train_time:24030ms step_avg:161.27ms
step:160/1530 train_loss:4.1264 train_time:24194ms step_avg:161.29ms
step:161/1530 train_loss:4.3428 train_time:24357ms step_avg:161.31ms
step:162/1530 train_loss:4.3641 train_time:24521ms step_avg:161.32ms
step:163/1530 train_loss:4.3335 train_time:24685ms step_avg:161.34ms
step:164/1530 train_loss:4.1816 train_time:24850ms step_avg:161.36ms
step:165/1530 train_loss:4.2817 train_time:25014ms step_avg:161.38ms
step:166/1530 train_loss:4.3388 train_time:25177ms step_avg:161.39ms
step:167/1530 train_loss:4.2055 train_time:25341ms step_avg:161.41ms
step:168/1530 train_loss:4.2904 train_time:25505ms step_avg:161.42ms
step:169/1530 train_loss:4.1596 train_time:25670ms step_avg:161.45ms
step:170/1530 train_loss:4.0338 train_time:25833ms step_avg:161.46ms
step:171/1530 train_loss:4.2077 train_time:25997ms step_avg:161.47ms
step:172/1530 train_loss:4.2210 train_time:26160ms step_avg:161.48ms
step:173/1530 train_loss:4.2767 train_time:26324ms step_avg:161.49ms
step:174/1530 train_loss:4.4250 train_time:26487ms step_avg:161.50ms
step:175/1530 train_loss:4.2453 train_time:26650ms step_avg:161.52ms
step:176/1530 train_loss:4.1041 train_time:26813ms step_avg:161.52ms
step:177/1530 train_loss:4.0675 train_time:26976ms step_avg:161.53ms
step:178/1530 train_loss:4.1798 train_time:27139ms step_avg:161.54ms
step:179/1530 train_loss:4.1253 train_time:27302ms step_avg:161.55ms
step:180/1530 train_loss:4.1172 train_time:27465ms step_avg:161.56ms
step:181/1530 train_loss:4.2981 train_time:27628ms step_avg:161.57ms
step:182/1530 train_loss:4.1644 train_time:27792ms step_avg:161.58ms
step:183/1530 train_loss:4.1268 train_time:27954ms step_avg:161.59ms
step:184/1530 train_loss:4.1249 train_time:28117ms step_avg:161.59ms
step:185/1530 train_loss:4.1998 train_time:28281ms step_avg:161.61ms
step:186/1530 train_loss:4.1666 train_time:28443ms step_avg:161.61ms
step:187/1530 train_loss:4.2350 train_time:28607ms step_avg:161.62ms
step:188/1530 train_loss:4.1671 train_time:28902ms step_avg:162.37ms
step:189/1530 train_loss:4.1040 train_time:29229ms step_avg:163.29ms
step:190/1530 train_loss:4.2164 train_time:29391ms step_avg:163.28ms
step:191/1530 train_loss:4.0886 train_time:29555ms step_avg:163.28ms
step:192/1530 train_loss:4.0375 train_time:29717ms step_avg:163.28ms
step:193/1530 train_loss:4.2439 train_time:29880ms step_avg:163.28ms
step:194/1530 train_loss:4.1722 train_time:30043ms step_avg:163.27ms
step:195/1530 train_loss:4.3573 train_time:30206ms step_avg:163.27ms
step:196/1530 train_loss:4.1827 train_time:30371ms step_avg:163.29ms
step:197/1530 train_loss:4.0448 train_time:30534ms step_avg:163.28ms
step:198/1530 train_loss:4.1807 train_time:30697ms step_avg:163.28ms
step:199/1530 train_loss:4.0418 train_time:30860ms step_avg:163.28ms
step:200/1530 train_loss:4.1202 train_time:31023ms step_avg:163.28ms
step:201/1530 train_loss:4.0045 train_time:31187ms step_avg:163.28ms
step:202/1530 train_loss:4.2392 train_time:31350ms step_avg:163.28ms
step:203/1530 train_loss:4.0685 train_time:31514ms step_avg:163.28ms
step:204/1530 train_loss:4.1985 train_time:31676ms step_avg:163.28ms
step:205/1530 train_loss:4.2555 train_time:31838ms step_avg:163.27ms
step:206/1530 train_loss:3.9615 train_time:32002ms step_avg:163.27ms
step:207/1530 train_loss:4.0868 train_time:32165ms step_avg:163.27ms
step:208/1530 train_loss:4.1000 train_time:32328ms step_avg:163.27ms
step:209/1530 train_loss:4.2447 train_time:32491ms step_avg:163.27ms
step:210/1530 train_loss:4.1859 train_time:32654ms step_avg:163.27ms
step:211/1530 train_loss:4.0629 train_time:32816ms step_avg:163.27ms
step:212/1530 train_loss:4.1160 train_time:32979ms step_avg:163.26ms
step:213/1530 train_loss:4.0433 train_time:33142ms step_avg:163.26ms
step:214/1530 train_loss:4.1205 train_time:33305ms step_avg:163.26ms
step:215/1530 train_loss:3.9558 train_time:33469ms step_avg:163.26ms
step:216/1530 train_loss:4.0002 train_time:33631ms step_avg:163.26ms
step:217/1530 train_loss:4.0105 train_time:33794ms step_avg:163.26ms
step:218/1530 train_loss:4.0842 train_time:33956ms step_avg:163.25ms
step:219/1530 train_loss:4.0875 train_time:34118ms step_avg:163.25ms
step:220/1530 train_loss:4.0846 train_time:34282ms step_avg:163.25ms
step:221/1530 train_loss:4.0928 train_time:34444ms step_avg:163.24ms
step:222/1530 train_loss:4.0028 train_time:34607ms step_avg:163.24ms
step:223/1530 train_loss:3.9962 train_time:34771ms step_avg:163.24ms
step:224/1530 train_loss:4.2976 train_time:34933ms step_avg:163.24ms
step:225/1530 train_loss:3.9220 train_time:35096ms step_avg:163.24ms
step:226/1530 train_loss:3.9892 train_time:35259ms step_avg:163.24ms
step:227/1530 train_loss:3.9823 train_time:35422ms step_avg:163.24ms
step:228/1530 train_loss:4.1458 train_time:35589ms step_avg:163.25ms
step:229/1530 train_loss:3.9264 train_time:35755ms step_avg:163.27ms
step:230/1530 train_loss:4.0374 train_time:35920ms step_avg:163.27ms
step:231/1530 train_loss:3.9090 train_time:36088ms step_avg:163.30ms
step:232/1530 train_loss:3.9752 train_time:36254ms step_avg:163.31ms
step:233/1530 train_loss:4.0937 train_time:36420ms step_avg:163.32ms
step:234/1530 train_loss:4.0262 train_time:36588ms step_avg:163.34ms
step:235/1530 train_loss:3.8876 train_time:36755ms step_avg:163.35ms
step:236/1530 train_loss:4.0808 train_time:36920ms step_avg:163.36ms
step:237/1530 train_loss:4.0685 train_time:37087ms step_avg:163.38ms
step:238/1530 train_loss:3.9385 train_time:37253ms step_avg:163.39ms
step:239/1530 train_loss:4.0787 train_time:37419ms step_avg:163.40ms
step:240/1530 train_loss:4.1119 train_time:37585ms step_avg:163.41ms
step:241/1530 train_loss:3.9605 train_time:37752ms step_avg:163.43ms
step:242/1530 train_loss:4.1565 train_time:37918ms step_avg:163.44ms
step:243/1530 train_loss:4.0176 train_time:38084ms step_avg:163.45ms
step:244/1530 train_loss:4.0800 train_time:38250ms step_avg:163.46ms
step:245/1530 train_loss:4.1442 train_time:38417ms step_avg:163.48ms
step:246/1530 train_loss:4.0585 train_time:38583ms step_avg:163.49ms
step:247/1530 train_loss:4.0056 train_time:38749ms step_avg:163.50ms
step:248/1530 train_loss:4.1070 train_time:38915ms step_avg:163.51ms
step:249/1530 train_loss:3.9210 train_time:39080ms step_avg:163.52ms
step:250/1530 train_loss:3.9674 train_time:39247ms step_avg:163.53ms
step:250/1530 val_loss:4.0056 train_time:39294ms step_avg:163.73ms
step:251/1530 train_loss:4.0737 train_time:39416ms step_avg:163.55ms
step:252/1530 train_loss:4.1607 train_time:39585ms step_avg:163.57ms
step:253/1530 train_loss:3.9312 train_time:39752ms step_avg:163.59ms
step:254/1530 train_loss:3.8767 train_time:39917ms step_avg:163.60ms
step:255/1530 train_loss:4.0731 train_time:40083ms step_avg:163.61ms
step:256/1530 train_loss:3.9992 train_time:40251ms step_avg:163.62ms
step:257/1530 train_loss:3.9921 train_time:40416ms step_avg:163.63ms
step:258/1530 train_loss:3.9783 train_time:40582ms step_avg:163.64ms
step:259/1530 train_loss:4.0286 train_time:40748ms step_avg:163.65ms
step:260/1530 train_loss:4.0636 train_time:40916ms step_avg:163.66ms
step:261/1530 train_loss:4.0226 train_time:41082ms step_avg:163.67ms
step:262/1530 train_loss:3.9919 train_time:41249ms step_avg:163.69ms
step:263/1530 train_loss:3.8940 train_time:41415ms step_avg:163.70ms
step:264/1530 train_loss:3.9887 train_time:41581ms step_avg:163.71ms
step:265/1530 train_loss:3.8673 train_time:41749ms step_avg:163.72ms
step:266/1530 train_loss:3.9233 train_time:41916ms step_avg:163.73ms
step:267/1530 train_loss:3.9295 train_time:42081ms step_avg:163.74ms
step:268/1530 train_loss:3.9613 train_time:42249ms step_avg:163.75ms
step:269/1530 train_loss:3.8482 train_time:42415ms step_avg:163.76ms
step:270/1530 train_loss:4.0975 train_time:42579ms step_avg:163.77ms
step:271/1530 train_loss:3.9707 train_time:42747ms step_avg:163.78ms
step:272/1530 train_loss:3.9242 train_time:42914ms step_avg:163.79ms
step:273/1530 train_loss:3.9471 train_time:43079ms step_avg:163.80ms
step:274/1530 train_loss:4.0401 train_time:43246ms step_avg:163.81ms
step:275/1530 train_loss:4.0629 train_time:43413ms step_avg:163.82ms
step:276/1530 train_loss:4.2328 train_time:43581ms step_avg:163.84ms
step:277/1530 train_loss:4.0378 train_time:43747ms step_avg:163.85ms
step:278/1530 train_loss:4.0945 train_time:43913ms step_avg:163.86ms
step:279/1530 train_loss:4.0034 train_time:44079ms step_avg:163.86ms
step:280/1530 train_loss:4.1995 train_time:44247ms step_avg:163.88ms
step:281/1530 train_loss:3.9669 train_time:44414ms step_avg:163.89ms
step:282/1530 train_loss:3.9430 train_time:44581ms step_avg:163.90ms
step:283/1530 train_loss:3.9108 train_time:44746ms step_avg:163.90ms
step:284/1530 train_loss:4.0472 train_time:44913ms step_avg:163.91ms
step:285/1530 train_loss:4.0612 train_time:45078ms step_avg:163.92ms
step:286/1530 train_loss:4.0932 train_time:45243ms step_avg:163.93ms
step:287/1530 train_loss:3.9092 train_time:45409ms step_avg:163.93ms
step:288/1530 train_loss:4.0112 train_time:45574ms step_avg:163.94ms
step:289/1530 train_loss:3.8741 train_time:45740ms step_avg:163.94ms
step:290/1530 train_loss:3.8545 train_time:45905ms step_avg:163.95ms
step:291/1530 train_loss:3.9062 train_time:46071ms step_avg:163.95ms
step:292/1530 train_loss:3.8613 train_time:46236ms step_avg:163.96ms
step:293/1530 train_loss:3.9027 train_time:46401ms step_avg:163.96ms
step:294/1530 train_loss:3.9314 train_time:46565ms step_avg:163.96ms
step:295/1530 train_loss:3.8349 train_time:46731ms step_avg:163.97ms
step:296/1530 train_loss:3.8587 train_time:46896ms step_avg:163.97ms
step:297/1530 train_loss:3.8681 train_time:47061ms step_avg:163.98ms
step:298/1530 train_loss:3.9672 train_time:47227ms step_avg:163.98ms
step:299/1530 train_loss:3.8222 train_time:47392ms step_avg:163.99ms
step:300/1530 train_loss:3.9576 train_time:47559ms step_avg:164.00ms
step:301/1530 train_loss:3.9605 train_time:47725ms step_avg:164.00ms
step:302/1530 train_loss:3.9343 train_time:47891ms step_avg:164.01ms
step:303/1530 train_loss:3.9775 train_time:48057ms step_avg:164.02ms
step:304/1530 train_loss:3.9686 train_time:48222ms step_avg:164.02ms
step:305/1530 train_loss:4.4598 train_time:48387ms step_avg:164.02ms
step:306/1530 train_loss:3.9375 train_time:48554ms step_avg:164.03ms
step:307/1530 train_loss:3.8355 train_time:48719ms step_avg:164.04ms
step:308/1530 train_loss:3.9811 train_time:48884ms step_avg:164.04ms
step:309/1530 train_loss:3.8586 train_time:49051ms step_avg:164.05ms
step:310/1530 train_loss:4.0810 train_time:49215ms step_avg:164.05ms
step:311/1530 train_loss:3.9291 train_time:49381ms step_avg:164.06ms
step:312/1530 train_loss:3.8660 train_time:49548ms step_avg:164.06ms
step:313/1530 train_loss:3.9359 train_time:49713ms step_avg:164.07ms
step:314/1530 train_loss:4.0596 train_time:49878ms step_avg:164.07ms
step:315/1530 train_loss:3.9347 train_time:50044ms step_avg:164.08ms
step:316/1530 train_loss:3.7966 train_time:50208ms step_avg:164.08ms
step:317/1530 train_loss:3.8780 train_time:50374ms step_avg:164.08ms
step:318/1530 train_loss:3.9215 train_time:50539ms step_avg:164.09ms
step:319/1530 train_loss:3.8923 train_time:50704ms step_avg:164.09ms
step:320/1530 train_loss:4.0086 train_time:50870ms step_avg:164.10ms
step:321/1530 train_loss:3.9533 train_time:51035ms step_avg:164.10ms
step:322/1530 train_loss:3.9311 train_time:51199ms step_avg:164.10ms
step:323/1530 train_loss:4.0022 train_time:51364ms step_avg:164.10ms
step:324/1530 train_loss:3.9421 train_time:51530ms step_avg:164.11ms
step:325/1530 train_loss:4.0214 train_time:51695ms step_avg:164.11ms
step:326/1530 train_loss:3.8933 train_time:51860ms step_avg:164.12ms
step:327/1530 train_loss:4.3826 train_time:52025ms step_avg:164.12ms
step:328/1530 train_loss:4.0721 train_time:52191ms step_avg:164.12ms
step:329/1530 train_loss:3.7902 train_time:52357ms step_avg:164.13ms
step:330/1530 train_loss:3.7518 train_time:52524ms step_avg:164.14ms
step:331/1530 train_loss:3.9747 train_time:52690ms step_avg:164.14ms
step:332/1530 train_loss:3.9102 train_time:52855ms step_avg:164.15ms
step:333/1530 train_loss:3.8805 train_time:53019ms step_avg:164.14ms
step:334/1530 train_loss:3.8409 train_time:53184ms step_avg:164.15ms
step:335/1530 train_loss:4.0125 train_time:53349ms step_avg:164.15ms
step:336/1530 train_loss:3.9555 train_time:53515ms step_avg:164.16ms
step:337/1530 train_loss:4.4192 train_time:53680ms step_avg:164.16ms
step:338/1530 train_loss:3.9441 train_time:53844ms step_avg:164.16ms
step:339/1530 train_loss:3.8691 train_time:54010ms step_avg:164.16ms
step:340/1530 train_loss:3.9360 train_time:54176ms step_avg:164.17ms
step:341/1530 train_loss:3.8539 train_time:54343ms step_avg:164.18ms
step:342/1530 train_loss:3.8146 train_time:54512ms step_avg:164.19ms
step:343/1530 train_loss:3.8438 train_time:54679ms step_avg:164.20ms
step:344/1530 train_loss:3.9957 train_time:54848ms step_avg:164.21ms
step:345/1530 train_loss:3.8134 train_time:55017ms step_avg:164.23ms
step:346/1530 train_loss:3.7625 train_time:55185ms step_avg:164.24ms
step:347/1530 train_loss:3.7970 train_time:55355ms step_avg:164.26ms
step:348/1530 train_loss:3.8607 train_time:55522ms step_avg:164.27ms
step:349/1530 train_loss:3.8281 train_time:55691ms step_avg:164.28ms
step:350/1530 train_loss:3.5703 train_time:55860ms step_avg:164.29ms
step:351/1530 train_loss:3.8248 train_time:56029ms step_avg:164.31ms
step:352/1530 train_loss:4.1825 train_time:56197ms step_avg:164.32ms
step:353/1530 train_loss:3.6550 train_time:56364ms step_avg:164.33ms
step:354/1530 train_loss:3.9221 train_time:56532ms step_avg:164.34ms
step:355/1530 train_loss:3.7785 train_time:56700ms step_avg:164.35ms
step:356/1530 train_loss:3.8880 train_time:56868ms step_avg:164.36ms
step:357/1530 train_loss:3.7485 train_time:57037ms step_avg:164.37ms
step:358/1530 train_loss:3.8548 train_time:57205ms step_avg:164.38ms
step:359/1530 train_loss:3.7789 train_time:57374ms step_avg:164.40ms
step:360/1530 train_loss:3.4211 train_time:57543ms step_avg:164.41ms
step:361/1530 train_loss:4.0161 train_time:57713ms step_avg:164.42ms
step:362/1530 train_loss:3.9162 train_time:57881ms step_avg:164.43ms
step:363/1530 train_loss:3.8368 train_time:58050ms step_avg:164.45ms
step:364/1530 train_loss:3.7429 train_time:58218ms step_avg:164.46ms
step:365/1530 train_loss:3.9136 train_time:58386ms step_avg:164.47ms
step:366/1530 train_loss:3.8580 train_time:58555ms step_avg:164.48ms
step:367/1530 train_loss:3.8574 train_time:58722ms step_avg:164.49ms
step:368/1530 train_loss:3.8400 train_time:58890ms step_avg:164.50ms
step:369/1530 train_loss:3.7443 train_time:59057ms step_avg:164.50ms
step:370/1530 train_loss:3.8803 train_time:59225ms step_avg:164.51ms
step:371/1530 train_loss:3.7348 train_time:59394ms step_avg:164.53ms
step:372/1530 train_loss:3.6901 train_time:59562ms step_avg:164.54ms
step:373/1530 train_loss:3.9096 train_time:59730ms step_avg:164.55ms
step:374/1530 train_loss:3.8261 train_time:59897ms step_avg:164.55ms
step:375/1530 train_loss:3.7981 train_time:60065ms step_avg:164.56ms
step:375/1530 val_loss:3.8237 train_time:60113ms step_avg:164.69ms
step:376/1530 train_loss:3.8686 train_time:60234ms step_avg:164.57ms
step:377/1530 train_loss:3.7913 train_time:60537ms step_avg:164.95ms
step:378/1530 train_loss:3.8476 train_time:60713ms step_avg:164.98ms
step:379/1530 train_loss:3.8634 train_time:61034ms step_avg:165.40ms
step:380/1530 train_loss:3.9502 train_time:61200ms step_avg:165.41ms
step:381/1530 train_loss:3.8390 train_time:61370ms step_avg:165.42ms
step:382/1530 train_loss:3.7966 train_time:61538ms step_avg:165.43ms
step:383/1530 train_loss:3.7971 train_time:61706ms step_avg:165.43ms
step:384/1530 train_loss:3.8732 train_time:61873ms step_avg:165.44ms
step:385/1530 train_loss:3.7856 train_time:62041ms step_avg:165.44ms
step:386/1530 train_loss:3.8895 train_time:62209ms step_avg:165.45ms
step:387/1530 train_loss:4.0543 train_time:62378ms step_avg:165.46ms
step:388/1530 train_loss:3.7919 train_time:62545ms step_avg:165.46ms
step:389/1530 train_loss:3.7988 train_time:62712ms step_avg:165.47ms
step:390/1530 train_loss:3.9009 train_time:62881ms step_avg:165.48ms
step:391/1530 train_loss:3.8160 train_time:63047ms step_avg:165.48ms
step:392/1530 train_loss:3.9232 train_time:63215ms step_avg:165.48ms
step:393/1530 train_loss:3.7608 train_time:63384ms step_avg:165.49ms
step:394/1530 train_loss:3.8821 train_time:63551ms step_avg:165.50ms
step:395/1530 train_loss:3.6315 train_time:63717ms step_avg:165.50ms
step:396/1530 train_loss:3.8379 train_time:63887ms step_avg:165.51ms
step:397/1530 train_loss:3.8620 train_time:64054ms step_avg:165.51ms
step:398/1530 train_loss:3.8732 train_time:64223ms step_avg:165.52ms
step:399/1530 train_loss:3.7674 train_time:64389ms step_avg:165.52ms
step:400/1530 train_loss:3.8283 train_time:64556ms step_avg:165.53ms
step:401/1530 train_loss:3.9197 train_time:64724ms step_avg:165.53ms
step:402/1530 train_loss:3.8454 train_time:64892ms step_avg:165.54ms
step:403/1530 train_loss:3.9587 train_time:65060ms step_avg:165.55ms
step:404/1530 train_loss:3.6713 train_time:65227ms step_avg:165.55ms
step:405/1530 train_loss:3.7833 train_time:65395ms step_avg:165.56ms
step:406/1530 train_loss:4.0930 train_time:65563ms step_avg:165.56ms
step:407/1530 train_loss:3.7685 train_time:65730ms step_avg:165.57ms
step:408/1530 train_loss:3.8166 train_time:65896ms step_avg:165.57ms
step:409/1530 train_loss:3.8521 train_time:66064ms step_avg:165.57ms
step:410/1530 train_loss:3.7501 train_time:66232ms step_avg:165.58ms
step:411/1530 train_loss:3.7566 train_time:66401ms step_avg:165.59ms
step:412/1530 train_loss:4.1796 train_time:66568ms step_avg:165.59ms
step:413/1530 train_loss:3.6319 train_time:66735ms step_avg:165.59ms
step:414/1530 train_loss:4.0071 train_time:66903ms step_avg:165.60ms
step:415/1530 train_loss:3.7529 train_time:67071ms step_avg:165.61ms
step:416/1530 train_loss:3.7601 train_time:67236ms step_avg:165.61ms
step:417/1530 train_loss:3.9499 train_time:67406ms step_avg:165.62ms
step:418/1530 train_loss:3.6896 train_time:67573ms step_avg:165.62ms
step:419/1530 train_loss:3.8090 train_time:67742ms step_avg:165.63ms
step:420/1530 train_loss:3.7010 train_time:67908ms step_avg:165.63ms
step:421/1530 train_loss:3.6437 train_time:68075ms step_avg:165.63ms
step:422/1530 train_loss:3.7846 train_time:68243ms step_avg:165.64ms
step:423/1530 train_loss:3.8830 train_time:68410ms step_avg:165.64ms
step:424/1530 train_loss:3.6089 train_time:68578ms step_avg:165.65ms
step:425/1530 train_loss:3.7885 train_time:68746ms step_avg:165.65ms
step:426/1530 train_loss:3.6420 train_time:68913ms step_avg:165.66ms
step:427/1530 train_loss:3.8879 train_time:69081ms step_avg:165.66ms
step:428/1530 train_loss:3.8072 train_time:69246ms step_avg:165.66ms
step:429/1530 train_loss:3.7511 train_time:69414ms step_avg:165.67ms
step:430/1530 train_loss:3.7052 train_time:69582ms step_avg:165.67ms
step:431/1530 train_loss:3.6253 train_time:69748ms step_avg:165.67ms
step:432/1530 train_loss:3.7635 train_time:69915ms step_avg:165.68ms
step:433/1530 train_loss:3.8121 train_time:70083ms step_avg:165.68ms
step:434/1530 train_loss:3.7704 train_time:70250ms step_avg:165.68ms
step:435/1530 train_loss:3.8071 train_time:70418ms step_avg:165.69ms
step:436/1530 train_loss:3.8320 train_time:70585ms step_avg:165.69ms
step:437/1530 train_loss:3.7189 train_time:70752ms step_avg:165.70ms
step:438/1530 train_loss:3.7012 train_time:70921ms step_avg:165.70ms
step:439/1530 train_loss:3.7102 train_time:71088ms step_avg:165.71ms
step:440/1530 train_loss:3.8939 train_time:71256ms step_avg:165.71ms
step:441/1530 train_loss:3.7572 train_time:71424ms step_avg:165.72ms
step:442/1530 train_loss:3.7355 train_time:71592ms step_avg:165.72ms
step:443/1530 train_loss:3.6269 train_time:71759ms step_avg:165.73ms
step:444/1530 train_loss:3.9222 train_time:71926ms step_avg:165.73ms
step:445/1530 train_loss:3.8446 train_time:72093ms step_avg:165.73ms
step:446/1530 train_loss:3.8351 train_time:72261ms step_avg:165.74ms
step:447/1530 train_loss:3.7499 train_time:72429ms step_avg:165.74ms
step:448/1530 train_loss:3.8524 train_time:72597ms step_avg:165.75ms
step:449/1530 train_loss:3.6953 train_time:72765ms step_avg:165.75ms
step:450/1530 train_loss:3.7095 train_time:72933ms step_avg:165.76ms
step:451/1530 train_loss:3.5822 train_time:73103ms step_avg:165.77ms
step:452/1530 train_loss:3.7105 train_time:73270ms step_avg:165.77ms
step:453/1530 train_loss:3.6706 train_time:73439ms step_avg:165.78ms
step:454/1530 train_loss:3.6363 train_time:73606ms step_avg:165.78ms
step:455/1530 train_loss:3.8363 train_time:73774ms step_avg:165.78ms
step:456/1530 train_loss:3.7255 train_time:73943ms step_avg:165.79ms
step:457/1530 train_loss:3.7829 train_time:74112ms step_avg:165.80ms
step:458/1530 train_loss:3.8249 train_time:74283ms step_avg:165.81ms
step:459/1530 train_loss:3.6313 train_time:74454ms step_avg:165.82ms
step:460/1530 train_loss:3.7887 train_time:74624ms step_avg:165.83ms
step:461/1530 train_loss:3.6868 train_time:74793ms step_avg:165.84ms
step:462/1530 train_loss:3.7325 train_time:74963ms step_avg:165.85ms
step:463/1530 train_loss:3.7736 train_time:75132ms step_avg:165.85ms
step:464/1530 train_loss:3.7114 train_time:75303ms step_avg:165.87ms
step:465/1530 train_loss:3.7219 train_time:75472ms step_avg:165.87ms
step:466/1530 train_loss:3.7953 train_time:75642ms step_avg:165.88ms
step:467/1530 train_loss:3.8186 train_time:75813ms step_avg:165.89ms
step:468/1530 train_loss:3.7891 train_time:75983ms step_avg:165.90ms
step:469/1530 train_loss:3.6841 train_time:76152ms step_avg:165.91ms
step:470/1530 train_loss:3.7619 train_time:76322ms step_avg:165.92ms
step:471/1530 train_loss:3.8080 train_time:76492ms step_avg:165.93ms
step:472/1530 train_loss:3.7788 train_time:76663ms step_avg:165.94ms
step:473/1530 train_loss:3.7104 train_time:76832ms step_avg:165.94ms
step:474/1530 train_loss:3.5923 train_time:77003ms step_avg:165.95ms
step:475/1530 train_loss:4.0065 train_time:77172ms step_avg:165.96ms
step:476/1530 train_loss:3.7508 train_time:77343ms step_avg:165.97ms
step:477/1530 train_loss:3.5946 train_time:77512ms step_avg:165.98ms
step:478/1530 train_loss:3.8227 train_time:77681ms step_avg:165.98ms
step:479/1530 train_loss:3.7701 train_time:77850ms step_avg:165.99ms
step:480/1530 train_loss:3.9116 train_time:78023ms step_avg:166.01ms
step:481/1530 train_loss:3.7205 train_time:78192ms step_avg:166.01ms
step:482/1530 train_loss:3.5291 train_time:78362ms step_avg:166.02ms
step:483/1530 train_loss:3.7976 train_time:78532ms step_avg:166.03ms
step:484/1530 train_loss:3.6604 train_time:78702ms step_avg:166.04ms
step:485/1530 train_loss:3.6548 train_time:78873ms step_avg:166.05ms
step:486/1530 train_loss:3.5646 train_time:79044ms step_avg:166.06ms
step:487/1530 train_loss:3.6811 train_time:79212ms step_avg:166.06ms
step:488/1530 train_loss:3.8751 train_time:79383ms step_avg:166.07ms
step:489/1530 train_loss:3.7092 train_time:79552ms step_avg:166.08ms
step:490/1530 train_loss:3.5889 train_time:79722ms step_avg:166.09ms
step:491/1530 train_loss:3.6131 train_time:79890ms step_avg:166.09ms
step:492/1530 train_loss:3.7302 train_time:80060ms step_avg:166.10ms
step:493/1530 train_loss:3.5751 train_time:80230ms step_avg:166.11ms
step:494/1530 train_loss:3.6987 train_time:80400ms step_avg:166.12ms
step:495/1530 train_loss:3.6609 train_time:80570ms step_avg:166.12ms
step:496/1530 train_loss:3.5055 train_time:80740ms step_avg:166.13ms
step:497/1530 train_loss:3.7309 train_time:80909ms step_avg:166.14ms
step:498/1530 train_loss:3.7864 train_time:81078ms step_avg:166.14ms
step:499/1530 train_loss:3.8192 train_time:81249ms step_avg:166.15ms
step:500/1530 train_loss:3.7251 train_time:81419ms step_avg:166.16ms
step:500/1530 val_loss:3.7033 train_time:81468ms step_avg:166.26ms
step:501/1530 train_loss:3.8048 train_time:81590ms step_avg:166.17ms
step:502/1530 train_loss:3.7525 train_time:81762ms step_avg:166.18ms
step:503/1530 train_loss:3.7681 train_time:81931ms step_avg:166.19ms
step:504/1530 train_loss:3.7187 train_time:82101ms step_avg:166.20ms
step:505/1530 train_loss:3.8018 train_time:82270ms step_avg:166.20ms
step:506/1530 train_loss:3.6459 train_time:82442ms step_avg:166.21ms
step:507/1530 train_loss:3.7662 train_time:82611ms step_avg:166.22ms
step:508/1530 train_loss:3.8252 train_time:82783ms step_avg:166.23ms
step:509/1530 train_loss:3.7713 train_time:82951ms step_avg:166.24ms
step:510/1530 train_loss:3.5822 train_time:83122ms step_avg:166.24ms
step:511/1530 train_loss:3.7768 train_time:83291ms step_avg:166.25ms
step:512/1530 train_loss:3.7121 train_time:83463ms step_avg:166.26ms
step:513/1530 train_loss:3.6621 train_time:83632ms step_avg:166.27ms
step:514/1530 train_loss:3.8501 train_time:83803ms step_avg:166.28ms
step:515/1530 train_loss:3.7351 train_time:83972ms step_avg:166.28ms
step:516/1530 train_loss:4.0784 train_time:84144ms step_avg:166.29ms
step:517/1530 train_loss:3.6846 train_time:84313ms step_avg:166.30ms
step:518/1530 train_loss:3.7705 train_time:84482ms step_avg:166.30ms
step:519/1530 train_loss:3.6445 train_time:84650ms step_avg:166.31ms
step:520/1530 train_loss:3.6786 train_time:84822ms step_avg:166.32ms
step:521/1530 train_loss:3.6663 train_time:84992ms step_avg:166.32ms
step:522/1530 train_loss:3.6529 train_time:85162ms step_avg:166.33ms
step:523/1530 train_loss:4.2825 train_time:85332ms step_avg:166.34ms
step:524/1530 train_loss:3.7397 train_time:85501ms step_avg:166.34ms
step:525/1530 train_loss:3.6769 train_time:85669ms step_avg:166.35ms
step:526/1530 train_loss:3.6931 train_time:85840ms step_avg:166.36ms
step:527/1530 train_loss:3.6607 train_time:86008ms step_avg:166.36ms
step:528/1530 train_loss:3.6285 train_time:86178ms step_avg:166.37ms
step:529/1530 train_loss:3.8471 train_time:86347ms step_avg:166.37ms
step:530/1530 train_loss:3.6398 train_time:86518ms step_avg:166.38ms
step:531/1530 train_loss:3.9182 train_time:86686ms step_avg:166.38ms
step:532/1530 train_loss:3.7342 train_time:86856ms step_avg:166.39ms
step:533/1530 train_loss:3.6523 train_time:87026ms step_avg:166.40ms
step:534/1530 train_loss:3.6687 train_time:87194ms step_avg:166.40ms
step:535/1530 train_loss:3.6019 train_time:87364ms step_avg:166.41ms
step:536/1530 train_loss:3.7463 train_time:87534ms step_avg:166.41ms
step:537/1530 train_loss:3.7236 train_time:87703ms step_avg:166.42ms
step:538/1530 train_loss:3.6252 train_time:87872ms step_avg:166.42ms
step:539/1530 train_loss:4.1117 train_time:88045ms step_avg:166.44ms
step:540/1530 train_loss:3.6752 train_time:88214ms step_avg:166.44ms
step:541/1530 train_loss:3.7784 train_time:88382ms step_avg:166.44ms
step:542/1530 train_loss:3.5830 train_time:88551ms step_avg:166.45ms
step:543/1530 train_loss:3.5843 train_time:88720ms step_avg:166.45ms
step:544/1530 train_loss:3.6370 train_time:88888ms step_avg:166.46ms
step:545/1530 train_loss:3.5868 train_time:89057ms step_avg:166.46ms
step:546/1530 train_loss:3.6230 train_time:89227ms step_avg:166.47ms
step:547/1530 train_loss:3.6331 train_time:89395ms step_avg:166.47ms
step:548/1530 train_loss:3.6093 train_time:89566ms step_avg:166.48ms
step:549/1530 train_loss:3.7189 train_time:89734ms step_avg:166.48ms
step:550/1530 train_loss:3.6157 train_time:89904ms step_avg:166.49ms
step:551/1530 train_loss:3.6300 train_time:90072ms step_avg:166.49ms
step:552/1530 train_loss:3.9280 train_time:90243ms step_avg:166.50ms
step:553/1530 train_loss:3.7583 train_time:90411ms step_avg:166.50ms
step:554/1530 train_loss:3.7076 train_time:90580ms step_avg:166.51ms
step:555/1530 train_loss:3.6284 train_time:90749ms step_avg:166.51ms
step:556/1530 train_loss:3.6981 train_time:90917ms step_avg:166.52ms
step:557/1530 train_loss:3.3057 train_time:91086ms step_avg:166.52ms
step:558/1530 train_loss:3.6136 train_time:91256ms step_avg:166.52ms
step:559/1530 train_loss:3.6448 train_time:91424ms step_avg:166.53ms
step:560/1530 train_loss:3.6861 train_time:91592ms step_avg:166.53ms
step:561/1530 train_loss:3.6125 train_time:91761ms step_avg:166.54ms
step:562/1530 train_loss:3.5547 train_time:91930ms step_avg:166.54ms
step:563/1530 train_loss:3.7538 train_time:92098ms step_avg:166.54ms
step:564/1530 train_loss:3.5713 train_time:92267ms step_avg:166.55ms
step:565/1530 train_loss:3.6829 train_time:92436ms step_avg:166.55ms
step:566/1530 train_loss:3.6220 train_time:92743ms step_avg:166.80ms
step:567/1530 train_loss:3.6012 train_time:92921ms step_avg:166.82ms
step:568/1530 train_loss:3.6828 train_time:93091ms step_avg:166.83ms
step:569/1530 train_loss:3.6450 train_time:93417ms step_avg:167.11ms
step:570/1530 train_loss:3.6892 train_time:93587ms step_avg:167.12ms
step:571/1530 train_loss:3.7595 train_time:93756ms step_avg:167.12ms
step:572/1530 train_loss:3.7244 train_time:93928ms step_avg:167.13ms
step:573/1530 train_loss:3.7351 train_time:94100ms step_avg:167.14ms
step:574/1530 train_loss:3.7723 train_time:94273ms step_avg:167.15ms
step:575/1530 train_loss:3.7275 train_time:94446ms step_avg:167.16ms
step:576/1530 train_loss:3.7560 train_time:94617ms step_avg:167.17ms
step:577/1530 train_loss:3.6754 train_time:94789ms step_avg:167.18ms
step:578/1530 train_loss:3.6692 train_time:94962ms step_avg:167.19ms
step:579/1530 train_loss:3.6682 train_time:95133ms step_avg:167.19ms
step:580/1530 train_loss:3.5834 train_time:95304ms step_avg:167.20ms
step:581/1530 train_loss:3.6339 train_time:95475ms step_avg:167.21ms
step:582/1530 train_loss:3.8455 train_time:95647ms step_avg:167.21ms
step:583/1530 train_loss:3.6201 train_time:95818ms step_avg:167.22ms
step:584/1530 train_loss:3.5852 train_time:95989ms step_avg:167.23ms
step:585/1530 train_loss:3.7853 train_time:96160ms step_avg:167.24ms
step:586/1530 train_loss:3.5155 train_time:96331ms step_avg:167.24ms
step:587/1530 train_loss:3.6665 train_time:96502ms step_avg:167.25ms
step:588/1530 train_loss:3.6373 train_time:96672ms step_avg:167.25ms
step:589/1530 train_loss:4.0003 train_time:96845ms step_avg:167.26ms
step:590/1530 train_loss:3.7786 train_time:97017ms step_avg:167.27ms
step:591/1530 train_loss:3.5036 train_time:97188ms step_avg:167.28ms
step:592/1530 train_loss:3.5347 train_time:97362ms step_avg:167.29ms
step:593/1530 train_loss:3.4947 train_time:97533ms step_avg:167.29ms
step:594/1530 train_loss:3.5507 train_time:97705ms step_avg:167.30ms
step:595/1530 train_loss:3.9153 train_time:97879ms step_avg:167.31ms
step:596/1530 train_loss:3.6399 train_time:98052ms step_avg:167.32ms
step:597/1530 train_loss:3.5823 train_time:98223ms step_avg:167.33ms
step:598/1530 train_loss:3.6582 train_time:98392ms step_avg:167.33ms
step:599/1530 train_loss:3.4752 train_time:98564ms step_avg:167.34ms
step:600/1530 train_loss:3.5911 train_time:98735ms step_avg:167.35ms
step:601/1530 train_loss:3.6494 train_time:98908ms step_avg:167.36ms
step:602/1530 train_loss:3.6674 train_time:99079ms step_avg:167.36ms
step:603/1530 train_loss:3.7821 train_time:99250ms step_avg:167.37ms
step:604/1530 train_loss:3.6087 train_time:99422ms step_avg:167.38ms
step:605/1530 train_loss:3.6102 train_time:99594ms step_avg:167.39ms
step:606/1530 train_loss:3.5795 train_time:99768ms step_avg:167.40ms
step:607/1530 train_loss:3.8375 train_time:99940ms step_avg:167.40ms
step:608/1530 train_loss:3.6341 train_time:100111ms step_avg:167.41ms
step:609/1530 train_loss:3.6130 train_time:100282ms step_avg:167.42ms
step:610/1530 train_loss:3.7007 train_time:100452ms step_avg:167.42ms
step:611/1530 train_loss:3.6002 train_time:100624ms step_avg:167.43ms
step:612/1530 train_loss:3.5662 train_time:100795ms step_avg:167.43ms
step:613/1530 train_loss:3.7589 train_time:100967ms step_avg:167.44ms
step:614/1530 train_loss:3.6984 train_time:101140ms step_avg:167.45ms
step:615/1530 train_loss:3.6828 train_time:101309ms step_avg:167.45ms
step:616/1530 train_loss:3.6281 train_time:101482ms step_avg:167.46ms
step:617/1530 train_loss:3.5585 train_time:101655ms step_avg:167.47ms
step:618/1530 train_loss:3.6848 train_time:101826ms step_avg:167.48ms
step:619/1530 train_loss:3.5447 train_time:101999ms step_avg:167.49ms
step:620/1530 train_loss:3.5923 train_time:102168ms step_avg:167.49ms
step:621/1530 train_loss:3.9267 train_time:102343ms step_avg:167.50ms
step:622/1530 train_loss:3.5679 train_time:102513ms step_avg:167.51ms
step:623/1530 train_loss:3.5957 train_time:102687ms step_avg:167.52ms
step:624/1530 train_loss:3.6934 train_time:102857ms step_avg:167.52ms
step:625/1530 train_loss:3.7007 train_time:103028ms step_avg:167.53ms
step:625/1530 val_loss:3.6182 train_time:103079ms step_avg:167.61ms
step:626/1530 train_loss:3.7355 train_time:103201ms step_avg:167.53ms
step:627/1530 train_loss:3.7028 train_time:103375ms step_avg:167.54ms
step:628/1530 train_loss:3.7574 train_time:103545ms step_avg:167.55ms
step:629/1530 train_loss:3.5887 train_time:103717ms step_avg:167.56ms
step:630/1530 train_loss:3.7158 train_time:103887ms step_avg:167.56ms
step:631/1530 train_loss:3.7375 train_time:104059ms step_avg:167.57ms
step:632/1530 train_loss:3.6419 train_time:104229ms step_avg:167.57ms
step:633/1530 train_loss:3.6019 train_time:104401ms step_avg:167.58ms
step:634/1530 train_loss:3.6928 train_time:104573ms step_avg:167.59ms
step:635/1530 train_loss:3.9443 train_time:104743ms step_avg:167.59ms
step:636/1530 train_loss:3.5450 train_time:104914ms step_avg:167.59ms
step:637/1530 train_loss:3.3497 train_time:105083ms step_avg:167.60ms
step:638/1530 train_loss:3.5905 train_time:105254ms step_avg:167.60ms
step:639/1530 train_loss:3.6331 train_time:105425ms step_avg:167.61ms
step:640/1530 train_loss:3.5716 train_time:105596ms step_avg:167.61ms
step:641/1530 train_loss:3.5885 train_time:105768ms step_avg:167.62ms
step:642/1530 train_loss:3.6302 train_time:105937ms step_avg:167.62ms
step:643/1530 train_loss:3.5916 train_time:106107ms step_avg:167.63ms
step:644/1530 train_loss:3.5574 train_time:106277ms step_avg:167.63ms
step:645/1530 train_loss:3.7732 train_time:106448ms step_avg:167.63ms
step:646/1530 train_loss:3.6727 train_time:106618ms step_avg:167.64ms
step:647/1530 train_loss:3.6606 train_time:106788ms step_avg:167.64ms
step:648/1530 train_loss:3.7075 train_time:106960ms step_avg:167.65ms
step:649/1530 train_loss:3.7694 train_time:107130ms step_avg:167.65ms
step:650/1530 train_loss:3.6162 train_time:107302ms step_avg:167.66ms
step:651/1530 train_loss:3.7675 train_time:107476ms step_avg:167.67ms
step:652/1530 train_loss:3.5781 train_time:107646ms step_avg:167.67ms
step:653/1530 train_loss:3.6631 train_time:107817ms step_avg:167.68ms
step:654/1530 train_loss:3.4243 train_time:107987ms step_avg:167.68ms
step:655/1530 train_loss:3.5765 train_time:108158ms step_avg:167.69ms
step:656/1530 train_loss:3.5732 train_time:108327ms step_avg:167.69ms
step:657/1530 train_loss:3.4968 train_time:108498ms step_avg:167.69ms
step:658/1530 train_loss:3.6935 train_time:108669ms step_avg:167.70ms
step:659/1530 train_loss:3.5860 train_time:108839ms step_avg:167.70ms
step:660/1530 train_loss:3.6851 train_time:109009ms step_avg:167.71ms
step:661/1530 train_loss:3.7511 train_time:109181ms step_avg:167.71ms
step:662/1530 train_loss:3.6696 train_time:109354ms step_avg:167.72ms
step:663/1530 train_loss:3.5542 train_time:109523ms step_avg:167.72ms
step:664/1530 train_loss:3.6063 train_time:109695ms step_avg:167.73ms
step:665/1530 train_loss:3.4867 train_time:109868ms step_avg:167.74ms
step:666/1530 train_loss:3.7752 train_time:110038ms step_avg:167.74ms
step:667/1530 train_loss:3.5989 train_time:110209ms step_avg:167.75ms
step:668/1530 train_loss:3.6470 train_time:110381ms step_avg:167.75ms
step:669/1530 train_loss:3.4895 train_time:110555ms step_avg:167.76ms
step:670/1530 train_loss:3.6042 train_time:110724ms step_avg:167.76ms
step:671/1530 train_loss:3.5552 train_time:110895ms step_avg:167.77ms
step:672/1530 train_loss:3.5643 train_time:111067ms step_avg:167.78ms
step:673/1530 train_loss:3.8454 train_time:111239ms step_avg:167.78ms
step:674/1530 train_loss:3.6163 train_time:111408ms step_avg:167.78ms
step:675/1530 train_loss:3.7046 train_time:111580ms step_avg:167.79ms
step:676/1530 train_loss:3.4847 train_time:111751ms step_avg:167.79ms
step:677/1530 train_loss:3.6011 train_time:111921ms step_avg:167.80ms
step:678/1530 train_loss:3.5492 train_time:112092ms step_avg:167.80ms
step:679/1530 train_loss:3.6745 train_time:112263ms step_avg:167.81ms
step:680/1530 train_loss:3.5846 train_time:112433ms step_avg:167.81ms
step:681/1530 train_loss:3.6116 train_time:112606ms step_avg:167.82ms
step:682/1530 train_loss:3.6589 train_time:112782ms step_avg:167.83ms
step:683/1530 train_loss:3.7349 train_time:112956ms step_avg:167.84ms
step:684/1530 train_loss:3.6527 train_time:113127ms step_avg:167.84ms
step:685/1530 train_loss:3.6817 train_time:113302ms step_avg:167.85ms
step:686/1530 train_loss:3.6341 train_time:113476ms step_avg:167.86ms
step:687/1530 train_loss:3.6629 train_time:113649ms step_avg:167.87ms
step:688/1530 train_loss:3.2072 train_time:113824ms step_avg:167.88ms
step:689/1530 train_loss:3.4009 train_time:113998ms step_avg:167.89ms
step:690/1530 train_loss:3.5376 train_time:114173ms step_avg:167.90ms
step:691/1530 train_loss:3.4096 train_time:114344ms step_avg:167.91ms
step:692/1530 train_loss:3.6179 train_time:114516ms step_avg:167.91ms
step:693/1530 train_loss:3.6448 train_time:114688ms step_avg:167.92ms
step:694/1530 train_loss:3.5485 train_time:114861ms step_avg:167.92ms
step:695/1530 train_loss:3.5333 train_time:115031ms step_avg:167.93ms
step:696/1530 train_loss:3.8463 train_time:115205ms step_avg:167.94ms
step:697/1530 train_loss:3.5851 train_time:115380ms step_avg:167.95ms
step:698/1530 train_loss:3.6421 train_time:115552ms step_avg:167.95ms
step:699/1530 train_loss:3.7694 train_time:115725ms step_avg:167.96ms
step:700/1530 train_loss:3.5705 train_time:115898ms step_avg:167.97ms
step:701/1530 train_loss:3.5418 train_time:116071ms step_avg:167.98ms
step:702/1530 train_loss:3.5137 train_time:116243ms step_avg:167.98ms
step:703/1530 train_loss:3.5001 train_time:116416ms step_avg:167.99ms
step:704/1530 train_loss:3.5729 train_time:116589ms step_avg:168.00ms
step:705/1530 train_loss:3.5586 train_time:116765ms step_avg:168.01ms
step:706/1530 train_loss:3.5792 train_time:116941ms step_avg:168.02ms
step:707/1530 train_loss:3.6444 train_time:117116ms step_avg:168.03ms
step:708/1530 train_loss:3.6011 train_time:117289ms step_avg:168.04ms
step:709/1530 train_loss:3.5764 train_time:117462ms step_avg:168.04ms
step:710/1530 train_loss:3.5363 train_time:117634ms step_avg:168.05ms
step:711/1530 train_loss:3.5941 train_time:117806ms step_avg:168.05ms
step:712/1530 train_loss:3.6512 train_time:117981ms step_avg:168.06ms
step:713/1530 train_loss:3.6549 train_time:118158ms step_avg:168.08ms
step:714/1530 train_loss:3.5566 train_time:118330ms step_avg:168.08ms
step:715/1530 train_loss:3.5690 train_time:118502ms step_avg:168.09ms
step:716/1530 train_loss:3.5884 train_time:118675ms step_avg:168.10ms
step:717/1530 train_loss:3.7005 train_time:118849ms step_avg:168.10ms
step:718/1530 train_loss:3.5920 train_time:119020ms step_avg:168.11ms
step:719/1530 train_loss:3.6791 train_time:119194ms step_avg:168.12ms
step:720/1530 train_loss:3.8401 train_time:119368ms step_avg:168.12ms
step:721/1530 train_loss:3.4656 train_time:119540ms step_avg:168.13ms
step:722/1530 train_loss:3.7410 train_time:119712ms step_avg:168.14ms
step:723/1530 train_loss:3.7712 train_time:119884ms step_avg:168.14ms
step:724/1530 train_loss:3.5694 train_time:120058ms step_avg:168.15ms
step:725/1530 train_loss:3.6597 train_time:120230ms step_avg:168.15ms
step:726/1530 train_loss:3.5295 train_time:120403ms step_avg:168.16ms
step:727/1530 train_loss:3.5798 train_time:120579ms step_avg:168.17ms
step:728/1530 train_loss:3.7275 train_time:120753ms step_avg:168.18ms
step:729/1530 train_loss:3.6711 train_time:120926ms step_avg:168.19ms
step:730/1530 train_loss:3.6602 train_time:121100ms step_avg:168.19ms
step:731/1530 train_loss:3.5551 train_time:121273ms step_avg:168.20ms
step:732/1530 train_loss:3.5917 train_time:121444ms step_avg:168.21ms
step:733/1530 train_loss:3.8321 train_time:121618ms step_avg:168.21ms
step:734/1530 train_loss:3.5553 train_time:121793ms step_avg:168.22ms
step:735/1530 train_loss:3.6194 train_time:121965ms step_avg:168.23ms
step:736/1530 train_loss:3.7372 train_time:122138ms step_avg:168.23ms
step:737/1530 train_loss:3.6764 train_time:122309ms step_avg:168.24ms
step:738/1530 train_loss:3.6006 train_time:122481ms step_avg:168.24ms
step:739/1530 train_loss:3.5015 train_time:122654ms step_avg:168.25ms
step:740/1530 train_loss:4.1151 train_time:122831ms step_avg:168.26ms
step:741/1530 train_loss:3.4891 train_time:123003ms step_avg:168.27ms
step:742/1530 train_loss:3.5464 train_time:123176ms step_avg:168.27ms
step:743/1530 train_loss:3.5727 train_time:123349ms step_avg:168.28ms
step:744/1530 train_loss:3.6502 train_time:123522ms step_avg:168.29ms
step:745/1530 train_loss:3.5920 train_time:123697ms step_avg:168.29ms
step:746/1530 train_loss:3.5956 train_time:123869ms step_avg:168.30ms
step:747/1530 train_loss:3.6381 train_time:124042ms step_avg:168.31ms
step:748/1530 train_loss:3.5617 train_time:124217ms step_avg:168.32ms
step:749/1530 train_loss:3.5625 train_time:124390ms step_avg:168.32ms
step:750/1530 train_loss:3.5958 train_time:124560ms step_avg:168.32ms
step:750/1530 val_loss:3.5626 train_time:124610ms step_avg:168.39ms
step:751/1530 train_loss:3.5646 train_time:124733ms step_avg:168.33ms
step:752/1530 train_loss:3.6138 train_time:124906ms step_avg:168.34ms
step:753/1530 train_loss:3.6202 train_time:125079ms step_avg:168.34ms
step:754/1530 train_loss:3.5931 train_time:125251ms step_avg:168.35ms
step:755/1530 train_loss:3.6868 train_time:125553ms step_avg:168.53ms
step:756/1530 train_loss:3.4544 train_time:125736ms step_avg:168.55ms
step:757/1530 train_loss:3.7227 train_time:125911ms step_avg:168.56ms
step:758/1530 train_loss:3.6498 train_time:126083ms step_avg:168.56ms
step:759/1530 train_loss:3.5858 train_time:126404ms step_avg:168.76ms
step:760/1530 train_loss:3.7046 train_time:126576ms step_avg:168.77ms
step:761/1530 train_loss:3.4002 train_time:126747ms step_avg:168.77ms
step:762/1530 train_loss:3.5473 train_time:126918ms step_avg:168.77ms
step:763/1530 train_loss:3.6622 train_time:127091ms step_avg:168.78ms
step:764/1530 train_loss:3.3191 train_time:127264ms step_avg:168.79ms
step:765/1530 train_loss:3.7284 train_time:127436ms step_avg:168.79ms
step:766/1530 train_loss:3.5649 train_time:127609ms step_avg:168.79ms
step:767/1530 train_loss:3.5646 train_time:127781ms step_avg:168.80ms
step:768/1530 train_loss:3.5776 train_time:127954ms step_avg:168.80ms
step:769/1530 train_loss:3.5831 train_time:128127ms step_avg:168.81ms
step:770/1530 train_loss:3.6415 train_time:128300ms step_avg:168.82ms
step:771/1530 train_loss:3.8767 train_time:128472ms step_avg:168.82ms
step:772/1530 train_loss:3.4465 train_time:128643ms step_avg:168.82ms
step:773/1530 train_loss:3.6306 train_time:128814ms step_avg:168.83ms
step:774/1530 train_loss:3.6417 train_time:128985ms step_avg:168.83ms
step:775/1530 train_loss:3.6041 train_time:129156ms step_avg:168.83ms
step:776/1530 train_loss:3.4087 train_time:129331ms step_avg:168.84ms
step:777/1530 train_loss:3.3826 train_time:129505ms step_avg:168.85ms
step:778/1530 train_loss:3.4900 train_time:129677ms step_avg:168.85ms
step:779/1530 train_loss:3.5818 train_time:129847ms step_avg:168.85ms
step:780/1530 train_loss:3.5848 train_time:130020ms step_avg:168.86ms
step:781/1530 train_loss:3.6726 train_time:130193ms step_avg:168.86ms
step:782/1530 train_loss:3.5832 train_time:130364ms step_avg:168.87ms
step:783/1530 train_loss:3.5683 train_time:130535ms step_avg:168.87ms
step:784/1530 train_loss:3.6015 train_time:130707ms step_avg:168.87ms
step:785/1530 train_loss:3.5598 train_time:130879ms step_avg:168.88ms
step:786/1530 train_loss:3.4378 train_time:131050ms step_avg:168.88ms
step:787/1530 train_loss:3.7299 train_time:131222ms step_avg:168.88ms
step:788/1530 train_loss:3.4967 train_time:131397ms step_avg:168.89ms
step:789/1530 train_loss:3.5471 train_time:131568ms step_avg:168.89ms
step:790/1530 train_loss:3.6253 train_time:131743ms step_avg:168.90ms
step:791/1530 train_loss:3.7685 train_time:131918ms step_avg:168.91ms
step:792/1530 train_loss:3.7606 train_time:132089ms step_avg:168.91ms
step:793/1530 train_loss:3.4517 train_time:132261ms step_avg:168.92ms
step:794/1530 train_loss:3.5954 train_time:132435ms step_avg:168.92ms
step:795/1530 train_loss:3.6712 train_time:132609ms step_avg:168.93ms
step:796/1530 train_loss:3.7322 train_time:132787ms step_avg:168.94ms
step:797/1530 train_loss:3.5222 train_time:132960ms step_avg:168.95ms
step:798/1530 train_loss:3.6382 train_time:133134ms step_avg:168.95ms
step:799/1530 train_loss:3.5325 train_time:133310ms step_avg:168.96ms
step:800/1530 train_loss:3.5316 train_time:133484ms step_avg:168.97ms
step:801/1530 train_loss:3.6229 train_time:133659ms step_avg:168.97ms
step:802/1530 train_loss:3.4944 train_time:133836ms step_avg:168.98ms
step:803/1530 train_loss:3.4852 train_time:134009ms step_avg:168.99ms
step:804/1530 train_loss:3.6168 train_time:134184ms step_avg:169.00ms
step:805/1530 train_loss:3.5140 train_time:134361ms step_avg:169.01ms
step:806/1530 train_loss:3.5570 train_time:134536ms step_avg:169.01ms
step:807/1530 train_loss:3.6432 train_time:134708ms step_avg:169.02ms
step:808/1530 train_loss:3.5415 train_time:134884ms step_avg:169.03ms
step:809/1530 train_loss:3.4919 train_time:135057ms step_avg:169.03ms
step:810/1530 train_loss:3.5624 train_time:135230ms step_avg:169.04ms
step:811/1530 train_loss:3.5793 train_time:135402ms step_avg:169.04ms
step:812/1530 train_loss:3.5996 train_time:135576ms step_avg:169.05ms
step:813/1530 train_loss:3.6243 train_time:135748ms step_avg:169.05ms
step:814/1530 train_loss:3.5642 train_time:135923ms step_avg:169.06ms
step:815/1530 train_loss:3.5612 train_time:136097ms step_avg:169.07ms
step:816/1530 train_loss:3.6874 train_time:136271ms step_avg:169.07ms
step:817/1530 train_loss:3.7638 train_time:136444ms step_avg:169.08ms
step:818/1530 train_loss:3.5213 train_time:136617ms step_avg:169.08ms
step:819/1530 train_loss:3.7151 train_time:136791ms step_avg:169.09ms
step:820/1530 train_loss:3.4988 train_time:136967ms step_avg:169.10ms
step:821/1530 train_loss:3.5631 train_time:137139ms step_avg:169.10ms
step:822/1530 train_loss:3.6928 train_time:137316ms step_avg:169.11ms
step:823/1530 train_loss:3.5710 train_time:137489ms step_avg:169.11ms
step:824/1530 train_loss:3.5117 train_time:137663ms step_avg:169.12ms
step:825/1530 train_loss:3.6101 train_time:137838ms step_avg:169.13ms
step:826/1530 train_loss:3.4828 train_time:138014ms step_avg:169.13ms
step:827/1530 train_loss:3.7325 train_time:138188ms step_avg:169.14ms
step:828/1530 train_loss:3.6194 train_time:138363ms step_avg:169.15ms
step:829/1530 train_loss:3.6264 train_time:138539ms step_avg:169.16ms
step:830/1530 train_loss:3.5361 train_time:138714ms step_avg:169.16ms
step:831/1530 train_loss:3.6006 train_time:138888ms step_avg:169.17ms
step:832/1530 train_loss:3.5119 train_time:139064ms step_avg:169.18ms
step:833/1530 train_loss:3.6499 train_time:139240ms step_avg:169.19ms
step:834/1530 train_loss:3.4645 train_time:139414ms step_avg:169.19ms
step:835/1530 train_loss:3.4575 train_time:139587ms step_avg:169.20ms
step:836/1530 train_loss:3.7173 train_time:139762ms step_avg:169.20ms
step:837/1530 train_loss:3.3976 train_time:139937ms step_avg:169.21ms
step:838/1530 train_loss:3.5939 train_time:140110ms step_avg:169.21ms
step:839/1530 train_loss:3.4172 train_time:140285ms step_avg:169.22ms
step:840/1530 train_loss:3.4696 train_time:140459ms step_avg:169.23ms
step:841/1530 train_loss:3.5728 train_time:140631ms step_avg:169.23ms
step:842/1530 train_loss:3.5848 train_time:140807ms step_avg:169.24ms
step:843/1530 train_loss:3.5567 train_time:140980ms step_avg:169.24ms
step:844/1530 train_loss:3.4293 train_time:141152ms step_avg:169.25ms
step:845/1530 train_loss:3.6614 train_time:141326ms step_avg:169.25ms
step:846/1530 train_loss:3.5186 train_time:141502ms step_avg:169.26ms
step:847/1530 train_loss:3.4928 train_time:141677ms step_avg:169.27ms
step:848/1530 train_loss:3.6422 train_time:141851ms step_avg:169.27ms
step:849/1530 train_loss:3.4905 train_time:142027ms step_avg:169.28ms
step:850/1530 train_loss:3.4428 train_time:142202ms step_avg:169.29ms
step:851/1530 train_loss:3.7297 train_time:142375ms step_avg:169.29ms
step:852/1530 train_loss:3.4390 train_time:142547ms step_avg:169.30ms
step:853/1530 train_loss:3.5682 train_time:142720ms step_avg:169.30ms
step:854/1530 train_loss:3.6481 train_time:142897ms step_avg:169.31ms
step:855/1530 train_loss:3.5135 train_time:143070ms step_avg:169.31ms
step:856/1530 train_loss:3.5481 train_time:143243ms step_avg:169.32ms
step:857/1530 train_loss:3.6044 train_time:143417ms step_avg:169.32ms
step:858/1530 train_loss:3.4643 train_time:143594ms step_avg:169.33ms
step:859/1530 train_loss:3.5629 train_time:143768ms step_avg:169.34ms
step:860/1530 train_loss:3.5794 train_time:143940ms step_avg:169.34ms
step:861/1530 train_loss:3.6264 train_time:144117ms step_avg:169.35ms
step:862/1530 train_loss:3.6032 train_time:144296ms step_avg:169.36ms
step:863/1530 train_loss:3.5737 train_time:144470ms step_avg:169.37ms
step:864/1530 train_loss:3.3799 train_time:144644ms step_avg:169.37ms
step:865/1530 train_loss:3.5942 train_time:144815ms step_avg:169.37ms
step:866/1530 train_loss:3.9025 train_time:144993ms step_avg:169.38ms
step:867/1530 train_loss:3.4580 train_time:145166ms step_avg:169.39ms
step:868/1530 train_loss:3.6470 train_time:145339ms step_avg:169.39ms
step:869/1530 train_loss:3.6156 train_time:145512ms step_avg:169.40ms
step:870/1530 train_loss:3.4460 train_time:145687ms step_avg:169.40ms
step:871/1530 train_loss:3.3887 train_time:145862ms step_avg:169.41ms
step:872/1530 train_loss:3.6482 train_time:146038ms step_avg:169.42ms
step:873/1530 train_loss:3.4602 train_time:146211ms step_avg:169.42ms
step:874/1530 train_loss:3.2247 train_time:146389ms step_avg:169.43ms
step:875/1530 train_loss:3.6311 train_time:146563ms step_avg:169.44ms
step:875/1530 val_loss:3.5160 train_time:146613ms step_avg:169.50ms
step:876/1530 train_loss:3.4313 train_time:146739ms step_avg:169.44ms
step:877/1530 train_loss:3.6141 train_time:146914ms step_avg:169.45ms
step:878/1530 train_loss:3.4682 train_time:147088ms step_avg:169.46ms
step:879/1530 train_loss:3.6452 train_time:147262ms step_avg:169.46ms
step:880/1530 train_loss:3.3035 train_time:147434ms step_avg:169.46ms
step:881/1530 train_loss:3.4788 train_time:147607ms step_avg:169.47ms
step:882/1530 train_loss:3.6997 train_time:147781ms step_avg:169.47ms
step:883/1530 train_loss:3.8362 train_time:147954ms step_avg:169.48ms
step:884/1530 train_loss:3.5671 train_time:148129ms step_avg:169.48ms
step:885/1530 train_loss:3.4942 train_time:148302ms step_avg:169.49ms
step:886/1530 train_loss:3.5707 train_time:148477ms step_avg:169.49ms
step:887/1530 train_loss:4.0804 train_time:148650ms step_avg:169.50ms
step:888/1530 train_loss:3.8367 train_time:148829ms step_avg:169.51ms
step:889/1530 train_loss:3.5183 train_time:149003ms step_avg:169.51ms
step:890/1530 train_loss:3.5271 train_time:149175ms step_avg:169.52ms
step:891/1530 train_loss:3.3543 train_time:149350ms step_avg:169.52ms
step:892/1530 train_loss:3.7227 train_time:149522ms step_avg:169.53ms
step:893/1530 train_loss:3.4206 train_time:149694ms step_avg:169.53ms
step:894/1530 train_loss:3.6372 train_time:149868ms step_avg:169.53ms
step:895/1530 train_loss:3.6797 train_time:150043ms step_avg:169.54ms
step:896/1530 train_loss:3.5007 train_time:150218ms step_avg:169.55ms
step:897/1530 train_loss:3.5412 train_time:150392ms step_avg:169.55ms
step:898/1530 train_loss:3.5955 train_time:150568ms step_avg:169.56ms
step:899/1530 train_loss:3.4780 train_time:150741ms step_avg:169.56ms
step:900/1530 train_loss:3.4265 train_time:150913ms step_avg:169.57ms
step:901/1530 train_loss:3.6154 train_time:151086ms step_avg:169.57ms
step:902/1530 train_loss:3.6299 train_time:151259ms step_avg:169.57ms
step:903/1530 train_loss:3.5432 train_time:151436ms step_avg:169.58ms
step:904/1530 train_loss:3.4949 train_time:151610ms step_avg:169.59ms
step:905/1530 train_loss:3.5000 train_time:151781ms step_avg:169.59ms
step:906/1530 train_loss:3.7084 train_time:151955ms step_avg:169.59ms
step:907/1530 train_loss:3.5140 train_time:152130ms step_avg:169.60ms
step:908/1530 train_loss:3.5667 train_time:152303ms step_avg:169.60ms
step:909/1530 train_loss:3.4473 train_time:152479ms step_avg:169.61ms
step:910/1530 train_loss:3.5309 train_time:152659ms step_avg:169.62ms
step:911/1530 train_loss:3.6445 train_time:152835ms step_avg:169.63ms
step:912/1530 train_loss:3.5976 train_time:153013ms step_avg:169.64ms
step:913/1530 train_loss:3.4598 train_time:153192ms step_avg:169.65ms
step:914/1530 train_loss:3.7462 train_time:153370ms step_avg:169.66ms
step:915/1530 train_loss:3.5330 train_time:153550ms step_avg:169.67ms
step:916/1530 train_loss:3.6185 train_time:153725ms step_avg:169.67ms
step:917/1530 train_loss:3.5977 train_time:153899ms step_avg:169.68ms
step:918/1530 train_loss:4.8242 train_time:154079ms step_avg:169.69ms
step:919/1530 train_loss:3.5046 train_time:154259ms step_avg:169.70ms
step:920/1530 train_loss:3.5934 train_time:154433ms step_avg:169.71ms
step:921/1530 train_loss:3.5534 train_time:154610ms step_avg:169.71ms
step:922/1530 train_loss:3.5794 train_time:154788ms step_avg:169.72ms
step:923/1530 train_loss:3.6099 train_time:154964ms step_avg:169.73ms
step:924/1530 train_loss:3.6807 train_time:155141ms step_avg:169.74ms
step:925/1530 train_loss:3.6484 train_time:155315ms step_avg:169.74ms
step:926/1530 train_loss:3.5559 train_time:155488ms step_avg:169.75ms
step:927/1530 train_loss:3.5551 train_time:155665ms step_avg:169.75ms
step:928/1530 train_loss:3.7904 train_time:155842ms step_avg:169.76ms
step:929/1530 train_loss:3.6129 train_time:156016ms step_avg:169.77ms
step:930/1530 train_loss:3.4026 train_time:156192ms step_avg:169.77ms
step:931/1530 train_loss:3.4960 train_time:156366ms step_avg:169.78ms
step:932/1530 train_loss:3.6495 train_time:156545ms step_avg:169.79ms
step:933/1530 train_loss:3.3662 train_time:156721ms step_avg:169.79ms
step:934/1530 train_loss:3.5866 train_time:156900ms step_avg:169.80ms
step:935/1530 train_loss:3.4356 train_time:157078ms step_avg:169.81ms
step:936/1530 train_loss:3.5155 train_time:157257ms step_avg:169.82ms
step:937/1530 train_loss:3.6259 train_time:157435ms step_avg:169.83ms
step:938/1530 train_loss:3.5466 train_time:157609ms step_avg:169.84ms
step:939/1530 train_loss:3.6739 train_time:157789ms step_avg:169.85ms
step:940/1530 train_loss:3.4792 train_time:157963ms step_avg:169.85ms
step:941/1530 train_loss:3.5512 train_time:158138ms step_avg:169.86ms
step:942/1530 train_loss:3.3607 train_time:158316ms step_avg:169.87ms
step:943/1530 train_loss:3.7112 train_time:158497ms step_avg:169.88ms
step:944/1530 train_loss:3.3986 train_time:158807ms step_avg:170.03ms
step:945/1530 train_loss:3.4230 train_time:158992ms step_avg:170.04ms
step:946/1530 train_loss:5.0748 train_time:159174ms step_avg:170.06ms
step:947/1530 train_loss:3.6012 train_time:159350ms step_avg:170.06ms
step:948/1530 train_loss:3.4898 train_time:159525ms step_avg:170.07ms
step:949/1530 train_loss:3.3713 train_time:159853ms step_avg:170.24ms
step:950/1530 train_loss:3.4423 train_time:160028ms step_avg:170.24ms
step:951/1530 train_loss:3.4099 train_time:160206ms step_avg:170.25ms
step:952/1530 train_loss:3.4755 train_time:160380ms step_avg:170.26ms
step:953/1530 train_loss:3.5662 train_time:160556ms step_avg:170.26ms
step:954/1530 train_loss:3.4469 train_time:160735ms step_avg:170.27ms
step:955/1530 train_loss:3.4769 train_time:160911ms step_avg:170.28ms
step:956/1530 train_loss:3.4440 train_time:161086ms step_avg:170.28ms
step:957/1530 train_loss:3.4932 train_time:161265ms step_avg:170.29ms
step:958/1530 train_loss:3.5052 train_time:161445ms step_avg:170.30ms
step:959/1530 train_loss:3.5164 train_time:161621ms step_avg:170.31ms
step:960/1530 train_loss:3.4106 train_time:161799ms step_avg:170.31ms
step:961/1530 train_loss:3.6489 train_time:161974ms step_avg:170.32ms
step:962/1530 train_loss:3.5963 train_time:162148ms step_avg:170.32ms
step:963/1530 train_loss:3.7382 train_time:162327ms step_avg:170.33ms
step:964/1530 train_loss:3.4210 train_time:162505ms step_avg:170.34ms
step:965/1530 train_loss:3.4815 train_time:162679ms step_avg:170.34ms
step:966/1530 train_loss:3.7076 train_time:162856ms step_avg:170.35ms
step:967/1530 train_loss:3.5251 train_time:163031ms step_avg:170.36ms
step:968/1530 train_loss:3.5126 train_time:163206ms step_avg:170.36ms
step:969/1530 train_loss:3.5821 train_time:163382ms step_avg:170.37ms
step:970/1530 train_loss:3.3758 train_time:163554ms step_avg:170.37ms
step:971/1530 train_loss:3.5335 train_time:163727ms step_avg:170.37ms
step:972/1530 train_loss:3.4671 train_time:163903ms step_avg:170.38ms
step:973/1530 train_loss:3.5404 train_time:164076ms step_avg:170.38ms
step:974/1530 train_loss:3.5890 train_time:164253ms step_avg:170.39ms
step:975/1530 train_loss:3.4612 train_time:164428ms step_avg:170.39ms
step:976/1530 train_loss:3.6715 train_time:164604ms step_avg:170.40ms
step:977/1530 train_loss:3.5721 train_time:164777ms step_avg:170.40ms
step:978/1530 train_loss:3.3598 train_time:164952ms step_avg:170.40ms
step:979/1530 train_loss:3.6262 train_time:165128ms step_avg:170.41ms
step:980/1530 train_loss:3.4180 train_time:165305ms step_avg:170.42ms
step:981/1530 train_loss:3.5752 train_time:165482ms step_avg:170.42ms
step:982/1530 train_loss:3.5445 train_time:165655ms step_avg:170.43ms
step:983/1530 train_loss:3.5122 train_time:165831ms step_avg:170.43ms
step:984/1530 train_loss:3.4975 train_time:166005ms step_avg:170.44ms
step:985/1530 train_loss:3.5738 train_time:166183ms step_avg:170.44ms
step:986/1530 train_loss:3.4198 train_time:166360ms step_avg:170.45ms
step:987/1530 train_loss:3.4834 train_time:166533ms step_avg:170.45ms
step:988/1530 train_loss:3.4829 train_time:166707ms step_avg:170.46ms
step:989/1530 train_loss:3.4197 train_time:166882ms step_avg:170.46ms
step:990/1530 train_loss:3.6657 train_time:167059ms step_avg:170.47ms
step:991/1530 train_loss:3.4714 train_time:167234ms step_avg:170.47ms
step:992/1530 train_loss:3.4454 train_time:167414ms step_avg:170.48ms
step:993/1530 train_loss:3.5023 train_time:167594ms step_avg:170.49ms
step:994/1530 train_loss:3.5944 train_time:167767ms step_avg:170.50ms
step:995/1530 train_loss:3.5328 train_time:167940ms step_avg:170.50ms
step:996/1530 train_loss:3.4593 train_time:168113ms step_avg:170.50ms
step:997/1530 train_loss:3.7530 train_time:168286ms step_avg:170.50ms
step:998/1530 train_loss:3.4376 train_time:168459ms step_avg:170.51ms
step:999/1530 train_loss:3.5914 train_time:168633ms step_avg:170.51ms
step:1000/1530 train_loss:3.4403 train_time:168810ms step_avg:170.52ms
step:1000/1530 val_loss:3.4666 train_time:168862ms step_avg:170.57ms
step:1001/1530 train_loss:3.4964 train_time:168987ms step_avg:170.52ms
step:1002/1530 train_loss:3.3741 train_time:169160ms step_avg:170.52ms
step:1003/1530 train_loss:3.5562 train_time:169337ms step_avg:170.53ms
step:1004/1530 train_loss:3.6047 train_time:169513ms step_avg:170.54ms
step:1005/1530 train_loss:3.3983 train_time:169687ms step_avg:170.54ms
step:1006/1530 train_loss:3.4684 train_time:169863ms step_avg:170.55ms
step:1007/1530 train_loss:3.4409 train_time:170038ms step_avg:170.55ms
step:1008/1530 train_loss:3.5614 train_time:170213ms step_avg:170.55ms
step:1009/1530 train_loss:3.6631 train_time:170390ms step_avg:170.56ms
step:1010/1530 train_loss:3.5635 train_time:170563ms step_avg:170.56ms
step:1011/1530 train_loss:3.5324 train_time:170737ms step_avg:170.57ms
step:1012/1530 train_loss:3.3898 train_time:170911ms step_avg:170.57ms
step:1013/1530 train_loss:3.5331 train_time:171086ms step_avg:170.57ms
step:1014/1530 train_loss:3.6223 train_time:171264ms step_avg:170.58ms
step:1015/1530 train_loss:3.3302 train_time:171441ms step_avg:170.59ms
step:1016/1530 train_loss:3.4095 train_time:171616ms step_avg:170.59ms
step:1017/1530 train_loss:3.3982 train_time:171791ms step_avg:170.60ms
step:1018/1530 train_loss:3.3910 train_time:171966ms step_avg:170.60ms
step:1019/1530 train_loss:3.5177 train_time:172141ms step_avg:170.61ms
step:1020/1530 train_loss:3.3783 train_time:172320ms step_avg:170.61ms
step:1021/1530 train_loss:3.3587 train_time:172495ms step_avg:170.62ms
step:1022/1530 train_loss:3.4785 train_time:172673ms step_avg:170.63ms
step:1023/1530 train_loss:3.5081 train_time:172848ms step_avg:170.63ms
step:1024/1530 train_loss:3.4754 train_time:173026ms step_avg:170.64ms
step:1025/1530 train_loss:3.4778 train_time:173203ms step_avg:170.64ms
step:1026/1530 train_loss:3.6111 train_time:173378ms step_avg:170.65ms
step:1027/1530 train_loss:3.3145 train_time:173553ms step_avg:170.65ms
step:1028/1530 train_loss:3.3999 train_time:173733ms step_avg:170.66ms
step:1029/1530 train_loss:3.3103 train_time:173912ms step_avg:170.67ms
step:1030/1530 train_loss:3.5373 train_time:174089ms step_avg:170.68ms
step:1031/1530 train_loss:3.5116 train_time:174265ms step_avg:170.68ms
step:1032/1530 train_loss:3.6926 train_time:174447ms step_avg:170.69ms
step:1033/1530 train_loss:3.4889 train_time:174623ms step_avg:170.70ms
step:1034/1530 train_loss:3.3937 train_time:174799ms step_avg:170.70ms
step:1035/1530 train_loss:3.4439 train_time:174978ms step_avg:170.71ms
step:1036/1530 train_loss:3.4799 train_time:175156ms step_avg:170.72ms
step:1037/1530 train_loss:3.7920 train_time:175335ms step_avg:170.73ms
step:1038/1530 train_loss:3.6170 train_time:175514ms step_avg:170.73ms
step:1039/1530 train_loss:3.5141 train_time:175695ms step_avg:170.74ms
step:1040/1530 train_loss:3.4116 train_time:175870ms step_avg:170.75ms
step:1041/1530 train_loss:3.4884 train_time:176048ms step_avg:170.75ms
step:1042/1530 train_loss:3.5246 train_time:176222ms step_avg:170.76ms
step:1043/1530 train_loss:3.4464 train_time:176398ms step_avg:170.76ms
step:1044/1530 train_loss:3.4585 train_time:176575ms step_avg:170.77ms
step:1045/1530 train_loss:3.5164 train_time:176754ms step_avg:170.78ms
step:1046/1530 train_loss:3.4246 train_time:176931ms step_avg:170.78ms
step:1047/1530 train_loss:3.6335 train_time:177106ms step_avg:170.79ms
step:1048/1530 train_loss:3.4942 train_time:177281ms step_avg:170.79ms
step:1049/1530 train_loss:3.4020 train_time:177457ms step_avg:170.80ms
step:1050/1530 train_loss:3.3966 train_time:177635ms step_avg:170.80ms
step:1051/1530 train_loss:3.4970 train_time:177813ms step_avg:170.81ms
step:1052/1530 train_loss:3.3629 train_time:177988ms step_avg:170.81ms
step:1053/1530 train_loss:3.6877 train_time:178166ms step_avg:170.82ms
step:1054/1530 train_loss:3.5389 train_time:178344ms step_avg:170.83ms
step:1055/1530 train_loss:3.3809 train_time:178520ms step_avg:170.83ms
step:1056/1530 train_loss:3.4945 train_time:178696ms step_avg:170.84ms
step:1057/1530 train_loss:3.5806 train_time:178873ms step_avg:170.84ms
step:1058/1530 train_loss:3.3034 train_time:179050ms step_avg:170.85ms
step:1059/1530 train_loss:3.3703 train_time:179231ms step_avg:170.86ms
step:1060/1530 train_loss:3.4419 train_time:179407ms step_avg:170.86ms
step:1061/1530 train_loss:3.4189 train_time:179580ms step_avg:170.87ms
step:1062/1530 train_loss:3.3826 train_time:179759ms step_avg:170.87ms
step:1063/1530 train_loss:3.4552 train_time:179934ms step_avg:170.88ms
step:1064/1530 train_loss:3.3853 train_time:180108ms step_avg:170.88ms
step:1065/1530 train_loss:3.3635 train_time:180285ms step_avg:170.89ms
step:1066/1530 train_loss:3.4144 train_time:180462ms step_avg:170.89ms
step:1067/1530 train_loss:3.2714 train_time:180641ms step_avg:170.90ms
step:1068/1530 train_loss:3.4310 train_time:180818ms step_avg:170.91ms
step:1069/1530 train_loss:3.3009 train_time:180999ms step_avg:170.91ms
step:1070/1530 train_loss:3.5674 train_time:181175ms step_avg:170.92ms
step:1071/1530 train_loss:3.5111 train_time:181354ms step_avg:170.93ms
step:1072/1530 train_loss:3.4408 train_time:181531ms step_avg:170.93ms
step:1073/1530 train_loss:3.5214 train_time:181702ms step_avg:170.93ms
step:1074/1530 train_loss:3.4340 train_time:181879ms step_avg:170.94ms
step:1075/1530 train_loss:3.3988 train_time:182057ms step_avg:170.95ms
step:1076/1530 train_loss:3.7949 train_time:182233ms step_avg:170.95ms
step:1077/1530 train_loss:3.4387 train_time:182408ms step_avg:170.95ms
step:1078/1530 train_loss:3.1032 train_time:182590ms step_avg:170.96ms
step:1079/1530 train_loss:3.5318 train_time:182767ms step_avg:170.97ms
step:1080/1530 train_loss:3.4278 train_time:182944ms step_avg:170.98ms
step:1081/1530 train_loss:3.4976 train_time:183119ms step_avg:170.98ms
step:1082/1530 train_loss:3.5899 train_time:183296ms step_avg:170.99ms
step:1083/1530 train_loss:3.4971 train_time:183471ms step_avg:170.99ms
step:1084/1530 train_loss:3.4661 train_time:183647ms step_avg:170.99ms
step:1085/1530 train_loss:3.4299 train_time:183822ms step_avg:171.00ms
step:1086/1530 train_loss:3.6318 train_time:184000ms step_avg:171.00ms
step:1087/1530 train_loss:3.5038 train_time:184175ms step_avg:171.01ms
step:1088/1530 train_loss:3.3695 train_time:184351ms step_avg:171.01ms
step:1089/1530 train_loss:3.3720 train_time:184531ms step_avg:171.02ms
step:1090/1530 train_loss:3.4815 train_time:184710ms step_avg:171.03ms
step:1091/1530 train_loss:3.2878 train_time:184886ms step_avg:171.03ms
step:1092/1530 train_loss:3.4832 train_time:185063ms step_avg:171.04ms
step:1093/1530 train_loss:3.5984 train_time:185241ms step_avg:171.04ms
step:1094/1530 train_loss:3.4471 train_time:185417ms step_avg:171.05ms
step:1095/1530 train_loss:3.4202 train_time:185591ms step_avg:171.05ms
step:1096/1530 train_loss:3.4260 train_time:185768ms step_avg:171.06ms
step:1097/1530 train_loss:3.4940 train_time:185946ms step_avg:171.06ms
step:1098/1530 train_loss:3.5615 train_time:186126ms step_avg:171.07ms
step:1099/1530 train_loss:3.5261 train_time:186303ms step_avg:171.08ms
step:1100/1530 train_loss:3.4259 train_time:186482ms step_avg:171.08ms
step:1101/1530 train_loss:3.2870 train_time:186660ms step_avg:171.09ms
step:1102/1530 train_loss:3.3143 train_time:186840ms step_avg:171.10ms
step:1103/1530 train_loss:3.4443 train_time:187022ms step_avg:171.11ms
step:1104/1530 train_loss:3.3207 train_time:187198ms step_avg:171.11ms
step:1105/1530 train_loss:4.0680 train_time:187377ms step_avg:171.12ms
step:1106/1530 train_loss:3.2192 train_time:187553ms step_avg:171.12ms
step:1107/1530 train_loss:3.5717 train_time:187727ms step_avg:171.13ms
step:1108/1530 train_loss:3.3436 train_time:187901ms step_avg:171.13ms
step:1109/1530 train_loss:3.5049 train_time:188076ms step_avg:171.13ms
step:1110/1530 train_loss:3.4229 train_time:188249ms step_avg:171.14ms
step:1111/1530 train_loss:3.4855 train_time:188424ms step_avg:171.14ms
step:1112/1530 train_loss:3.5629 train_time:188603ms step_avg:171.15ms
step:1113/1530 train_loss:3.4286 train_time:188786ms step_avg:171.16ms
step:1114/1530 train_loss:3.3694 train_time:188967ms step_avg:171.17ms
step:1115/1530 train_loss:3.2383 train_time:189146ms step_avg:171.17ms
step:1116/1530 train_loss:3.4237 train_time:189322ms step_avg:171.18ms
step:1117/1530 train_loss:3.5873 train_time:189501ms step_avg:171.18ms
step:1118/1530 train_loss:3.6247 train_time:189678ms step_avg:171.19ms
step:1119/1530 train_loss:3.4775 train_time:189853ms step_avg:171.19ms
step:1120/1530 train_loss:3.4926 train_time:190028ms step_avg:171.20ms
step:1121/1530 train_loss:3.3865 train_time:190205ms step_avg:171.20ms
step:1122/1530 train_loss:3.4599 train_time:190380ms step_avg:171.20ms
step:1123/1530 train_loss:3.5789 train_time:190557ms step_avg:171.21ms
step:1124/1530 train_loss:3.3360 train_time:190734ms step_avg:171.22ms
step:1125/1530 train_loss:3.2259 train_time:190911ms step_avg:171.22ms
step:1125/1530 val_loss:3.4082 train_time:190961ms step_avg:171.27ms
step:1126/1530 train_loss:3.4734 train_time:191087ms step_avg:171.22ms
step:1127/1530 train_loss:3.6746 train_time:191266ms step_avg:171.23ms
step:1128/1530 train_loss:3.2309 train_time:191446ms step_avg:171.24ms
step:1129/1530 train_loss:3.5570 train_time:191626ms step_avg:171.25ms
step:1130/1530 train_loss:3.3792 train_time:191805ms step_avg:171.25ms
step:1131/1530 train_loss:3.4015 train_time:191985ms step_avg:171.26ms
step:1132/1530 train_loss:3.3702 train_time:192160ms step_avg:171.27ms
step:1133/1530 train_loss:3.4898 train_time:192466ms step_avg:171.39ms
step:1134/1530 train_loss:3.4474 train_time:192651ms step_avg:171.40ms
step:1135/1530 train_loss:3.5188 train_time:192828ms step_avg:171.40ms
step:1136/1530 train_loss:3.5627 train_time:193006ms step_avg:171.41ms
step:1137/1530 train_loss:3.4592 train_time:193182ms step_avg:171.41ms
step:1138/1530 train_loss:3.3513 train_time:193361ms step_avg:171.42ms
step:1139/1530 train_loss:3.6583 train_time:193686ms step_avg:171.56ms
step:1140/1530 train_loss:3.4578 train_time:193862ms step_avg:171.56ms
step:1141/1530 train_loss:3.5944 train_time:194046ms step_avg:171.57ms
step:1142/1530 train_loss:3.4449 train_time:194224ms step_avg:171.58ms
step:1143/1530 train_loss:3.3625 train_time:194402ms step_avg:171.58ms
step:1144/1530 train_loss:3.4424 train_time:194579ms step_avg:171.59ms
step:1145/1530 train_loss:3.5901 train_time:194753ms step_avg:171.59ms
step:1146/1530 train_loss:3.5558 train_time:194934ms step_avg:171.60ms
step:1147/1530 train_loss:3.4802 train_time:195115ms step_avg:171.61ms
step:1148/1530 train_loss:3.4990 train_time:195292ms step_avg:171.61ms
step:1149/1530 train_loss:3.3243 train_time:195474ms step_avg:171.62ms
step:1150/1530 train_loss:3.3704 train_time:195649ms step_avg:171.62ms
step:1151/1530 train_loss:3.3206 train_time:195831ms step_avg:171.63ms
step:1152/1530 train_loss:3.3951 train_time:196010ms step_avg:171.64ms
step:1153/1530 train_loss:3.4375 train_time:196190ms step_avg:171.64ms
step:1154/1530 train_loss:3.5207 train_time:196366ms step_avg:171.65ms
step:1155/1530 train_loss:3.3148 train_time:196547ms step_avg:171.66ms
step:1156/1530 train_loss:3.5380 train_time:196730ms step_avg:171.67ms
step:1157/1530 train_loss:3.4957 train_time:196907ms step_avg:171.67ms
step:1158/1530 train_loss:3.2519 train_time:197082ms step_avg:171.67ms
step:1159/1530 train_loss:3.3475 train_time:197260ms step_avg:171.68ms
step:1160/1530 train_loss:3.3378 train_time:197435ms step_avg:171.68ms
step:1161/1530 train_loss:3.0959 train_time:197615ms step_avg:171.69ms
step:1162/1530 train_loss:3.4198 train_time:197793ms step_avg:171.69ms
step:1163/1530 train_loss:3.3913 train_time:197970ms step_avg:171.70ms
step:1164/1530 train_loss:3.2921 train_time:198147ms step_avg:171.70ms
step:1165/1530 train_loss:3.2452 train_time:198322ms step_avg:171.71ms
step:1166/1530 train_loss:3.3875 train_time:198500ms step_avg:171.71ms
step:1167/1530 train_loss:3.4137 train_time:198677ms step_avg:171.72ms
step:1168/1530 train_loss:3.7227 train_time:198851ms step_avg:171.72ms
step:1169/1530 train_loss:3.3756 train_time:199028ms step_avg:171.72ms
step:1170/1530 train_loss:3.3899 train_time:199204ms step_avg:171.73ms
step:1171/1530 train_loss:3.3163 train_time:199380ms step_avg:171.73ms
step:1172/1530 train_loss:3.4273 train_time:199555ms step_avg:171.73ms
step:1173/1530 train_loss:3.5356 train_time:199734ms step_avg:171.74ms
step:1174/1530 train_loss:3.3801 train_time:199919ms step_avg:171.75ms
step:1175/1530 train_loss:3.3602 train_time:200098ms step_avg:171.76ms
step:1176/1530 train_loss:3.4279 train_time:200280ms step_avg:171.77ms
step:1177/1530 train_loss:3.4501 train_time:200462ms step_avg:171.78ms
step:1178/1530 train_loss:3.4954 train_time:200639ms step_avg:171.78ms
step:1179/1530 train_loss:3.4012 train_time:200814ms step_avg:171.78ms
step:1180/1530 train_loss:3.3523 train_time:201000ms step_avg:171.80ms
step:1181/1530 train_loss:3.3370 train_time:201178ms step_avg:171.80ms
step:1182/1530 train_loss:3.3728 train_time:201356ms step_avg:171.81ms
step:1183/1530 train_loss:3.3345 train_time:201533ms step_avg:171.81ms
step:1184/1530 train_loss:3.5094 train_time:201709ms step_avg:171.81ms
step:1185/1530 train_loss:3.5449 train_time:201890ms step_avg:171.82ms
step:1186/1530 train_loss:3.3642 train_time:202070ms step_avg:171.83ms
step:1187/1530 train_loss:3.4172 train_time:202257ms step_avg:171.84ms
step:1188/1530 train_loss:3.4405 train_time:202435ms step_avg:171.85ms
step:1189/1530 train_loss:3.2732 train_time:202614ms step_avg:171.85ms
step:1190/1530 train_loss:3.4462 train_time:202792ms step_avg:171.86ms
step:1191/1530 train_loss:3.5799 train_time:202972ms step_avg:171.86ms
step:1192/1530 train_loss:3.3939 train_time:203146ms step_avg:171.87ms
step:1193/1530 train_loss:3.2795 train_time:203321ms step_avg:171.87ms
step:1194/1530 train_loss:3.5540 train_time:203499ms step_avg:171.87ms
step:1195/1530 train_loss:3.3716 train_time:203680ms step_avg:171.88ms
step:1196/1530 train_loss:3.3857 train_time:203866ms step_avg:171.89ms
step:1197/1530 train_loss:3.2913 train_time:204046ms step_avg:171.90ms
step:1198/1530 train_loss:3.3011 train_time:204233ms step_avg:171.91ms
step:1199/1530 train_loss:3.3398 train_time:204411ms step_avg:171.92ms
step:1200/1530 train_loss:3.4455 train_time:204588ms step_avg:171.92ms
step:1201/1530 train_loss:3.4847 train_time:204767ms step_avg:171.93ms
step:1202/1530 train_loss:3.6215 train_time:204957ms step_avg:171.94ms
step:1203/1530 train_loss:3.4048 train_time:205137ms step_avg:171.95ms
step:1204/1530 train_loss:3.3049 train_time:205317ms step_avg:171.96ms
step:1205/1530 train_loss:3.4379 train_time:205494ms step_avg:171.96ms
step:1206/1530 train_loss:3.4782 train_time:205671ms step_avg:171.97ms
step:1207/1530 train_loss:3.5188 train_time:205848ms step_avg:171.97ms
step:1208/1530 train_loss:3.3985 train_time:206024ms step_avg:171.97ms
step:1209/1530 train_loss:3.2426 train_time:206203ms step_avg:171.98ms
step:1210/1530 train_loss:3.3037 train_time:206382ms step_avg:171.99ms
step:1211/1530 train_loss:3.3961 train_time:206561ms step_avg:171.99ms
step:1212/1530 train_loss:3.3962 train_time:206739ms step_avg:172.00ms
step:1213/1530 train_loss:3.4157 train_time:206919ms step_avg:172.00ms
step:1214/1530 train_loss:3.2536 train_time:207101ms step_avg:172.01ms
step:1215/1530 train_loss:3.3979 train_time:207276ms step_avg:172.01ms
step:1216/1530 train_loss:3.3337 train_time:207454ms step_avg:172.02ms
step:1217/1530 train_loss:3.3228 train_time:207632ms step_avg:172.02ms
step:1218/1530 train_loss:3.4074 train_time:207810ms step_avg:172.03ms
step:1219/1530 train_loss:3.2537 train_time:207994ms step_avg:172.04ms
step:1220/1530 train_loss:3.4808 train_time:208168ms step_avg:172.04ms
step:1221/1530 train_loss:3.4993 train_time:208346ms step_avg:172.04ms
step:1222/1530 train_loss:3.4304 train_time:208521ms step_avg:172.05ms
step:1223/1530 train_loss:3.2956 train_time:208700ms step_avg:172.05ms
step:1224/1530 train_loss:3.2500 train_time:208880ms step_avg:172.06ms
step:1225/1530 train_loss:3.3672 train_time:209059ms step_avg:172.06ms
step:1226/1530 train_loss:3.3341 train_time:209240ms step_avg:172.07ms
step:1227/1530 train_loss:3.2749 train_time:209420ms step_avg:172.08ms
step:1228/1530 train_loss:3.4425 train_time:209597ms step_avg:172.08ms
step:1229/1530 train_loss:3.3688 train_time:209778ms step_avg:172.09ms
step:1230/1530 train_loss:3.3969 train_time:209961ms step_avg:172.10ms
step:1231/1530 train_loss:3.5777 train_time:210142ms step_avg:172.11ms
step:1232/1530 train_loss:3.4924 train_time:210321ms step_avg:172.11ms
step:1233/1530 train_loss:3.4286 train_time:210498ms step_avg:172.12ms
step:1234/1530 train_loss:3.5898 train_time:210676ms step_avg:172.12ms
step:1235/1530 train_loss:3.3228 train_time:210858ms step_avg:172.13ms
step:1236/1530 train_loss:3.2907 train_time:211036ms step_avg:172.13ms
step:1237/1530 train_loss:3.2766 train_time:211213ms step_avg:172.14ms
step:1238/1530 train_loss:3.2775 train_time:211397ms step_avg:172.15ms
step:1239/1530 train_loss:3.3333 train_time:211578ms step_avg:172.15ms
step:1240/1530 train_loss:3.3850 train_time:211754ms step_avg:172.16ms
step:1241/1530 train_loss:3.4276 train_time:211934ms step_avg:172.16ms
step:1242/1530 train_loss:3.2977 train_time:212112ms step_avg:172.17ms
step:1243/1530 train_loss:3.4097 train_time:212291ms step_avg:172.17ms
step:1244/1530 train_loss:3.4054 train_time:212464ms step_avg:172.17ms
step:1245/1530 train_loss:3.4090 train_time:212641ms step_avg:172.18ms
step:1246/1530 train_loss:3.2406 train_time:212820ms step_avg:172.18ms
step:1247/1530 train_loss:3.3747 train_time:212996ms step_avg:172.19ms
step:1248/1530 train_loss:3.4300 train_time:213171ms step_avg:172.19ms
step:1249/1530 train_loss:3.4265 train_time:213348ms step_avg:172.19ms
step:1250/1530 train_loss:3.3063 train_time:213527ms step_avg:172.20ms
step:1250/1530 val_loss:3.3560 train_time:213581ms step_avg:172.24ms
step:1251/1530 train_loss:3.4920 train_time:213713ms step_avg:172.21ms
step:1252/1530 train_loss:3.3605 train_time:213889ms step_avg:172.21ms
step:1253/1530 train_loss:3.3097 train_time:214066ms step_avg:172.22ms
step:1254/1530 train_loss:3.4191 train_time:214248ms step_avg:172.23ms
step:1255/1530 train_loss:3.5185 train_time:214436ms step_avg:172.24ms
step:1256/1530 train_loss:3.3073 train_time:214618ms step_avg:172.25ms
step:1257/1530 train_loss:3.3833 train_time:214796ms step_avg:172.25ms
step:1258/1530 train_loss:3.3673 train_time:214979ms step_avg:172.26ms
step:1259/1530 train_loss:3.3303 train_time:215159ms step_avg:172.26ms
step:1260/1530 train_loss:3.2087 train_time:215335ms step_avg:172.27ms
step:1261/1530 train_loss:3.3055 train_time:215518ms step_avg:172.28ms
step:1262/1530 train_loss:3.3219 train_time:215701ms step_avg:172.28ms
step:1263/1530 train_loss:3.2386 train_time:215883ms step_avg:172.29ms
step:1264/1530 train_loss:3.4455 train_time:216059ms step_avg:172.30ms
step:1265/1530 train_loss:3.4249 train_time:216235ms step_avg:172.30ms
step:1266/1530 train_loss:3.4421 train_time:216416ms step_avg:172.31ms
step:1267/1530 train_loss:3.3709 train_time:216595ms step_avg:172.31ms
step:1268/1530 train_loss:3.4148 train_time:216776ms step_avg:172.32ms
step:1269/1530 train_loss:3.2549 train_time:216962ms step_avg:172.33ms
step:1270/1530 train_loss:3.1034 train_time:217138ms step_avg:172.33ms
step:1271/1530 train_loss:3.4045 train_time:217317ms step_avg:172.34ms
step:1272/1530 train_loss:3.3546 train_time:217492ms step_avg:172.34ms
step:1273/1530 train_loss:3.3848 train_time:217674ms step_avg:172.35ms
step:1274/1530 train_loss:3.3637 train_time:217854ms step_avg:172.35ms
step:1275/1530 train_loss:3.4327 train_time:218031ms step_avg:172.36ms
step:1276/1530 train_loss:3.4694 train_time:218204ms step_avg:172.36ms
step:1277/1530 train_loss:3.4133 train_time:218383ms step_avg:172.36ms
step:1278/1530 train_loss:3.4103 train_time:218558ms step_avg:172.36ms
step:1279/1530 train_loss:3.2663 train_time:218741ms step_avg:172.37ms
step:1280/1530 train_loss:3.3680 train_time:218928ms step_avg:172.38ms
step:1281/1530 train_loss:3.4224 train_time:219105ms step_avg:172.39ms
step:1282/1530 train_loss:3.4693 train_time:219280ms step_avg:172.39ms
step:1283/1530 train_loss:3.3378 train_time:219458ms step_avg:172.39ms
step:1284/1530 train_loss:3.3739 train_time:219635ms step_avg:172.40ms
step:1285/1530 train_loss:3.3624 train_time:219813ms step_avg:172.40ms
step:1286/1530 train_loss:3.3364 train_time:219992ms step_avg:172.41ms
step:1287/1530 train_loss:3.4842 train_time:220170ms step_avg:172.41ms
step:1288/1530 train_loss:3.2960 train_time:220350ms step_avg:172.42ms
step:1289/1530 train_loss:3.3859 train_time:220534ms step_avg:172.43ms
step:1290/1530 train_loss:3.4637 train_time:220719ms step_avg:172.44ms
step:1291/1530 train_loss:3.3845 train_time:220902ms step_avg:172.44ms
step:1292/1530 train_loss:3.4816 train_time:221085ms step_avg:172.45ms
step:1293/1530 train_loss:3.5148 train_time:221266ms step_avg:172.46ms
step:1294/1530 train_loss:3.4636 train_time:221448ms step_avg:172.47ms
step:1295/1530 train_loss:3.2843 train_time:221627ms step_avg:172.47ms
step:1296/1530 train_loss:3.3715 train_time:221808ms step_avg:172.48ms
step:1297/1530 train_loss:3.2764 train_time:221988ms step_avg:172.48ms
step:1298/1530 train_loss:3.2741 train_time:222170ms step_avg:172.49ms
step:1299/1530 train_loss:3.3960 train_time:222348ms step_avg:172.50ms
step:1300/1530 train_loss:3.4085 train_time:222525ms step_avg:172.50ms
step:1301/1530 train_loss:3.4061 train_time:222700ms step_avg:172.50ms
step:1302/1530 train_loss:3.5728 train_time:222882ms step_avg:172.51ms
step:1303/1530 train_loss:3.3045 train_time:223068ms step_avg:172.52ms
step:1304/1530 train_loss:3.5093 train_time:223250ms step_avg:172.53ms
step:1305/1530 train_loss:3.2575 train_time:223426ms step_avg:172.53ms
step:1306/1530 train_loss:3.4531 train_time:223607ms step_avg:172.54ms
step:1307/1530 train_loss:3.4560 train_time:223782ms step_avg:172.54ms
step:1308/1530 train_loss:3.2842 train_time:223961ms step_avg:172.54ms
step:1309/1530 train_loss:3.3133 train_time:224139ms step_avg:172.55ms
step:1310/1530 train_loss:3.2894 train_time:224317ms step_avg:172.55ms
step:1311/1530 train_loss:3.2950 train_time:224494ms step_avg:172.55ms
step:1312/1530 train_loss:3.3743 train_time:224674ms step_avg:172.56ms
step:1313/1530 train_loss:3.3446 train_time:224851ms step_avg:172.56ms
step:1314/1530 train_loss:3.0494 train_time:225034ms step_avg:172.57ms
step:1315/1530 train_loss:3.2751 train_time:225211ms step_avg:172.58ms
step:1316/1530 train_loss:3.4009 train_time:225387ms step_avg:172.58ms
step:1317/1530 train_loss:3.4219 train_time:225565ms step_avg:172.58ms
step:1318/1530 train_loss:3.3031 train_time:225751ms step_avg:172.59ms
step:1319/1530 train_loss:3.4314 train_time:225931ms step_avg:172.60ms
step:1320/1530 train_loss:3.4622 train_time:226113ms step_avg:172.61ms
step:1321/1530 train_loss:3.3667 train_time:226290ms step_avg:172.61ms
step:1322/1530 train_loss:3.3229 train_time:226596ms step_avg:172.71ms
step:1323/1530 train_loss:3.3261 train_time:226786ms step_avg:172.72ms
step:1324/1530 train_loss:3.4419 train_time:226968ms step_avg:172.73ms
step:1325/1530 train_loss:3.4972 train_time:227153ms step_avg:172.74ms
step:1326/1530 train_loss:3.2166 train_time:227333ms step_avg:172.75ms
step:1327/1530 train_loss:3.1669 train_time:227509ms step_avg:172.75ms
step:1328/1530 train_loss:3.4966 train_time:227690ms step_avg:172.75ms
step:1329/1530 train_loss:3.3017 train_time:228027ms step_avg:172.88ms
step:1330/1530 train_loss:3.4272 train_time:228209ms step_avg:172.89ms
step:1331/1530 train_loss:3.3336 train_time:228386ms step_avg:172.89ms
step:1332/1530 train_loss:3.7462 train_time:228568ms step_avg:172.90ms
step:1333/1530 train_loss:3.4814 train_time:228748ms step_avg:172.90ms
step:1334/1530 train_loss:3.3728 train_time:228928ms step_avg:172.91ms
step:1335/1530 train_loss:3.2952 train_time:229106ms step_avg:172.91ms
step:1336/1530 train_loss:3.2979 train_time:229289ms step_avg:172.92ms
step:1337/1530 train_loss:3.5546 train_time:229469ms step_avg:172.92ms
step:1338/1530 train_loss:3.5238 train_time:229648ms step_avg:172.93ms
step:1339/1530 train_loss:3.3369 train_time:229827ms step_avg:172.93ms
step:1340/1530 train_loss:3.2831 train_time:230004ms step_avg:172.94ms
step:1341/1530 train_loss:3.5953 train_time:230181ms step_avg:172.94ms
step:1342/1530 train_loss:3.3598 train_time:230361ms step_avg:172.94ms
step:1343/1530 train_loss:3.3642 train_time:230538ms step_avg:172.95ms
step:1344/1530 train_loss:3.4178 train_time:230717ms step_avg:172.95ms
step:1345/1530 train_loss:3.3820 train_time:230897ms step_avg:172.96ms
step:1346/1530 train_loss:3.2982 train_time:231074ms step_avg:172.96ms
step:1347/1530 train_loss:3.2830 train_time:231252ms step_avg:172.96ms
step:1348/1530 train_loss:3.3520 train_time:231432ms step_avg:172.97ms
step:1349/1530 train_loss:3.2770 train_time:231610ms step_avg:172.97ms
step:1350/1530 train_loss:3.3938 train_time:231791ms step_avg:172.98ms
step:1351/1530 train_loss:3.2482 train_time:231968ms step_avg:172.98ms
step:1352/1530 train_loss:3.3111 train_time:232147ms step_avg:172.99ms
step:1353/1530 train_loss:3.4028 train_time:232326ms step_avg:172.99ms
step:1354/1530 train_loss:3.2629 train_time:232502ms step_avg:172.99ms
step:1355/1530 train_loss:3.1919 train_time:232677ms step_avg:172.99ms
step:1356/1530 train_loss:3.5107 train_time:232855ms step_avg:173.00ms
step:1357/1530 train_loss:3.4245 train_time:233035ms step_avg:173.00ms
step:1358/1530 train_loss:3.1920 train_time:233213ms step_avg:173.01ms
step:1359/1530 train_loss:3.4410 train_time:233394ms step_avg:173.01ms
step:1360/1530 train_loss:3.3523 train_time:233573ms step_avg:173.02ms
step:1361/1530 train_loss:3.1283 train_time:233756ms step_avg:173.02ms
step:1362/1530 train_loss:3.3959 train_time:233938ms step_avg:173.03ms
step:1363/1530 train_loss:3.2863 train_time:234127ms step_avg:173.04ms
step:1364/1530 train_loss:3.3029 train_time:234304ms step_avg:173.05ms
step:1365/1530 train_loss:3.3164 train_time:234481ms step_avg:173.05ms
step:1366/1530 train_loss:3.4253 train_time:234662ms step_avg:173.05ms
step:1367/1530 train_loss:3.3975 train_time:234841ms step_avg:173.06ms
step:1368/1530 train_loss:3.3525 train_time:235021ms step_avg:173.06ms
step:1369/1530 train_loss:3.2778 train_time:235209ms step_avg:173.08ms
step:1370/1530 train_loss:3.6061 train_time:235389ms step_avg:173.08ms
step:1371/1530 train_loss:3.3159 train_time:235571ms step_avg:173.09ms
step:1372/1530 train_loss:3.3730 train_time:235754ms step_avg:173.09ms
step:1373/1530 train_loss:3.3721 train_time:235933ms step_avg:173.10ms
step:1374/1530 train_loss:3.1533 train_time:236115ms step_avg:173.10ms
step:1375/1530 train_loss:3.5381 train_time:236295ms step_avg:173.11ms
step:1375/1530 val_loss:3.3144 train_time:236345ms step_avg:173.15ms
step:1376/1530 train_loss:3.3511 train_time:236475ms step_avg:173.12ms
step:1377/1530 train_loss:3.4807 train_time:236654ms step_avg:173.12ms
step:1378/1530 train_loss:3.4741 train_time:236831ms step_avg:173.12ms
step:1379/1530 train_loss:3.1305 train_time:237013ms step_avg:173.13ms
step:1380/1530 train_loss:3.3179 train_time:237192ms step_avg:173.13ms
step:1381/1530 train_loss:3.6995 train_time:237380ms step_avg:173.14ms
step:1382/1530 train_loss:3.2146 train_time:237559ms step_avg:173.15ms
step:1383/1530 train_loss:3.3944 train_time:237742ms step_avg:173.16ms
step:1384/1530 train_loss:3.4778 train_time:237926ms step_avg:173.16ms
step:1385/1530 train_loss:3.4065 train_time:238100ms step_avg:173.16ms
step:1386/1530 train_loss:3.3457 train_time:238280ms step_avg:173.17ms
step:1387/1530 train_loss:3.2007 train_time:238459ms step_avg:173.17ms
step:1388/1530 train_loss:3.3503 train_time:238638ms step_avg:173.18ms
step:1389/1530 train_loss:3.3158 train_time:238821ms step_avg:173.18ms
step:1390/1530 train_loss:3.5704 train_time:239000ms step_avg:173.19ms
step:1391/1530 train_loss:3.2926 train_time:239177ms step_avg:173.19ms
step:1392/1530 train_loss:3.2965 train_time:239357ms step_avg:173.20ms
step:1393/1530 train_loss:3.2409 train_time:239538ms step_avg:173.20ms
step:1394/1530 train_loss:3.5003 train_time:239716ms step_avg:173.21ms
step:1395/1530 train_loss:3.3906 train_time:239895ms step_avg:173.21ms
step:1396/1530 train_loss:3.4105 train_time:240073ms step_avg:173.21ms
step:1397/1530 train_loss:3.3138 train_time:240249ms step_avg:173.21ms
step:1398/1530 train_loss:3.2566 train_time:240424ms step_avg:173.22ms
step:1399/1530 train_loss:3.3210 train_time:240604ms step_avg:173.22ms
step:1400/1530 train_loss:3.3236 train_time:240787ms step_avg:173.23ms
step:1401/1530 train_loss:3.3522 train_time:240963ms step_avg:173.23ms
step:1402/1530 train_loss:3.3053 train_time:241144ms step_avg:173.24ms
step:1403/1530 train_loss:3.4962 train_time:241329ms step_avg:173.24ms
step:1404/1530 train_loss:3.2843 train_time:241506ms step_avg:173.25ms
step:1405/1530 train_loss:3.3212 train_time:241687ms step_avg:173.25ms
step:1406/1530 train_loss:3.3168 train_time:241867ms step_avg:173.26ms
step:1407/1530 train_loss:3.1795 train_time:242043ms step_avg:173.26ms
step:1408/1530 train_loss:3.3182 train_time:242223ms step_avg:173.26ms
step:1409/1530 train_loss:3.3041 train_time:242411ms step_avg:173.27ms
step:1410/1530 train_loss:3.2906 train_time:242589ms step_avg:173.28ms
step:1411/1530 train_loss:3.3672 train_time:242765ms step_avg:173.28ms
step:1412/1530 train_loss:3.3337 train_time:242943ms step_avg:173.28ms
step:1413/1530 train_loss:3.3629 train_time:243123ms step_avg:173.29ms
step:1414/1530 train_loss:3.3276 train_time:243304ms step_avg:173.29ms
step:1415/1530 train_loss:3.4113 train_time:243488ms step_avg:173.30ms
step:1416/1530 train_loss:3.2334 train_time:243677ms step_avg:173.31ms
step:1417/1530 train_loss:3.2848 train_time:243860ms step_avg:173.32ms
step:1418/1530 train_loss:3.3967 train_time:244042ms step_avg:173.33ms
step:1419/1530 train_loss:3.3451 train_time:244224ms step_avg:173.33ms
step:1420/1530 train_loss:3.3715 train_time:244405ms step_avg:173.34ms
step:1421/1530 train_loss:3.3758 train_time:244585ms step_avg:173.34ms
step:1422/1530 train_loss:3.3319 train_time:244763ms step_avg:173.34ms
step:1423/1530 train_loss:3.3149 train_time:244941ms step_avg:173.35ms
step:1424/1530 train_loss:3.3347 train_time:245124ms step_avg:173.36ms
step:1425/1530 train_loss:3.1956 train_time:245308ms step_avg:173.36ms
step:1426/1530 train_loss:3.3272 train_time:245486ms step_avg:173.37ms
step:1427/1530 train_loss:3.2872 train_time:245668ms step_avg:173.37ms
step:1428/1530 train_loss:3.3839 train_time:245847ms step_avg:173.38ms
step:1429/1530 train_loss:3.3543 train_time:246025ms step_avg:173.38ms
step:1430/1530 train_loss:3.2577 train_time:246207ms step_avg:173.38ms
step:1431/1530 train_loss:3.3272 train_time:246388ms step_avg:173.39ms
step:1432/1530 train_loss:3.3405 train_time:246568ms step_avg:173.39ms
step:1433/1530 train_loss:3.1330 train_time:246751ms step_avg:173.40ms
step:1434/1530 train_loss:3.2887 train_time:246936ms step_avg:173.41ms
step:1435/1530 train_loss:3.1208 train_time:247118ms step_avg:173.42ms
step:1436/1530 train_loss:3.2314 train_time:247297ms step_avg:173.42ms
step:1437/1530 train_loss:3.4074 train_time:247476ms step_avg:173.42ms
step:1438/1530 train_loss:3.3833 train_time:247651ms step_avg:173.43ms
step:1439/1530 train_loss:3.3154 train_time:247831ms step_avg:173.43ms
step:1440/1530 train_loss:3.1953 train_time:248006ms step_avg:173.43ms
step:1441/1530 train_loss:3.3439 train_time:248184ms step_avg:173.43ms
step:1442/1530 train_loss:3.3864 train_time:248368ms step_avg:173.44ms
step:1443/1530 train_loss:3.4882 train_time:248558ms step_avg:173.45ms
step:1444/1530 train_loss:3.4503 train_time:248735ms step_avg:173.46ms
step:1445/1530 train_loss:3.3363 train_time:248915ms step_avg:173.46ms
step:1446/1530 train_loss:3.2033 train_time:249093ms step_avg:173.46ms
step:1447/1530 train_loss:3.2973 train_time:249275ms step_avg:173.47ms
step:1448/1530 train_loss:3.2985 train_time:249453ms step_avg:173.47ms
step:1449/1530 train_loss:3.3984 train_time:249631ms step_avg:173.48ms
step:1450/1530 train_loss:3.3853 train_time:249811ms step_avg:173.48ms
step:1451/1530 train_loss:3.2067 train_time:249989ms step_avg:173.48ms
step:1452/1530 train_loss:3.3321 train_time:250170ms step_avg:173.49ms
step:1453/1530 train_loss:3.2639 train_time:250345ms step_avg:173.49ms
step:1454/1530 train_loss:3.2957 train_time:250524ms step_avg:173.49ms
step:1455/1530 train_loss:3.3347 train_time:250706ms step_avg:173.50ms
step:1456/1530 train_loss:3.2849 train_time:250884ms step_avg:173.50ms
step:1457/1530 train_loss:3.1571 train_time:251061ms step_avg:173.50ms
step:1458/1530 train_loss:3.4232 train_time:251240ms step_avg:173.51ms
step:1459/1530 train_loss:3.2697 train_time:251423ms step_avg:173.51ms
step:1460/1530 train_loss:3.3177 train_time:251603ms step_avg:173.52ms
step:1461/1530 train_loss:3.4321 train_time:251783ms step_avg:173.52ms
step:1462/1530 train_loss:3.2650 train_time:251959ms step_avg:173.53ms
step:1463/1530 train_loss:3.4674 train_time:252142ms step_avg:173.53ms
step:1464/1530 train_loss:3.3651 train_time:252322ms step_avg:173.54ms
step:1465/1530 train_loss:3.3633 train_time:252502ms step_avg:173.54ms
step:1466/1530 train_loss:3.2814 train_time:252680ms step_avg:173.54ms
step:1467/1530 train_loss:3.3958 train_time:252860ms step_avg:173.55ms
step:1468/1530 train_loss:3.2901 train_time:253036ms step_avg:173.55ms
step:1469/1530 train_loss:3.2790 train_time:253215ms step_avg:173.55ms
step:1470/1530 train_loss:3.3332 train_time:253397ms step_avg:173.56ms
step:1471/1530 train_loss:3.2596 train_time:253580ms step_avg:173.57ms
step:1472/1530 train_loss:3.2491 train_time:253763ms step_avg:173.57ms
step:1473/1530 train_loss:3.4418 train_time:253940ms step_avg:173.57ms
step:1474/1530 train_loss:3.3167 train_time:254123ms step_avg:173.58ms
step:1475/1530 train_loss:3.1520 train_time:254310ms step_avg:173.59ms
step:1476/1530 train_loss:3.2673 train_time:254488ms step_avg:173.59ms
step:1477/1530 train_loss:3.2432 train_time:254676ms step_avg:173.60ms
step:1478/1530 train_loss:3.3097 train_time:254859ms step_avg:173.61ms
step:1479/1530 train_loss:3.3969 train_time:255042ms step_avg:173.62ms
step:1480/1530 train_loss:3.2723 train_time:255220ms step_avg:173.62ms
step:1481/1530 train_loss:3.4589 train_time:255402ms step_avg:173.63ms
step:1482/1530 train_loss:3.3710 train_time:255592ms step_avg:173.64ms
step:1483/1530 train_loss:3.2831 train_time:255783ms step_avg:173.65ms
step:1484/1530 train_loss:3.2714 train_time:255969ms step_avg:173.66ms
step:1485/1530 train_loss:3.2844 train_time:256151ms step_avg:173.66ms
step:1486/1530 train_loss:3.2314 train_time:256336ms step_avg:173.67ms
step:1487/1530 train_loss:3.3407 train_time:256519ms step_avg:173.68ms
step:1488/1530 train_loss:3.2476 train_time:256702ms step_avg:173.68ms
step:1489/1530 train_loss:3.3203 train_time:256883ms step_avg:173.69ms
step:1490/1530 train_loss:3.2534 train_time:257062ms step_avg:173.69ms
step:1491/1530 train_loss:3.1634 train_time:257242ms step_avg:173.69ms
step:1492/1530 train_loss:3.2757 train_time:257422ms step_avg:173.70ms
step:1493/1530 train_loss:3.4347 train_time:257601ms step_avg:173.70ms
step:1494/1530 train_loss:3.3012 train_time:257780ms step_avg:173.71ms
step:1495/1530 train_loss:3.0325 train_time:257965ms step_avg:173.71ms
step:1496/1530 train_loss:3.3655 train_time:258149ms step_avg:173.72ms
step:1497/1530 train_loss:3.3167 train_time:258333ms step_avg:173.73ms
step:1498/1530 train_loss:3.3492 train_time:258519ms step_avg:173.74ms
step:1499/1530 train_loss:3.3116 train_time:258707ms step_avg:173.75ms
step:1500/1530 train_loss:3.3010 train_time:258900ms step_avg:173.76ms
step:1500/1530 val_loss:3.2828 train_time:258955ms step_avg:173.80ms
step:1501/1530 train_loss:3.0887 train_time:259091ms step_avg:173.77ms
step:1502/1530 train_loss:3.3620 train_time:259283ms step_avg:173.78ms
step:1503/1530 train_loss:3.2463 train_time:259461ms step_avg:173.79ms
step:1504/1530 train_loss:3.2505 train_time:259642ms step_avg:173.79ms
step:1505/1530 train_loss:3.2182 train_time:259823ms step_avg:173.79ms
step:1506/1530 train_loss:3.2842 train_time:260007ms step_avg:173.80ms
step:1507/1530 train_loss:3.1788 train_time:260204ms step_avg:173.82ms
step:1508/1530 train_loss:3.4888 train_time:260387ms step_avg:173.82ms
step:1509/1530 train_loss:3.2857 train_time:260564ms step_avg:173.83ms
step:1510/1530 train_loss:3.2743 train_time:260744ms step_avg:173.83ms
step:1511/1530 train_loss:3.4137 train_time:261051ms step_avg:173.92ms
step:1512/1530 train_loss:3.4254 train_time:261241ms step_avg:173.93ms
step:1513/1530 train_loss:3.2724 train_time:261425ms step_avg:173.94ms
step:1514/1530 train_loss:3.0866 train_time:261606ms step_avg:173.94ms
step:1515/1530 train_loss:3.2465 train_time:261787ms step_avg:173.94ms
step:1516/1530 train_loss:3.2655 train_time:261973ms step_avg:173.95ms
step:1517/1530 train_loss:3.3050 train_time:262154ms step_avg:173.96ms
step:1518/1530 train_loss:3.2108 train_time:262338ms step_avg:173.96ms
step:1519/1530 train_loss:3.5064 train_time:262671ms step_avg:174.07ms
step:1520/1530 train_loss:3.1314 train_time:262850ms step_avg:174.07ms
step:1521/1530 train_loss:3.2082 train_time:263026ms step_avg:174.07ms
step:1522/1530 train_loss:3.3571 train_time:263211ms step_avg:174.08ms
step:1523/1530 train_loss:3.2294 train_time:263389ms step_avg:174.08ms
step:1524/1530 train_loss:3.3472 train_time:263570ms step_avg:174.09ms
step:1525/1530 train_loss:3.3401 train_time:263756ms step_avg:174.10ms
step:1526/1530 train_loss:3.2781 train_time:263947ms step_avg:174.11ms
step:1527/1530 train_loss:3.2908 train_time:264128ms step_avg:174.11ms
step:1528/1530 train_loss:3.4075 train_time:264307ms step_avg:174.12ms
step:1529/1530 train_loss:3.4102 train_time:264485ms step_avg:174.12ms
step:1530/1530 train_loss:3.2391 train_time:264663ms step_avg:174.12ms
step:1530/1530 val_loss:3.2803 train_time:264717ms step_avg:174.16ms