records/120424_ValueEmbed/2358dd3a-8ce4-4b8a-a367-fca6dcd38343.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 04:06:35 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   39C    P0              76W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0              73W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   30C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             119W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   38C    P0              78W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   30C    P0             110W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   39C    P0             128W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   29C    P0              74W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31601ms step_avg:nanms
step:2/1530 train_loss:10.0628 train_time:31711ms step_avg:nanms
step:3/1530 train_loss:8.3496 train_time:31871ms step_avg:nanms
step:4/1530 train_loss:7.5975 train_time:32031ms step_avg:nanms
step:5/1530 train_loss:7.4987 train_time:32191ms step_avg:nanms
step:6/1530 train_loss:6.9777 train_time:32351ms step_avg:nanms
step:7/1530 train_loss:7.2162 train_time:32511ms step_avg:nanms
step:8/1530 train_loss:6.7504 train_time:32671ms step_avg:nanms
step:9/1530 train_loss:6.6187 train_time:32832ms step_avg:nanms
step:10/1530 train_loss:6.5017 train_time:32991ms step_avg:nanms
step:11/1530 train_loss:6.4576 train_time:115ms step_avg:nanms
step:12/1530 train_loss:6.3985 train_time:274ms step_avg:nanms
step:13/1530 train_loss:6.2508 train_time:436ms step_avg:145.25ms
step:14/1530 train_loss:6.2569 train_time:598ms step_avg:149.61ms
step:15/1530 train_loss:6.1900 train_time:758ms step_avg:151.64ms
step:16/1530 train_loss:6.1314 train_time:919ms step_avg:153.23ms
step:17/1530 train_loss:6.1676 train_time:1080ms step_avg:154.27ms
step:18/1530 train_loss:5.9834 train_time:1243ms step_avg:155.39ms
step:19/1530 train_loss:5.9757 train_time:1406ms step_avg:156.19ms
step:20/1530 train_loss:5.6984 train_time:1566ms step_avg:156.65ms
step:21/1530 train_loss:5.9574 train_time:1729ms step_avg:157.15ms
step:22/1530 train_loss:6.1768 train_time:1889ms step_avg:157.39ms
step:23/1530 train_loss:5.8593 train_time:2050ms step_avg:157.65ms
step:24/1530 train_loss:6.0097 train_time:2210ms step_avg:157.89ms
step:25/1530 train_loss:5.6776 train_time:2371ms step_avg:158.06ms
step:26/1530 train_loss:5.6042 train_time:2532ms step_avg:158.24ms
step:27/1530 train_loss:5.7653 train_time:2691ms step_avg:158.28ms
step:28/1530 train_loss:5.4250 train_time:2852ms step_avg:158.47ms
step:29/1530 train_loss:5.6758 train_time:3013ms step_avg:158.59ms
step:30/1530 train_loss:5.4700 train_time:3174ms step_avg:158.68ms
step:31/1530 train_loss:5.4304 train_time:3334ms step_avg:158.75ms
step:32/1530 train_loss:5.2927 train_time:3494ms step_avg:158.82ms
step:33/1530 train_loss:5.5853 train_time:3654ms step_avg:158.88ms
step:34/1530 train_loss:5.5117 train_time:3815ms step_avg:158.95ms
step:35/1530 train_loss:5.6095 train_time:3974ms step_avg:158.96ms
step:36/1530 train_loss:5.5469 train_time:4135ms step_avg:159.03ms
step:37/1530 train_loss:5.4532 train_time:4295ms step_avg:159.06ms
step:38/1530 train_loss:5.3152 train_time:4454ms step_avg:159.08ms
step:39/1530 train_loss:5.3170 train_time:4616ms step_avg:159.17ms
step:40/1530 train_loss:5.2522 train_time:4776ms step_avg:159.20ms
step:41/1530 train_loss:5.2390 train_time:4937ms step_avg:159.27ms
step:42/1530 train_loss:5.1900 train_time:5096ms step_avg:159.26ms
step:43/1530 train_loss:5.2810 train_time:5258ms step_avg:159.32ms
step:44/1530 train_loss:5.2595 train_time:5419ms step_avg:159.37ms
step:45/1530 train_loss:5.3965 train_time:5580ms step_avg:159.44ms
step:46/1530 train_loss:5.1702 train_time:5741ms step_avg:159.48ms
step:47/1530 train_loss:5.0558 train_time:5901ms step_avg:159.50ms
step:48/1530 train_loss:5.2174 train_time:6062ms step_avg:159.53ms
step:49/1530 train_loss:5.1498 train_time:6222ms step_avg:159.54ms
step:50/1530 train_loss:5.2476 train_time:6383ms step_avg:159.59ms
step:51/1530 train_loss:5.1298 train_time:6545ms step_avg:159.63ms
step:52/1530 train_loss:5.0162 train_time:6708ms step_avg:159.71ms
step:53/1530 train_loss:5.1779 train_time:6868ms step_avg:159.72ms
step:54/1530 train_loss:5.0387 train_time:7029ms step_avg:159.74ms
step:55/1530 train_loss:5.4288 train_time:7188ms step_avg:159.74ms
step:56/1530 train_loss:5.0446 train_time:7349ms step_avg:159.77ms
step:57/1530 train_loss:4.8975 train_time:7510ms step_avg:159.78ms
step:58/1530 train_loss:5.0438 train_time:7670ms step_avg:159.79ms
step:59/1530 train_loss:5.0128 train_time:7830ms step_avg:159.80ms
step:60/1530 train_loss:5.1474 train_time:7990ms step_avg:159.79ms
step:61/1530 train_loss:4.8461 train_time:8151ms step_avg:159.82ms
step:62/1530 train_loss:4.9755 train_time:8311ms step_avg:159.83ms
step:63/1530 train_loss:4.9759 train_time:8471ms step_avg:159.83ms
step:64/1530 train_loss:4.8874 train_time:8632ms step_avg:159.85ms
step:65/1530 train_loss:4.8082 train_time:8792ms step_avg:159.86ms
step:66/1530 train_loss:4.9379 train_time:8953ms step_avg:159.88ms
step:67/1530 train_loss:4.8216 train_time:9114ms step_avg:159.89ms
step:68/1530 train_loss:5.0990 train_time:9274ms step_avg:159.89ms
step:69/1530 train_loss:4.7313 train_time:9434ms step_avg:159.90ms
step:70/1530 train_loss:4.8380 train_time:9595ms step_avg:159.91ms
step:71/1530 train_loss:4.9667 train_time:9755ms step_avg:159.92ms
step:72/1530 train_loss:4.8854 train_time:9915ms step_avg:159.92ms
step:73/1530 train_loss:4.7715 train_time:10076ms step_avg:159.93ms
step:74/1530 train_loss:4.9153 train_time:10237ms step_avg:159.95ms
step:75/1530 train_loss:4.8623 train_time:10397ms step_avg:159.96ms
step:76/1530 train_loss:4.8159 train_time:10557ms step_avg:159.96ms
step:77/1530 train_loss:4.9272 train_time:10718ms step_avg:159.97ms
step:78/1530 train_loss:5.1154 train_time:10878ms step_avg:159.98ms
step:79/1530 train_loss:4.8000 train_time:11039ms step_avg:159.99ms
step:80/1530 train_loss:4.8699 train_time:11200ms step_avg:159.99ms
step:81/1530 train_loss:4.6618 train_time:11360ms step_avg:160.01ms
step:82/1530 train_loss:4.8341 train_time:11521ms step_avg:160.01ms
step:83/1530 train_loss:4.7830 train_time:11681ms step_avg:160.01ms
step:84/1530 train_loss:4.7849 train_time:11843ms step_avg:160.04ms
step:85/1530 train_loss:4.6315 train_time:12004ms step_avg:160.05ms
step:86/1530 train_loss:4.8544 train_time:12164ms step_avg:160.06ms
step:87/1530 train_loss:4.7572 train_time:12326ms step_avg:160.08ms
step:88/1530 train_loss:4.7722 train_time:12487ms step_avg:160.08ms
step:89/1530 train_loss:4.7007 train_time:12648ms step_avg:160.10ms
step:90/1530 train_loss:4.6360 train_time:12808ms step_avg:160.10ms
step:91/1530 train_loss:4.6312 train_time:12969ms step_avg:160.11ms
step:92/1530 train_loss:4.7954 train_time:13129ms step_avg:160.11ms
step:93/1530 train_loss:4.6073 train_time:13289ms step_avg:160.10ms
step:94/1530 train_loss:4.6529 train_time:13450ms step_avg:160.12ms
step:95/1530 train_loss:4.6952 train_time:13610ms step_avg:160.12ms
step:96/1530 train_loss:4.5997 train_time:13770ms step_avg:160.12ms
step:97/1530 train_loss:4.6532 train_time:13930ms step_avg:160.11ms
step:98/1530 train_loss:4.5984 train_time:14089ms step_avg:160.11ms
step:99/1530 train_loss:4.6833 train_time:14250ms step_avg:160.11ms
step:100/1530 train_loss:4.6780 train_time:14411ms step_avg:160.12ms
step:101/1530 train_loss:4.5289 train_time:14571ms step_avg:160.12ms
step:102/1530 train_loss:4.6989 train_time:14731ms step_avg:160.12ms
step:103/1530 train_loss:4.5738 train_time:14891ms step_avg:160.12ms
step:104/1530 train_loss:4.5432 train_time:15052ms step_avg:160.12ms
step:105/1530 train_loss:4.5555 train_time:15212ms step_avg:160.12ms
step:106/1530 train_loss:4.6313 train_time:15373ms step_avg:160.13ms
step:107/1530 train_loss:4.5046 train_time:15534ms step_avg:160.14ms
step:108/1530 train_loss:4.3660 train_time:15693ms step_avg:160.13ms
step:109/1530 train_loss:4.4997 train_time:15854ms step_avg:160.14ms
step:110/1530 train_loss:4.5023 train_time:16014ms step_avg:160.14ms
step:111/1530 train_loss:4.4259 train_time:16175ms step_avg:160.14ms
step:112/1530 train_loss:4.5892 train_time:16335ms step_avg:160.15ms
step:113/1530 train_loss:4.4943 train_time:16495ms step_avg:160.14ms
step:114/1530 train_loss:4.3535 train_time:16655ms step_avg:160.15ms
step:115/1530 train_loss:4.5110 train_time:16818ms step_avg:160.17ms
step:116/1530 train_loss:4.4802 train_time:16983ms step_avg:160.22ms
step:117/1530 train_loss:4.3857 train_time:17147ms step_avg:160.25ms
step:118/1530 train_loss:4.5997 train_time:17311ms step_avg:160.29ms
step:119/1530 train_loss:4.4591 train_time:17474ms step_avg:160.31ms
step:120/1530 train_loss:4.3371 train_time:17638ms step_avg:160.35ms
step:121/1530 train_loss:4.3003 train_time:17803ms step_avg:160.39ms
step:122/1530 train_loss:4.4476 train_time:17967ms step_avg:160.42ms
step:123/1530 train_loss:4.2818 train_time:18131ms step_avg:160.45ms
step:124/1530 train_loss:4.5825 train_time:18293ms step_avg:160.47ms
step:125/1530 train_loss:4.4657 train_time:18457ms step_avg:160.49ms
step:125/1530 val_loss:4.4075 train_time:18504ms step_avg:160.91ms
step:126/1530 train_loss:4.4172 train_time:18626ms step_avg:160.57ms
step:127/1530 train_loss:4.4394 train_time:18792ms step_avg:160.62ms
step:128/1530 train_loss:4.3742 train_time:18955ms step_avg:160.64ms
step:129/1530 train_loss:4.6838 train_time:19120ms step_avg:160.67ms
step:130/1530 train_loss:4.3617 train_time:19283ms step_avg:160.69ms
step:131/1530 train_loss:4.4007 train_time:19447ms step_avg:160.72ms
step:132/1530 train_loss:4.3556 train_time:19611ms step_avg:160.74ms
step:133/1530 train_loss:4.4433 train_time:19775ms step_avg:160.77ms
step:134/1530 train_loss:4.2548 train_time:19938ms step_avg:160.79ms
step:135/1530 train_loss:4.4380 train_time:20102ms step_avg:160.82ms
step:136/1530 train_loss:4.2116 train_time:20265ms step_avg:160.84ms
step:137/1530 train_loss:4.3813 train_time:20430ms step_avg:160.86ms
step:138/1530 train_loss:4.2927 train_time:20593ms step_avg:160.88ms
step:139/1530 train_loss:4.3707 train_time:20757ms step_avg:160.91ms
step:140/1530 train_loss:4.4745 train_time:20922ms step_avg:160.94ms
step:141/1530 train_loss:4.3143 train_time:21085ms step_avg:160.96ms
step:142/1530 train_loss:4.3059 train_time:21249ms step_avg:160.98ms
step:143/1530 train_loss:4.2524 train_time:21413ms step_avg:161.00ms
step:144/1530 train_loss:4.3430 train_time:21576ms step_avg:161.02ms
step:145/1530 train_loss:4.3047 train_time:21740ms step_avg:161.04ms
step:146/1530 train_loss:4.1663 train_time:21905ms step_avg:161.07ms
step:147/1530 train_loss:4.3334 train_time:22068ms step_avg:161.08ms
step:148/1530 train_loss:4.3637 train_time:22231ms step_avg:161.10ms
step:149/1530 train_loss:4.2990 train_time:22396ms step_avg:161.12ms
step:150/1530 train_loss:4.4327 train_time:22559ms step_avg:161.14ms
step:151/1530 train_loss:4.2670 train_time:22725ms step_avg:161.17ms
step:152/1530 train_loss:4.2744 train_time:22888ms step_avg:161.18ms
step:153/1530 train_loss:4.3590 train_time:23052ms step_avg:161.21ms
step:154/1530 train_loss:4.3602 train_time:23216ms step_avg:161.22ms
step:155/1530 train_loss:4.2601 train_time:23379ms step_avg:161.24ms
step:156/1530 train_loss:4.3401 train_time:23543ms step_avg:161.25ms
step:157/1530 train_loss:4.4025 train_time:23708ms step_avg:161.28ms
step:158/1530 train_loss:4.2403 train_time:23871ms step_avg:161.29ms
step:159/1530 train_loss:4.3032 train_time:24034ms step_avg:161.30ms
step:160/1530 train_loss:4.1260 train_time:24198ms step_avg:161.32ms
step:161/1530 train_loss:4.3388 train_time:24362ms step_avg:161.34ms
step:162/1530 train_loss:4.3514 train_time:24526ms step_avg:161.36ms
step:163/1530 train_loss:4.3342 train_time:24690ms step_avg:161.37ms
step:164/1530 train_loss:4.1920 train_time:24853ms step_avg:161.38ms
step:165/1530 train_loss:4.2920 train_time:25016ms step_avg:161.40ms
step:166/1530 train_loss:4.3442 train_time:25180ms step_avg:161.41ms
step:167/1530 train_loss:4.2000 train_time:25345ms step_avg:161.43ms
step:168/1530 train_loss:4.2866 train_time:25508ms step_avg:161.45ms
step:169/1530 train_loss:4.1561 train_time:25671ms step_avg:161.45ms
step:170/1530 train_loss:4.0184 train_time:25834ms step_avg:161.46ms
step:171/1530 train_loss:4.1887 train_time:25997ms step_avg:161.47ms
step:172/1530 train_loss:4.2014 train_time:26161ms step_avg:161.49ms
step:173/1530 train_loss:4.2643 train_time:26325ms step_avg:161.50ms
step:174/1530 train_loss:4.4205 train_time:26487ms step_avg:161.51ms
step:175/1530 train_loss:4.2530 train_time:26650ms step_avg:161.52ms
step:176/1530 train_loss:4.0981 train_time:26813ms step_avg:161.52ms
step:177/1530 train_loss:4.0733 train_time:26975ms step_avg:161.53ms
step:178/1530 train_loss:4.1720 train_time:27139ms step_avg:161.54ms
step:179/1530 train_loss:4.1179 train_time:27303ms step_avg:161.56ms
step:180/1530 train_loss:4.1013 train_time:27465ms step_avg:161.56ms
step:181/1530 train_loss:4.2816 train_time:27628ms step_avg:161.57ms
step:182/1530 train_loss:4.1394 train_time:27790ms step_avg:161.57ms
step:183/1530 train_loss:4.1236 train_time:27953ms step_avg:161.58ms
step:184/1530 train_loss:4.1126 train_time:28117ms step_avg:161.59ms
step:185/1530 train_loss:4.2029 train_time:28281ms step_avg:161.61ms
step:186/1530 train_loss:4.1683 train_time:28444ms step_avg:161.62ms
step:187/1530 train_loss:4.2225 train_time:28607ms step_avg:161.62ms
step:188/1530 train_loss:4.1533 train_time:28900ms step_avg:162.36ms
step:189/1530 train_loss:4.0971 train_time:29227ms step_avg:163.28ms
step:190/1530 train_loss:4.1967 train_time:29392ms step_avg:163.29ms
step:191/1530 train_loss:4.0664 train_time:29554ms step_avg:163.28ms
step:192/1530 train_loss:4.0150 train_time:29718ms step_avg:163.28ms
step:193/1530 train_loss:4.2423 train_time:29881ms step_avg:163.28ms
step:194/1530 train_loss:4.1613 train_time:30044ms step_avg:163.28ms
step:195/1530 train_loss:4.3472 train_time:30208ms step_avg:163.28ms
step:196/1530 train_loss:4.1675 train_time:30369ms step_avg:163.28ms
step:197/1530 train_loss:4.0398 train_time:30532ms step_avg:163.28ms
step:198/1530 train_loss:4.1774 train_time:30696ms step_avg:163.28ms
step:199/1530 train_loss:4.0366 train_time:30859ms step_avg:163.28ms
step:200/1530 train_loss:4.1025 train_time:31024ms step_avg:163.29ms
step:201/1530 train_loss:3.9872 train_time:31187ms step_avg:163.28ms
step:202/1530 train_loss:4.2427 train_time:31351ms step_avg:163.29ms
step:203/1530 train_loss:4.0630 train_time:31514ms step_avg:163.29ms
step:204/1530 train_loss:4.1829 train_time:31677ms step_avg:163.28ms
step:205/1530 train_loss:4.2466 train_time:31840ms step_avg:163.28ms
step:206/1530 train_loss:3.9380 train_time:32005ms step_avg:163.29ms
step:207/1530 train_loss:4.0770 train_time:32167ms step_avg:163.28ms
step:208/1530 train_loss:4.0875 train_time:32330ms step_avg:163.28ms
step:209/1530 train_loss:4.2313 train_time:32493ms step_avg:163.28ms
step:210/1530 train_loss:4.1729 train_time:32655ms step_avg:163.28ms
step:211/1530 train_loss:4.0516 train_time:32819ms step_avg:163.28ms
step:212/1530 train_loss:4.1135 train_time:32984ms step_avg:163.29ms
step:213/1530 train_loss:4.0493 train_time:33147ms step_avg:163.28ms
step:214/1530 train_loss:4.1121 train_time:33309ms step_avg:163.28ms
step:215/1530 train_loss:3.9473 train_time:33472ms step_avg:163.28ms
step:216/1530 train_loss:3.9968 train_time:33635ms step_avg:163.27ms
step:217/1530 train_loss:4.0104 train_time:33798ms step_avg:163.28ms
step:218/1530 train_loss:4.0843 train_time:33962ms step_avg:163.28ms
step:219/1530 train_loss:4.0696 train_time:34126ms step_avg:163.28ms
step:220/1530 train_loss:4.0809 train_time:34289ms step_avg:163.28ms
step:221/1530 train_loss:4.0937 train_time:34452ms step_avg:163.28ms
step:222/1530 train_loss:3.9906 train_time:34617ms step_avg:163.29ms
step:223/1530 train_loss:3.9837 train_time:34781ms step_avg:163.29ms
step:224/1530 train_loss:4.3008 train_time:34943ms step_avg:163.29ms
step:225/1530 train_loss:3.9029 train_time:35106ms step_avg:163.28ms
step:226/1530 train_loss:3.9806 train_time:35268ms step_avg:163.28ms
step:227/1530 train_loss:3.9625 train_time:35431ms step_avg:163.28ms
step:228/1530 train_loss:4.1389 train_time:35595ms step_avg:163.28ms
step:229/1530 train_loss:3.9175 train_time:35762ms step_avg:163.30ms
step:230/1530 train_loss:4.0392 train_time:35929ms step_avg:163.31ms
step:231/1530 train_loss:3.8972 train_time:36095ms step_avg:163.32ms
step:232/1530 train_loss:3.9577 train_time:36260ms step_avg:163.34ms
step:233/1530 train_loss:4.0783 train_time:36427ms step_avg:163.35ms
step:234/1530 train_loss:4.0176 train_time:36593ms step_avg:163.36ms
step:235/1530 train_loss:3.8919 train_time:36761ms step_avg:163.38ms
step:236/1530 train_loss:4.0787 train_time:36928ms step_avg:163.40ms
step:237/1530 train_loss:4.0705 train_time:37093ms step_avg:163.41ms
step:238/1530 train_loss:3.9371 train_time:37259ms step_avg:163.42ms
step:239/1530 train_loss:4.0754 train_time:37426ms step_avg:163.43ms
step:240/1530 train_loss:4.1052 train_time:37591ms step_avg:163.44ms
step:241/1530 train_loss:3.9571 train_time:37757ms step_avg:163.45ms
step:242/1530 train_loss:4.1434 train_time:37926ms step_avg:163.47ms
step:243/1530 train_loss:3.9974 train_time:38092ms step_avg:163.48ms
step:244/1530 train_loss:4.0765 train_time:38257ms step_avg:163.49ms
step:245/1530 train_loss:4.1370 train_time:38425ms step_avg:163.51ms
step:246/1530 train_loss:4.0525 train_time:38590ms step_avg:163.52ms
step:247/1530 train_loss:3.9989 train_time:38756ms step_avg:163.53ms
step:248/1530 train_loss:4.0962 train_time:38922ms step_avg:163.54ms
step:249/1530 train_loss:3.9132 train_time:39088ms step_avg:163.55ms
step:250/1530 train_loss:3.9662 train_time:39254ms step_avg:163.56ms
step:250/1530 val_loss:4.0019 train_time:39301ms step_avg:163.76ms
step:251/1530 train_loss:4.0710 train_time:39422ms step_avg:163.58ms
step:252/1530 train_loss:4.1608 train_time:39592ms step_avg:163.60ms
step:253/1530 train_loss:3.9215 train_time:39758ms step_avg:163.61ms
step:254/1530 train_loss:3.8860 train_time:39923ms step_avg:163.62ms
step:255/1530 train_loss:4.0724 train_time:40092ms step_avg:163.64ms
step:256/1530 train_loss:3.9775 train_time:40258ms step_avg:163.65ms
step:257/1530 train_loss:3.9852 train_time:40423ms step_avg:163.65ms
step:258/1530 train_loss:3.9794 train_time:40589ms step_avg:163.66ms
step:259/1530 train_loss:4.0205 train_time:40755ms step_avg:163.67ms
step:260/1530 train_loss:4.0478 train_time:40921ms step_avg:163.68ms
step:261/1530 train_loss:4.0181 train_time:41089ms step_avg:163.70ms
step:262/1530 train_loss:3.9926 train_time:41255ms step_avg:163.71ms
step:263/1530 train_loss:3.8842 train_time:41421ms step_avg:163.72ms
step:264/1530 train_loss:3.9753 train_time:41589ms step_avg:163.73ms
step:265/1530 train_loss:3.8606 train_time:41755ms step_avg:163.74ms
step:266/1530 train_loss:3.9123 train_time:41919ms step_avg:163.75ms
step:267/1530 train_loss:3.9198 train_time:42087ms step_avg:163.76ms
step:268/1530 train_loss:3.9537 train_time:42253ms step_avg:163.77ms
step:269/1530 train_loss:3.8483 train_time:42418ms step_avg:163.78ms
step:270/1530 train_loss:4.0942 train_time:42584ms step_avg:163.79ms
step:271/1530 train_loss:3.9594 train_time:42752ms step_avg:163.80ms
step:272/1530 train_loss:3.9213 train_time:42918ms step_avg:163.81ms
step:273/1530 train_loss:3.9332 train_time:43084ms step_avg:163.82ms
step:274/1530 train_loss:4.0351 train_time:43250ms step_avg:163.82ms
step:275/1530 train_loss:4.0583 train_time:43416ms step_avg:163.83ms
step:276/1530 train_loss:4.2218 train_time:43581ms step_avg:163.84ms
step:277/1530 train_loss:4.0399 train_time:43747ms step_avg:163.85ms
step:278/1530 train_loss:4.0837 train_time:43914ms step_avg:163.86ms
step:279/1530 train_loss:4.0027 train_time:44079ms step_avg:163.86ms
step:280/1530 train_loss:4.2139 train_time:44247ms step_avg:163.88ms
step:281/1530 train_loss:3.9697 train_time:44414ms step_avg:163.89ms
step:282/1530 train_loss:3.9393 train_time:44580ms step_avg:163.90ms
step:283/1530 train_loss:3.9049 train_time:44746ms step_avg:163.91ms
step:284/1530 train_loss:4.0386 train_time:44914ms step_avg:163.92ms
step:285/1530 train_loss:4.0520 train_time:45079ms step_avg:163.92ms
step:286/1530 train_loss:4.0839 train_time:45244ms step_avg:163.93ms
step:287/1530 train_loss:3.8985 train_time:45410ms step_avg:163.94ms
step:288/1530 train_loss:4.0061 train_time:45576ms step_avg:163.94ms
step:289/1530 train_loss:3.8681 train_time:45740ms step_avg:163.94ms
step:290/1530 train_loss:3.8511 train_time:45906ms step_avg:163.95ms
step:291/1530 train_loss:3.8948 train_time:46072ms step_avg:163.96ms
step:292/1530 train_loss:3.8518 train_time:46237ms step_avg:163.96ms
step:293/1530 train_loss:3.8994 train_time:46402ms step_avg:163.97ms
step:294/1530 train_loss:3.9276 train_time:46568ms step_avg:163.97ms
step:295/1530 train_loss:3.8306 train_time:46733ms step_avg:163.97ms
step:296/1530 train_loss:3.8527 train_time:46898ms step_avg:163.98ms
step:297/1530 train_loss:3.8632 train_time:47064ms step_avg:163.99ms
step:298/1530 train_loss:3.9648 train_time:47229ms step_avg:163.99ms
step:299/1530 train_loss:3.8224 train_time:47394ms step_avg:163.99ms
step:300/1530 train_loss:3.9660 train_time:47559ms step_avg:164.00ms
step:301/1530 train_loss:3.9565 train_time:47723ms step_avg:164.00ms
step:302/1530 train_loss:3.9220 train_time:47891ms step_avg:164.01ms
step:303/1530 train_loss:3.9657 train_time:48055ms step_avg:164.01ms
step:304/1530 train_loss:3.9589 train_time:48220ms step_avg:164.01ms
step:305/1530 train_loss:4.4531 train_time:48386ms step_avg:164.02ms
step:306/1530 train_loss:3.9305 train_time:48552ms step_avg:164.03ms
step:307/1530 train_loss:3.8297 train_time:48717ms step_avg:164.03ms
step:308/1530 train_loss:3.9742 train_time:48882ms step_avg:164.03ms
step:309/1530 train_loss:3.8771 train_time:49047ms step_avg:164.04ms
step:310/1530 train_loss:4.0805 train_time:49213ms step_avg:164.04ms
step:311/1530 train_loss:3.9190 train_time:49379ms step_avg:164.05ms
step:312/1530 train_loss:3.8491 train_time:49543ms step_avg:164.05ms
step:313/1530 train_loss:3.9257 train_time:49709ms step_avg:164.06ms
step:314/1530 train_loss:4.0547 train_time:49874ms step_avg:164.06ms
step:315/1530 train_loss:3.9394 train_time:50038ms step_avg:164.06ms
step:316/1530 train_loss:3.7928 train_time:50205ms step_avg:164.07ms
step:317/1530 train_loss:3.8634 train_time:50372ms step_avg:164.08ms
step:318/1530 train_loss:3.9114 train_time:50536ms step_avg:164.08ms
step:319/1530 train_loss:3.8790 train_time:50701ms step_avg:164.08ms
step:320/1530 train_loss:4.0140 train_time:50866ms step_avg:164.08ms
step:321/1530 train_loss:3.9463 train_time:51031ms step_avg:164.09ms
step:322/1530 train_loss:3.9235 train_time:51196ms step_avg:164.09ms
step:323/1530 train_loss:4.0020 train_time:51361ms step_avg:164.09ms
step:324/1530 train_loss:3.9360 train_time:51527ms step_avg:164.10ms
step:325/1530 train_loss:4.0088 train_time:51693ms step_avg:164.11ms
step:326/1530 train_loss:3.8907 train_time:51859ms step_avg:164.11ms
step:327/1530 train_loss:4.3896 train_time:52024ms step_avg:164.11ms
step:328/1530 train_loss:4.0702 train_time:52190ms step_avg:164.12ms
step:329/1530 train_loss:3.7854 train_time:52355ms step_avg:164.12ms
step:330/1530 train_loss:3.7525 train_time:52520ms step_avg:164.13ms
step:331/1530 train_loss:3.9667 train_time:52686ms step_avg:164.13ms
step:332/1530 train_loss:3.9033 train_time:52852ms step_avg:164.14ms
step:333/1530 train_loss:3.8781 train_time:53018ms step_avg:164.14ms
step:334/1530 train_loss:3.8350 train_time:53182ms step_avg:164.14ms
step:335/1530 train_loss:4.0058 train_time:53349ms step_avg:164.15ms
step:336/1530 train_loss:3.9563 train_time:53515ms step_avg:164.15ms
step:337/1530 train_loss:4.4280 train_time:53680ms step_avg:164.16ms
step:338/1530 train_loss:3.9371 train_time:53844ms step_avg:164.16ms
step:339/1530 train_loss:3.8632 train_time:54010ms step_avg:164.16ms
step:340/1530 train_loss:3.9279 train_time:54175ms step_avg:164.17ms
step:341/1530 train_loss:3.8524 train_time:54340ms step_avg:164.17ms
step:342/1530 train_loss:3.8039 train_time:54508ms step_avg:164.18ms
step:343/1530 train_loss:3.8359 train_time:54678ms step_avg:164.20ms
step:344/1530 train_loss:3.9917 train_time:54845ms step_avg:164.21ms
step:345/1530 train_loss:3.8198 train_time:55016ms step_avg:164.23ms
step:346/1530 train_loss:3.7544 train_time:55184ms step_avg:164.24ms
step:347/1530 train_loss:3.7925 train_time:55353ms step_avg:164.25ms
step:348/1530 train_loss:3.8509 train_time:55521ms step_avg:164.26ms
step:349/1530 train_loss:3.8195 train_time:55690ms step_avg:164.28ms
step:350/1530 train_loss:3.5628 train_time:55859ms step_avg:164.29ms
step:351/1530 train_loss:3.8184 train_time:56026ms step_avg:164.30ms
step:352/1530 train_loss:4.1716 train_time:56195ms step_avg:164.31ms
step:353/1530 train_loss:3.6560 train_time:56363ms step_avg:164.32ms
step:354/1530 train_loss:3.9231 train_time:56530ms step_avg:164.33ms
step:355/1530 train_loss:3.7800 train_time:56700ms step_avg:164.35ms
step:356/1530 train_loss:3.8749 train_time:56868ms step_avg:164.36ms
step:357/1530 train_loss:3.7549 train_time:57035ms step_avg:164.37ms
step:358/1530 train_loss:3.8687 train_time:57203ms step_avg:164.38ms
step:359/1530 train_loss:3.7943 train_time:57374ms step_avg:164.40ms
step:360/1530 train_loss:3.4285 train_time:57543ms step_avg:164.41ms
step:361/1530 train_loss:4.0183 train_time:57712ms step_avg:164.42ms
step:362/1530 train_loss:3.9134 train_time:57880ms step_avg:164.43ms
step:363/1530 train_loss:3.8407 train_time:58048ms step_avg:164.44ms
step:364/1530 train_loss:3.7422 train_time:58216ms step_avg:164.45ms
step:365/1530 train_loss:3.9122 train_time:58385ms step_avg:164.47ms
step:366/1530 train_loss:3.8514 train_time:58553ms step_avg:164.48ms
step:367/1530 train_loss:3.8553 train_time:58720ms step_avg:164.48ms
step:368/1530 train_loss:3.8452 train_time:58890ms step_avg:164.50ms
step:369/1530 train_loss:3.7362 train_time:59057ms step_avg:164.50ms
step:370/1530 train_loss:3.8748 train_time:59225ms step_avg:164.51ms
step:371/1530 train_loss:3.7253 train_time:59394ms step_avg:164.53ms
step:372/1530 train_loss:3.6879 train_time:59562ms step_avg:164.53ms
step:373/1530 train_loss:3.9109 train_time:59729ms step_avg:164.54ms
step:374/1530 train_loss:3.8237 train_time:59897ms step_avg:164.55ms
step:375/1530 train_loss:3.7956 train_time:60065ms step_avg:164.56ms
step:375/1530 val_loss:3.8245 train_time:60114ms step_avg:164.70ms
step:376/1530 train_loss:3.8655 train_time:60235ms step_avg:164.58ms
step:377/1530 train_loss:3.7801 train_time:60533ms step_avg:164.94ms
step:378/1530 train_loss:3.8512 train_time:60711ms step_avg:164.98ms
step:379/1530 train_loss:3.8618 train_time:61028ms step_avg:165.39ms
step:380/1530 train_loss:3.9545 train_time:61197ms step_avg:165.40ms
step:381/1530 train_loss:3.8337 train_time:61364ms step_avg:165.40ms
step:382/1530 train_loss:3.8014 train_time:61533ms step_avg:165.41ms
step:383/1530 train_loss:3.7868 train_time:61702ms step_avg:165.42ms
step:384/1530 train_loss:3.8634 train_time:61869ms step_avg:165.43ms
step:385/1530 train_loss:3.7924 train_time:62039ms step_avg:165.44ms
step:386/1530 train_loss:3.8875 train_time:62206ms step_avg:165.44ms
step:387/1530 train_loss:4.0519 train_time:62371ms step_avg:165.44ms
step:388/1530 train_loss:3.7904 train_time:62541ms step_avg:165.45ms
step:389/1530 train_loss:3.7954 train_time:62709ms step_avg:165.46ms
step:390/1530 train_loss:3.8954 train_time:62876ms step_avg:165.46ms
step:391/1530 train_loss:3.8065 train_time:63045ms step_avg:165.47ms
step:392/1530 train_loss:3.9146 train_time:63211ms step_avg:165.47ms
step:393/1530 train_loss:3.7628 train_time:63380ms step_avg:165.48ms
step:394/1530 train_loss:3.8774 train_time:63547ms step_avg:165.49ms
step:395/1530 train_loss:3.6255 train_time:63715ms step_avg:165.49ms
step:396/1530 train_loss:3.8280 train_time:63883ms step_avg:165.50ms
step:397/1530 train_loss:3.8480 train_time:64050ms step_avg:165.50ms
step:398/1530 train_loss:3.8701 train_time:64217ms step_avg:165.51ms
step:399/1530 train_loss:3.7687 train_time:64383ms step_avg:165.51ms
step:400/1530 train_loss:3.8320 train_time:64551ms step_avg:165.51ms
step:401/1530 train_loss:3.9082 train_time:64719ms step_avg:165.52ms
step:402/1530 train_loss:3.8381 train_time:64885ms step_avg:165.52ms
step:403/1530 train_loss:3.9530 train_time:65052ms step_avg:165.53ms
step:404/1530 train_loss:3.6720 train_time:65221ms step_avg:165.54ms
step:405/1530 train_loss:3.7745 train_time:65387ms step_avg:165.54ms
step:406/1530 train_loss:4.0918 train_time:65555ms step_avg:165.54ms
step:407/1530 train_loss:3.7772 train_time:65723ms step_avg:165.55ms
step:408/1530 train_loss:3.8108 train_time:65889ms step_avg:165.55ms
step:409/1530 train_loss:3.8478 train_time:66056ms step_avg:165.55ms
step:410/1530 train_loss:3.7581 train_time:66224ms step_avg:165.56ms
step:411/1530 train_loss:3.7599 train_time:66390ms step_avg:165.56ms
step:412/1530 train_loss:4.1927 train_time:66558ms step_avg:165.57ms
step:413/1530 train_loss:3.6836 train_time:66727ms step_avg:165.57ms
step:414/1530 train_loss:4.0091 train_time:66893ms step_avg:165.58ms
step:415/1530 train_loss:3.7453 train_time:67060ms step_avg:165.58ms
step:416/1530 train_loss:3.7616 train_time:67226ms step_avg:165.58ms
step:417/1530 train_loss:3.9555 train_time:67393ms step_avg:165.58ms
step:418/1530 train_loss:3.6826 train_time:67560ms step_avg:165.59ms
step:419/1530 train_loss:3.8002 train_time:67728ms step_avg:165.59ms
step:420/1530 train_loss:3.6992 train_time:67893ms step_avg:165.59ms
step:421/1530 train_loss:3.6455 train_time:68062ms step_avg:165.60ms
step:422/1530 train_loss:3.7798 train_time:68228ms step_avg:165.60ms
step:423/1530 train_loss:3.8686 train_time:68395ms step_avg:165.61ms
step:424/1530 train_loss:3.6068 train_time:68563ms step_avg:165.61ms
step:425/1530 train_loss:3.7936 train_time:68730ms step_avg:165.61ms
step:426/1530 train_loss:3.6555 train_time:68898ms step_avg:165.62ms
step:427/1530 train_loss:3.8830 train_time:69066ms step_avg:165.62ms
step:428/1530 train_loss:3.8034 train_time:69233ms step_avg:165.63ms
step:429/1530 train_loss:3.7553 train_time:69401ms step_avg:165.64ms
step:430/1530 train_loss:3.6964 train_time:69569ms step_avg:165.64ms
step:431/1530 train_loss:3.6235 train_time:69736ms step_avg:165.64ms
step:432/1530 train_loss:3.7540 train_time:69904ms step_avg:165.65ms
step:433/1530 train_loss:3.8133 train_time:70070ms step_avg:165.65ms
step:434/1530 train_loss:3.7693 train_time:70238ms step_avg:165.66ms
step:435/1530 train_loss:3.7991 train_time:70404ms step_avg:165.66ms
step:436/1530 train_loss:3.8256 train_time:70571ms step_avg:165.66ms
step:437/1530 train_loss:3.7194 train_time:70738ms step_avg:165.66ms
step:438/1530 train_loss:3.6939 train_time:70905ms step_avg:165.67ms
step:439/1530 train_loss:3.7076 train_time:71072ms step_avg:165.67ms
step:440/1530 train_loss:3.8924 train_time:71240ms step_avg:165.68ms
step:441/1530 train_loss:3.7572 train_time:71407ms step_avg:165.68ms
step:442/1530 train_loss:3.7409 train_time:71574ms step_avg:165.68ms
step:443/1530 train_loss:3.6200 train_time:71741ms step_avg:165.68ms
step:444/1530 train_loss:3.9183 train_time:71908ms step_avg:165.69ms
step:445/1530 train_loss:3.8389 train_time:72075ms step_avg:165.69ms
step:446/1530 train_loss:3.8369 train_time:72243ms step_avg:165.70ms
step:447/1530 train_loss:3.7486 train_time:72409ms step_avg:165.70ms
step:448/1530 train_loss:3.8472 train_time:72576ms step_avg:165.70ms
step:449/1530 train_loss:3.6873 train_time:72745ms step_avg:165.71ms
step:450/1530 train_loss:3.7055 train_time:72912ms step_avg:165.71ms
step:451/1530 train_loss:3.5767 train_time:73079ms step_avg:165.71ms
step:452/1530 train_loss:3.7011 train_time:73248ms step_avg:165.72ms
step:453/1530 train_loss:3.6663 train_time:73414ms step_avg:165.72ms
step:454/1530 train_loss:3.6280 train_time:73582ms step_avg:165.72ms
step:455/1530 train_loss:3.8338 train_time:73750ms step_avg:165.73ms
step:456/1530 train_loss:3.7245 train_time:73919ms step_avg:165.74ms
step:457/1530 train_loss:3.7742 train_time:74089ms step_avg:165.75ms
step:458/1530 train_loss:3.8215 train_time:74258ms step_avg:165.75ms
step:459/1530 train_loss:3.6275 train_time:74430ms step_avg:165.77ms
step:460/1530 train_loss:3.7892 train_time:74599ms step_avg:165.78ms
step:461/1530 train_loss:3.6866 train_time:74771ms step_avg:165.79ms
step:462/1530 train_loss:3.7329 train_time:74943ms step_avg:165.80ms
step:463/1530 train_loss:3.7768 train_time:75112ms step_avg:165.81ms
step:464/1530 train_loss:3.7134 train_time:75283ms step_avg:165.82ms
step:465/1530 train_loss:3.7124 train_time:75451ms step_avg:165.83ms
step:466/1530 train_loss:3.7912 train_time:75622ms step_avg:165.84ms
step:467/1530 train_loss:3.8228 train_time:75792ms step_avg:165.85ms
step:468/1530 train_loss:3.7882 train_time:75961ms step_avg:165.85ms
step:469/1530 train_loss:3.6785 train_time:76130ms step_avg:165.86ms
step:470/1530 train_loss:3.7621 train_time:76300ms step_avg:165.87ms
step:471/1530 train_loss:3.8080 train_time:76470ms step_avg:165.88ms
step:472/1530 train_loss:3.7759 train_time:76643ms step_avg:165.89ms
step:473/1530 train_loss:3.7084 train_time:76812ms step_avg:165.90ms
step:474/1530 train_loss:3.5884 train_time:76982ms step_avg:165.91ms
step:475/1530 train_loss:4.0209 train_time:77151ms step_avg:165.92ms
step:476/1530 train_loss:3.7556 train_time:77322ms step_avg:165.93ms
step:477/1530 train_loss:3.5943 train_time:77492ms step_avg:165.94ms
step:478/1530 train_loss:3.8173 train_time:77662ms step_avg:165.94ms
step:479/1530 train_loss:3.7668 train_time:77831ms step_avg:165.95ms
step:480/1530 train_loss:3.9182 train_time:78002ms step_avg:165.96ms
step:481/1530 train_loss:3.7203 train_time:78173ms step_avg:165.97ms
step:482/1530 train_loss:3.5199 train_time:78344ms step_avg:165.98ms
step:483/1530 train_loss:3.8034 train_time:78513ms step_avg:165.99ms
step:484/1530 train_loss:3.6569 train_time:78683ms step_avg:166.00ms
step:485/1530 train_loss:3.6542 train_time:78851ms step_avg:166.00ms
step:486/1530 train_loss:3.5650 train_time:79023ms step_avg:166.02ms
step:487/1530 train_loss:3.6754 train_time:79193ms step_avg:166.02ms
step:488/1530 train_loss:3.8733 train_time:79362ms step_avg:166.03ms
step:489/1530 train_loss:3.7104 train_time:79534ms step_avg:166.04ms
step:490/1530 train_loss:3.5913 train_time:79704ms step_avg:166.05ms
step:491/1530 train_loss:3.6089 train_time:79873ms step_avg:166.06ms
step:492/1530 train_loss:3.7293 train_time:80044ms step_avg:166.07ms
step:493/1530 train_loss:3.5763 train_time:80213ms step_avg:166.07ms
step:494/1530 train_loss:3.7004 train_time:80383ms step_avg:166.08ms
step:495/1530 train_loss:3.6518 train_time:80552ms step_avg:166.09ms
step:496/1530 train_loss:3.5034 train_time:80725ms step_avg:166.10ms
step:497/1530 train_loss:3.7292 train_time:80894ms step_avg:166.11ms
step:498/1530 train_loss:3.7826 train_time:81065ms step_avg:166.12ms
step:499/1530 train_loss:3.8138 train_time:81235ms step_avg:166.13ms
step:500/1530 train_loss:3.7329 train_time:81406ms step_avg:166.13ms
step:500/1530 val_loss:3.6984 train_time:81454ms step_avg:166.23ms
step:501/1530 train_loss:3.7996 train_time:81575ms step_avg:166.14ms
step:502/1530 train_loss:3.7456 train_time:81746ms step_avg:166.15ms
step:503/1530 train_loss:3.7675 train_time:81915ms step_avg:166.16ms
step:504/1530 train_loss:3.7147 train_time:82086ms step_avg:166.17ms
step:505/1530 train_loss:3.8027 train_time:82255ms step_avg:166.17ms
step:506/1530 train_loss:3.6403 train_time:82426ms step_avg:166.18ms
step:507/1530 train_loss:3.7613 train_time:82594ms step_avg:166.18ms
step:508/1530 train_loss:3.8169 train_time:82767ms step_avg:166.20ms
step:509/1530 train_loss:3.7662 train_time:82937ms step_avg:166.21ms
step:510/1530 train_loss:3.5774 train_time:83107ms step_avg:166.21ms
step:511/1530 train_loss:3.7764 train_time:83277ms step_avg:166.22ms
step:512/1530 train_loss:3.7193 train_time:83448ms step_avg:166.23ms
step:513/1530 train_loss:3.6634 train_time:83616ms step_avg:166.24ms
step:514/1530 train_loss:3.8156 train_time:83788ms step_avg:166.25ms
step:515/1530 train_loss:3.7249 train_time:83958ms step_avg:166.25ms
step:516/1530 train_loss:4.0766 train_time:84128ms step_avg:166.26ms
step:517/1530 train_loss:3.6906 train_time:84296ms step_avg:166.27ms
step:518/1530 train_loss:3.7669 train_time:84466ms step_avg:166.27ms
step:519/1530 train_loss:3.6510 train_time:84634ms step_avg:166.28ms
step:520/1530 train_loss:3.6870 train_time:84803ms step_avg:166.28ms
step:521/1530 train_loss:3.6597 train_time:84973ms step_avg:166.29ms
step:522/1530 train_loss:3.6545 train_time:85145ms step_avg:166.30ms
step:523/1530 train_loss:4.2877 train_time:85315ms step_avg:166.31ms
step:524/1530 train_loss:3.7418 train_time:85484ms step_avg:166.31ms
step:525/1530 train_loss:3.6695 train_time:85652ms step_avg:166.31ms
step:526/1530 train_loss:3.6969 train_time:85820ms step_avg:166.32ms
step:527/1530 train_loss:3.6517 train_time:85992ms step_avg:166.33ms
step:528/1530 train_loss:3.6268 train_time:86161ms step_avg:166.33ms
step:529/1530 train_loss:3.8438 train_time:86329ms step_avg:166.34ms
step:530/1530 train_loss:3.6431 train_time:86497ms step_avg:166.34ms
step:531/1530 train_loss:3.9136 train_time:86668ms step_avg:166.35ms
step:532/1530 train_loss:3.7229 train_time:86836ms step_avg:166.35ms
step:533/1530 train_loss:3.6476 train_time:87005ms step_avg:166.36ms
step:534/1530 train_loss:3.6641 train_time:87174ms step_avg:166.36ms
step:535/1530 train_loss:3.6036 train_time:87346ms step_avg:166.37ms
step:536/1530 train_loss:3.7483 train_time:87514ms step_avg:166.38ms
step:537/1530 train_loss:3.7169 train_time:87685ms step_avg:166.38ms
step:538/1530 train_loss:3.6214 train_time:87853ms step_avg:166.39ms
step:539/1530 train_loss:4.1084 train_time:88024ms step_avg:166.40ms
step:540/1530 train_loss:3.6678 train_time:88193ms step_avg:166.40ms
step:541/1530 train_loss:3.7798 train_time:88362ms step_avg:166.41ms
step:542/1530 train_loss:3.5853 train_time:88531ms step_avg:166.41ms
step:543/1530 train_loss:3.5772 train_time:88701ms step_avg:166.42ms
step:544/1530 train_loss:3.6312 train_time:88870ms step_avg:166.42ms
step:545/1530 train_loss:3.5853 train_time:89039ms step_avg:166.43ms
step:546/1530 train_loss:3.6173 train_time:89211ms step_avg:166.44ms
step:547/1530 train_loss:3.6418 train_time:89381ms step_avg:166.44ms
step:548/1530 train_loss:3.6076 train_time:89550ms step_avg:166.45ms
step:549/1530 train_loss:3.7263 train_time:89718ms step_avg:166.45ms
step:550/1530 train_loss:3.6169 train_time:89889ms step_avg:166.46ms
step:551/1530 train_loss:3.6249 train_time:90057ms step_avg:166.46ms
step:552/1530 train_loss:3.9351 train_time:90227ms step_avg:166.47ms
step:553/1530 train_loss:3.7538 train_time:90395ms step_avg:166.47ms
step:554/1530 train_loss:3.7049 train_time:90565ms step_avg:166.48ms
step:555/1530 train_loss:3.6242 train_time:90732ms step_avg:166.48ms
step:556/1530 train_loss:3.6894 train_time:90900ms step_avg:166.48ms
step:557/1530 train_loss:3.3083 train_time:91073ms step_avg:166.50ms
step:558/1530 train_loss:3.6040 train_time:91243ms step_avg:166.50ms
step:559/1530 train_loss:3.6398 train_time:91411ms step_avg:166.51ms
step:560/1530 train_loss:3.6845 train_time:91581ms step_avg:166.51ms
step:561/1530 train_loss:3.6077 train_time:91749ms step_avg:166.51ms
step:562/1530 train_loss:3.5567 train_time:91918ms step_avg:166.52ms
step:563/1530 train_loss:3.7535 train_time:92087ms step_avg:166.52ms
step:564/1530 train_loss:3.5699 train_time:92256ms step_avg:166.53ms
step:565/1530 train_loss:3.6770 train_time:92427ms step_avg:166.53ms
step:566/1530 train_loss:3.6115 train_time:92733ms step_avg:166.79ms
step:567/1530 train_loss:3.5966 train_time:92913ms step_avg:166.81ms
step:568/1530 train_loss:3.6803 train_time:93084ms step_avg:166.82ms
step:569/1530 train_loss:3.6455 train_time:93408ms step_avg:167.10ms
step:570/1530 train_loss:3.6860 train_time:93581ms step_avg:167.11ms
step:571/1530 train_loss:3.7538 train_time:93751ms step_avg:167.11ms
step:572/1530 train_loss:3.7232 train_time:93922ms step_avg:167.12ms
step:573/1530 train_loss:3.7340 train_time:94095ms step_avg:167.13ms
step:574/1530 train_loss:3.7752 train_time:94270ms step_avg:167.15ms
step:575/1530 train_loss:3.7232 train_time:94441ms step_avg:167.15ms
step:576/1530 train_loss:3.7549 train_time:94611ms step_avg:167.16ms
step:577/1530 train_loss:3.6669 train_time:94783ms step_avg:167.16ms
step:578/1530 train_loss:3.6768 train_time:94955ms step_avg:167.17ms
step:579/1530 train_loss:3.6664 train_time:95127ms step_avg:167.18ms
step:580/1530 train_loss:3.5847 train_time:95297ms step_avg:167.19ms
step:581/1530 train_loss:3.6322 train_time:95469ms step_avg:167.20ms
step:582/1530 train_loss:3.8450 train_time:95639ms step_avg:167.20ms
step:583/1530 train_loss:3.6245 train_time:95811ms step_avg:167.21ms
step:584/1530 train_loss:3.5856 train_time:95982ms step_avg:167.22ms
step:585/1530 train_loss:3.7827 train_time:96152ms step_avg:167.22ms
step:586/1530 train_loss:3.5195 train_time:96325ms step_avg:167.23ms
step:587/1530 train_loss:3.6633 train_time:96495ms step_avg:167.24ms
step:588/1530 train_loss:3.6357 train_time:96667ms step_avg:167.24ms
step:589/1530 train_loss:3.9878 train_time:96839ms step_avg:167.25ms
step:590/1530 train_loss:3.7746 train_time:97011ms step_avg:167.26ms
step:591/1530 train_loss:3.4978 train_time:97182ms step_avg:167.27ms
step:592/1530 train_loss:3.5289 train_time:97355ms step_avg:167.28ms
step:593/1530 train_loss:3.4974 train_time:97528ms step_avg:167.29ms
step:594/1530 train_loss:3.5515 train_time:97698ms step_avg:167.29ms
step:595/1530 train_loss:3.9199 train_time:97872ms step_avg:167.30ms
step:596/1530 train_loss:3.6477 train_time:98045ms step_avg:167.31ms
step:597/1530 train_loss:3.5870 train_time:98215ms step_avg:167.32ms
step:598/1530 train_loss:3.6546 train_time:98388ms step_avg:167.33ms
step:599/1530 train_loss:3.4689 train_time:98557ms step_avg:167.33ms
step:600/1530 train_loss:3.5889 train_time:98730ms step_avg:167.34ms
step:601/1530 train_loss:3.6455 train_time:98904ms step_avg:167.35ms
step:602/1530 train_loss:3.6694 train_time:99078ms step_avg:167.36ms
step:603/1530 train_loss:3.7771 train_time:99248ms step_avg:167.37ms
step:604/1530 train_loss:3.6075 train_time:99419ms step_avg:167.37ms
step:605/1530 train_loss:3.6060 train_time:99592ms step_avg:167.38ms
step:606/1530 train_loss:3.5725 train_time:99766ms step_avg:167.39ms
step:607/1530 train_loss:3.8325 train_time:99936ms step_avg:167.40ms
step:608/1530 train_loss:3.6321 train_time:100108ms step_avg:167.40ms
step:609/1530 train_loss:3.6105 train_time:100278ms step_avg:167.41ms
step:610/1530 train_loss:3.6950 train_time:100448ms step_avg:167.41ms
step:611/1530 train_loss:3.5943 train_time:100619ms step_avg:167.42ms
step:612/1530 train_loss:3.5643 train_time:100790ms step_avg:167.43ms
step:613/1530 train_loss:3.7507 train_time:100963ms step_avg:167.43ms
step:614/1530 train_loss:3.7004 train_time:101133ms step_avg:167.44ms
step:615/1530 train_loss:3.6875 train_time:101304ms step_avg:167.44ms
step:616/1530 train_loss:3.6264 train_time:101474ms step_avg:167.45ms
step:617/1530 train_loss:3.5541 train_time:101647ms step_avg:167.46ms
step:618/1530 train_loss:3.6809 train_time:101818ms step_avg:167.46ms
step:619/1530 train_loss:3.5517 train_time:101990ms step_avg:167.47ms
step:620/1530 train_loss:3.5827 train_time:102161ms step_avg:167.48ms
step:621/1530 train_loss:3.9225 train_time:102332ms step_avg:167.48ms
step:622/1530 train_loss:3.5659 train_time:102505ms step_avg:167.49ms
step:623/1530 train_loss:3.5917 train_time:102678ms step_avg:167.50ms
step:624/1530 train_loss:3.6910 train_time:102850ms step_avg:167.51ms
step:625/1530 train_loss:3.6959 train_time:103019ms step_avg:167.51ms
step:625/1530 val_loss:3.6191 train_time:103069ms step_avg:167.59ms
step:626/1530 train_loss:3.7374 train_time:103193ms step_avg:167.52ms
step:627/1530 train_loss:3.7097 train_time:103363ms step_avg:167.52ms
step:628/1530 train_loss:3.7559 train_time:103532ms step_avg:167.53ms
step:629/1530 train_loss:3.5893 train_time:103705ms step_avg:167.54ms
step:630/1530 train_loss:3.7240 train_time:103876ms step_avg:167.54ms
step:631/1530 train_loss:3.7368 train_time:104045ms step_avg:167.54ms
step:632/1530 train_loss:3.6439 train_time:104219ms step_avg:167.55ms
step:633/1530 train_loss:3.6007 train_time:104391ms step_avg:167.56ms
step:634/1530 train_loss:3.6940 train_time:104560ms step_avg:167.56ms
step:635/1530 train_loss:3.9476 train_time:104731ms step_avg:167.57ms
step:636/1530 train_loss:3.5446 train_time:104902ms step_avg:167.57ms
step:637/1530 train_loss:3.3574 train_time:105075ms step_avg:167.58ms
step:638/1530 train_loss:3.5897 train_time:105244ms step_avg:167.59ms
step:639/1530 train_loss:3.6293 train_time:105416ms step_avg:167.59ms
step:640/1530 train_loss:3.5655 train_time:105585ms step_avg:167.60ms
step:641/1530 train_loss:3.5862 train_time:105755ms step_avg:167.60ms
step:642/1530 train_loss:3.6303 train_time:105925ms step_avg:167.60ms
step:643/1530 train_loss:3.5909 train_time:106097ms step_avg:167.61ms
step:644/1530 train_loss:3.5536 train_time:106267ms step_avg:167.61ms
step:645/1530 train_loss:3.7674 train_time:106439ms step_avg:167.62ms
step:646/1530 train_loss:3.6665 train_time:106612ms step_avg:167.63ms
step:647/1530 train_loss:3.6662 train_time:106781ms step_avg:167.63ms
step:648/1530 train_loss:3.7084 train_time:106953ms step_avg:167.64ms
step:649/1530 train_loss:3.7629 train_time:107123ms step_avg:167.64ms
step:650/1530 train_loss:3.6145 train_time:107294ms step_avg:167.65ms
step:651/1530 train_loss:3.7660 train_time:107465ms step_avg:167.65ms
step:652/1530 train_loss:3.5816 train_time:107635ms step_avg:167.66ms
step:653/1530 train_loss:3.6584 train_time:107804ms step_avg:167.66ms
step:654/1530 train_loss:3.4253 train_time:107976ms step_avg:167.66ms
step:655/1530 train_loss:3.5763 train_time:108144ms step_avg:167.67ms
step:656/1530 train_loss:3.5708 train_time:108317ms step_avg:167.67ms
step:657/1530 train_loss:3.5003 train_time:108486ms step_avg:167.68ms
step:658/1530 train_loss:3.6839 train_time:108658ms step_avg:167.68ms
step:659/1530 train_loss:3.5822 train_time:108829ms step_avg:167.69ms
step:660/1530 train_loss:3.6772 train_time:109000ms step_avg:167.69ms
step:661/1530 train_loss:3.7442 train_time:109171ms step_avg:167.70ms
step:662/1530 train_loss:3.6678 train_time:109341ms step_avg:167.70ms
step:663/1530 train_loss:3.5475 train_time:109513ms step_avg:167.71ms
step:664/1530 train_loss:3.6008 train_time:109682ms step_avg:167.71ms
step:665/1530 train_loss:3.4898 train_time:109854ms step_avg:167.72ms
step:666/1530 train_loss:3.7791 train_time:110023ms step_avg:167.72ms
step:667/1530 train_loss:3.6020 train_time:110195ms step_avg:167.72ms
step:668/1530 train_loss:3.6443 train_time:110365ms step_avg:167.73ms
step:669/1530 train_loss:3.4857 train_time:110537ms step_avg:167.73ms
step:670/1530 train_loss:3.6005 train_time:110706ms step_avg:167.74ms
step:671/1530 train_loss:3.5593 train_time:110878ms step_avg:167.74ms
step:672/1530 train_loss:3.5631 train_time:111049ms step_avg:167.75ms
step:673/1530 train_loss:3.8476 train_time:111219ms step_avg:167.75ms
step:674/1530 train_loss:3.6163 train_time:111390ms step_avg:167.76ms
step:675/1530 train_loss:3.7069 train_time:111560ms step_avg:167.76ms
step:676/1530 train_loss:3.4906 train_time:111731ms step_avg:167.76ms
step:677/1530 train_loss:3.5944 train_time:111904ms step_avg:167.77ms
step:678/1530 train_loss:3.5475 train_time:112075ms step_avg:167.78ms
step:679/1530 train_loss:3.6752 train_time:112245ms step_avg:167.78ms
step:680/1530 train_loss:3.5823 train_time:112416ms step_avg:167.79ms
step:681/1530 train_loss:3.6149 train_time:112586ms step_avg:167.79ms
step:682/1530 train_loss:3.6657 train_time:112760ms step_avg:167.80ms
step:683/1530 train_loss:3.7389 train_time:112932ms step_avg:167.80ms
step:684/1530 train_loss:3.6479 train_time:113105ms step_avg:167.81ms
step:685/1530 train_loss:3.6807 train_time:113278ms step_avg:167.82ms
step:686/1530 train_loss:3.6326 train_time:113450ms step_avg:167.83ms
step:687/1530 train_loss:3.6612 train_time:113622ms step_avg:167.83ms
step:688/1530 train_loss:3.1919 train_time:113800ms step_avg:167.85ms
step:689/1530 train_loss:3.4006 train_time:113974ms step_avg:167.86ms
step:690/1530 train_loss:3.5348 train_time:114148ms step_avg:167.86ms
step:691/1530 train_loss:3.4090 train_time:114320ms step_avg:167.87ms
step:692/1530 train_loss:3.6177 train_time:114492ms step_avg:167.88ms
step:693/1530 train_loss:3.6448 train_time:114664ms step_avg:167.88ms
step:694/1530 train_loss:3.5488 train_time:114837ms step_avg:167.89ms
step:695/1530 train_loss:3.5267 train_time:115008ms step_avg:167.89ms
step:696/1530 train_loss:3.8512 train_time:115179ms step_avg:167.90ms
step:697/1530 train_loss:3.5864 train_time:115353ms step_avg:167.91ms
step:698/1530 train_loss:3.6451 train_time:115524ms step_avg:167.91ms
step:699/1530 train_loss:3.7631 train_time:115699ms step_avg:167.92ms
step:700/1530 train_loss:3.5663 train_time:115872ms step_avg:167.93ms
step:701/1530 train_loss:3.5418 train_time:116044ms step_avg:167.94ms
step:702/1530 train_loss:3.5093 train_time:116218ms step_avg:167.95ms
step:703/1530 train_loss:3.4947 train_time:116390ms step_avg:167.95ms
step:704/1530 train_loss:3.5738 train_time:116561ms step_avg:167.96ms
step:705/1530 train_loss:3.5610 train_time:116737ms step_avg:167.97ms
step:706/1530 train_loss:3.5745 train_time:116912ms step_avg:167.98ms
step:707/1530 train_loss:3.6415 train_time:117087ms step_avg:167.99ms
step:708/1530 train_loss:3.6017 train_time:117259ms step_avg:167.99ms
step:709/1530 train_loss:3.5769 train_time:117433ms step_avg:168.00ms
step:710/1530 train_loss:3.5365 train_time:117604ms step_avg:168.01ms
step:711/1530 train_loss:3.5901 train_time:117779ms step_avg:168.02ms
step:712/1530 train_loss:3.6459 train_time:117956ms step_avg:168.03ms
step:713/1530 train_loss:3.6572 train_time:118132ms step_avg:168.04ms
step:714/1530 train_loss:3.5555 train_time:118305ms step_avg:168.05ms
step:715/1530 train_loss:3.5702 train_time:118478ms step_avg:168.05ms
step:716/1530 train_loss:3.5875 train_time:118649ms step_avg:168.06ms
step:717/1530 train_loss:3.7090 train_time:118824ms step_avg:168.07ms
step:718/1530 train_loss:3.5964 train_time:118997ms step_avg:168.07ms
step:719/1530 train_loss:3.6717 train_time:119168ms step_avg:168.08ms
step:720/1530 train_loss:3.8423 train_time:119343ms step_avg:168.09ms
step:721/1530 train_loss:3.4590 train_time:119517ms step_avg:168.10ms
step:722/1530 train_loss:3.7358 train_time:119690ms step_avg:168.10ms
step:723/1530 train_loss:3.7654 train_time:119861ms step_avg:168.11ms
step:724/1530 train_loss:3.5668 train_time:120035ms step_avg:168.12ms
step:725/1530 train_loss:3.6476 train_time:120207ms step_avg:168.12ms
step:726/1530 train_loss:3.5310 train_time:120381ms step_avg:168.13ms
step:727/1530 train_loss:3.5782 train_time:120556ms step_avg:168.14ms
step:728/1530 train_loss:3.7292 train_time:120728ms step_avg:168.15ms
step:729/1530 train_loss:3.6767 train_time:120901ms step_avg:168.15ms
step:730/1530 train_loss:3.6629 train_time:121074ms step_avg:168.16ms
step:731/1530 train_loss:3.5516 train_time:121246ms step_avg:168.16ms
step:732/1530 train_loss:3.5923 train_time:121418ms step_avg:168.17ms
step:733/1530 train_loss:3.8295 train_time:121593ms step_avg:168.18ms
step:734/1530 train_loss:3.5525 train_time:121766ms step_avg:168.18ms
step:735/1530 train_loss:3.6118 train_time:121938ms step_avg:168.19ms
step:736/1530 train_loss:3.7343 train_time:122113ms step_avg:168.20ms
step:737/1530 train_loss:3.6766 train_time:122285ms step_avg:168.20ms
step:738/1530 train_loss:3.5990 train_time:122456ms step_avg:168.21ms
step:739/1530 train_loss:3.4967 train_time:122627ms step_avg:168.21ms
step:740/1530 train_loss:4.1126 train_time:122804ms step_avg:168.22ms
step:741/1530 train_loss:3.4884 train_time:122976ms step_avg:168.23ms
step:742/1530 train_loss:3.5515 train_time:123149ms step_avg:168.24ms
step:743/1530 train_loss:3.5827 train_time:123322ms step_avg:168.24ms
step:744/1530 train_loss:3.6437 train_time:123494ms step_avg:168.25ms
step:745/1530 train_loss:3.5830 train_time:123666ms step_avg:168.25ms
step:746/1530 train_loss:3.5944 train_time:123839ms step_avg:168.26ms
step:747/1530 train_loss:3.6476 train_time:124012ms step_avg:168.27ms
step:748/1530 train_loss:3.5552 train_time:124188ms step_avg:168.28ms
step:749/1530 train_loss:3.5588 train_time:124360ms step_avg:168.28ms
step:750/1530 train_loss:3.5956 train_time:124530ms step_avg:168.28ms
step:750/1530 val_loss:3.5626 train_time:124580ms step_avg:168.35ms
step:751/1530 train_loss:3.5701 train_time:124705ms step_avg:168.29ms
step:752/1530 train_loss:3.6092 train_time:124877ms step_avg:168.30ms
step:753/1530 train_loss:3.6150 train_time:125051ms step_avg:168.31ms
step:754/1530 train_loss:3.5883 train_time:125223ms step_avg:168.31ms
step:755/1530 train_loss:3.6763 train_time:125524ms step_avg:168.49ms
step:756/1530 train_loss:3.4567 train_time:125707ms step_avg:168.51ms
step:757/1530 train_loss:3.7201 train_time:125881ms step_avg:168.52ms
step:758/1530 train_loss:3.6466 train_time:126053ms step_avg:168.52ms
step:759/1530 train_loss:3.5889 train_time:126380ms step_avg:168.73ms
step:760/1530 train_loss:3.7019 train_time:126550ms step_avg:168.73ms
step:761/1530 train_loss:3.3996 train_time:126721ms step_avg:168.74ms
step:762/1530 train_loss:3.5512 train_time:126893ms step_avg:168.74ms
step:763/1530 train_loss:3.6636 train_time:127067ms step_avg:168.75ms
step:764/1530 train_loss:3.3199 train_time:127239ms step_avg:168.75ms
step:765/1530 train_loss:3.7293 train_time:127413ms step_avg:168.76ms
step:766/1530 train_loss:3.5732 train_time:127586ms step_avg:168.76ms
step:767/1530 train_loss:3.5630 train_time:127758ms step_avg:168.77ms
step:768/1530 train_loss:3.5635 train_time:127932ms step_avg:168.78ms
step:769/1530 train_loss:3.5870 train_time:128104ms step_avg:168.78ms
step:770/1530 train_loss:3.6382 train_time:128277ms step_avg:168.79ms
step:771/1530 train_loss:3.8863 train_time:128451ms step_avg:168.79ms
step:772/1530 train_loss:3.4544 train_time:128623ms step_avg:168.80ms
step:773/1530 train_loss:3.6290 train_time:128794ms step_avg:168.80ms
step:774/1530 train_loss:3.6349 train_time:128965ms step_avg:168.80ms
step:775/1530 train_loss:3.6079 train_time:129137ms step_avg:168.81ms
step:776/1530 train_loss:3.4007 train_time:129312ms step_avg:168.81ms
step:777/1530 train_loss:3.3886 train_time:129484ms step_avg:168.82ms
step:778/1530 train_loss:3.4813 train_time:129656ms step_avg:168.82ms
step:779/1530 train_loss:3.5814 train_time:129827ms step_avg:168.83ms
step:780/1530 train_loss:3.5847 train_time:129999ms step_avg:168.83ms
step:781/1530 train_loss:3.6697 train_time:130171ms step_avg:168.83ms
step:782/1530 train_loss:3.5896 train_time:130346ms step_avg:168.84ms
step:783/1530 train_loss:3.5626 train_time:130518ms step_avg:168.85ms
step:784/1530 train_loss:3.6082 train_time:130692ms step_avg:168.85ms
step:785/1530 train_loss:3.5605 train_time:130863ms step_avg:168.86ms
step:786/1530 train_loss:3.4393 train_time:131036ms step_avg:168.86ms
step:787/1530 train_loss:3.7399 train_time:131209ms step_avg:168.87ms
step:788/1530 train_loss:3.5037 train_time:131381ms step_avg:168.87ms
step:789/1530 train_loss:3.5525 train_time:131553ms step_avg:168.87ms
step:790/1530 train_loss:3.6220 train_time:131724ms step_avg:168.88ms
step:791/1530 train_loss:3.7680 train_time:131899ms step_avg:168.89ms
step:792/1530 train_loss:3.7558 train_time:132072ms step_avg:168.89ms
step:793/1530 train_loss:3.4550 train_time:132244ms step_avg:168.89ms
step:794/1530 train_loss:3.5947 train_time:132417ms step_avg:168.90ms
step:795/1530 train_loss:3.6708 train_time:132592ms step_avg:168.91ms
step:796/1530 train_loss:3.7403 train_time:132768ms step_avg:168.92ms
step:797/1530 train_loss:3.5202 train_time:132941ms step_avg:168.92ms
step:798/1530 train_loss:3.6445 train_time:133117ms step_avg:168.93ms
step:799/1530 train_loss:3.5341 train_time:133294ms step_avg:168.94ms
step:800/1530 train_loss:3.5299 train_time:133468ms step_avg:168.95ms
step:801/1530 train_loss:3.6313 train_time:133643ms step_avg:168.95ms
step:802/1530 train_loss:3.4995 train_time:133819ms step_avg:168.96ms
step:803/1530 train_loss:3.4840 train_time:133993ms step_avg:168.97ms
step:804/1530 train_loss:3.6151 train_time:134166ms step_avg:168.97ms
step:805/1530 train_loss:3.5133 train_time:134342ms step_avg:168.98ms
step:806/1530 train_loss:3.5573 train_time:134515ms step_avg:168.99ms
step:807/1530 train_loss:3.6404 train_time:134689ms step_avg:168.99ms
step:808/1530 train_loss:3.5405 train_time:134866ms step_avg:169.00ms
step:809/1530 train_loss:3.4842 train_time:135040ms step_avg:169.01ms
step:810/1530 train_loss:3.5637 train_time:135213ms step_avg:169.02ms
step:811/1530 train_loss:3.5751 train_time:135387ms step_avg:169.02ms
step:812/1530 train_loss:3.5992 train_time:135559ms step_avg:169.03ms
step:813/1530 train_loss:3.6221 train_time:135732ms step_avg:169.03ms
step:814/1530 train_loss:3.5616 train_time:135906ms step_avg:169.04ms
step:815/1530 train_loss:3.5641 train_time:136080ms step_avg:169.04ms
step:816/1530 train_loss:3.6782 train_time:136255ms step_avg:169.05ms
step:817/1530 train_loss:3.7666 train_time:136428ms step_avg:169.06ms
step:818/1530 train_loss:3.5190 train_time:136600ms step_avg:169.06ms
step:819/1530 train_loss:3.7162 train_time:136776ms step_avg:169.07ms
step:820/1530 train_loss:3.4903 train_time:136952ms step_avg:169.08ms
step:821/1530 train_loss:3.5606 train_time:137125ms step_avg:169.08ms
step:822/1530 train_loss:3.6953 train_time:137300ms step_avg:169.09ms
step:823/1530 train_loss:3.5726 train_time:137475ms step_avg:169.10ms
step:824/1530 train_loss:3.5113 train_time:137648ms step_avg:169.10ms
step:825/1530 train_loss:3.6147 train_time:137822ms step_avg:169.11ms
step:826/1530 train_loss:3.4764 train_time:137997ms step_avg:169.11ms
step:827/1530 train_loss:3.7291 train_time:138171ms step_avg:169.12ms
step:828/1530 train_loss:3.6213 train_time:138344ms step_avg:169.12ms
step:829/1530 train_loss:3.6291 train_time:138518ms step_avg:169.13ms
step:830/1530 train_loss:3.5335 train_time:138692ms step_avg:169.14ms
step:831/1530 train_loss:3.5928 train_time:138864ms step_avg:169.14ms
step:832/1530 train_loss:3.5142 train_time:139039ms step_avg:169.15ms
step:833/1530 train_loss:3.6463 train_time:139215ms step_avg:169.16ms
step:834/1530 train_loss:3.4692 train_time:139389ms step_avg:169.16ms
step:835/1530 train_loss:3.4498 train_time:139562ms step_avg:169.17ms
step:836/1530 train_loss:3.7138 train_time:139739ms step_avg:169.18ms
step:837/1530 train_loss:3.3947 train_time:139915ms step_avg:169.18ms
step:838/1530 train_loss:3.5946 train_time:140089ms step_avg:169.19ms
step:839/1530 train_loss:3.4150 train_time:140266ms step_avg:169.20ms
step:840/1530 train_loss:3.4668 train_time:140440ms step_avg:169.20ms
step:841/1530 train_loss:3.5686 train_time:140613ms step_avg:169.21ms
step:842/1530 train_loss:3.5834 train_time:140789ms step_avg:169.22ms
step:843/1530 train_loss:3.5622 train_time:140961ms step_avg:169.22ms
step:844/1530 train_loss:3.4264 train_time:141135ms step_avg:169.23ms
step:845/1530 train_loss:3.6564 train_time:141311ms step_avg:169.23ms
step:846/1530 train_loss:3.5138 train_time:141486ms step_avg:169.24ms
step:847/1530 train_loss:3.4879 train_time:141660ms step_avg:169.25ms
step:848/1530 train_loss:3.6391 train_time:141834ms step_avg:169.25ms
step:849/1530 train_loss:3.4870 train_time:142007ms step_avg:169.26ms
step:850/1530 train_loss:3.4378 train_time:142181ms step_avg:169.26ms
step:851/1530 train_loss:3.7318 train_time:142354ms step_avg:169.27ms
step:852/1530 train_loss:3.4344 train_time:142528ms step_avg:169.27ms
step:853/1530 train_loss:3.5648 train_time:142700ms step_avg:169.28ms
step:854/1530 train_loss:3.6480 train_time:142874ms step_avg:169.28ms
step:855/1530 train_loss:3.5190 train_time:143048ms step_avg:169.29ms
step:856/1530 train_loss:3.5421 train_time:143221ms step_avg:169.29ms
step:857/1530 train_loss:3.6046 train_time:143394ms step_avg:169.30ms
step:858/1530 train_loss:3.4751 train_time:143571ms step_avg:169.31ms
step:859/1530 train_loss:3.5521 train_time:143744ms step_avg:169.31ms
step:860/1530 train_loss:3.5853 train_time:143915ms step_avg:169.31ms
step:861/1530 train_loss:3.6289 train_time:144093ms step_avg:169.32ms
step:862/1530 train_loss:3.6055 train_time:144268ms step_avg:169.33ms
step:863/1530 train_loss:3.5707 train_time:144445ms step_avg:169.34ms
step:864/1530 train_loss:3.3799 train_time:144619ms step_avg:169.34ms
step:865/1530 train_loss:3.6001 train_time:144792ms step_avg:169.35ms
step:866/1530 train_loss:3.8681 train_time:144969ms step_avg:169.36ms
step:867/1530 train_loss:3.4580 train_time:145142ms step_avg:169.36ms
step:868/1530 train_loss:3.6411 train_time:145314ms step_avg:169.36ms
step:869/1530 train_loss:3.6170 train_time:145487ms step_avg:169.37ms
step:870/1530 train_loss:3.4487 train_time:145660ms step_avg:169.37ms
step:871/1530 train_loss:3.3904 train_time:145837ms step_avg:169.38ms
step:872/1530 train_loss:3.6455 train_time:146010ms step_avg:169.38ms
step:873/1530 train_loss:3.4591 train_time:146182ms step_avg:169.39ms
step:874/1530 train_loss:3.2158 train_time:146359ms step_avg:169.40ms
step:875/1530 train_loss:3.6299 train_time:146533ms step_avg:169.40ms
step:875/1530 val_loss:3.5157 train_time:146582ms step_avg:169.46ms
step:876/1530 train_loss:3.4342 train_time:146706ms step_avg:169.41ms
step:877/1530 train_loss:3.6165 train_time:146882ms step_avg:169.41ms
step:878/1530 train_loss:3.4649 train_time:147058ms step_avg:169.42ms
step:879/1530 train_loss:3.6526 train_time:147230ms step_avg:169.42ms
step:880/1530 train_loss:3.3134 train_time:147402ms step_avg:169.43ms
step:881/1530 train_loss:3.4756 train_time:147576ms step_avg:169.43ms
step:882/1530 train_loss:3.6944 train_time:147748ms step_avg:169.44ms
step:883/1530 train_loss:3.8367 train_time:147921ms step_avg:169.44ms
step:884/1530 train_loss:3.5637 train_time:148096ms step_avg:169.45ms
step:885/1530 train_loss:3.4920 train_time:148269ms step_avg:169.45ms
step:886/1530 train_loss:3.5724 train_time:148441ms step_avg:169.45ms
step:887/1530 train_loss:4.0873 train_time:148616ms step_avg:169.46ms
step:888/1530 train_loss:3.8410 train_time:148794ms step_avg:169.47ms
step:889/1530 train_loss:3.5171 train_time:148967ms step_avg:169.47ms
step:890/1530 train_loss:3.5284 train_time:149139ms step_avg:169.48ms
step:891/1530 train_loss:3.3580 train_time:149313ms step_avg:169.48ms
step:892/1530 train_loss:3.7244 train_time:149485ms step_avg:169.48ms
step:893/1530 train_loss:3.4242 train_time:149659ms step_avg:169.49ms
step:894/1530 train_loss:3.6387 train_time:149834ms step_avg:169.50ms
step:895/1530 train_loss:3.6744 train_time:150009ms step_avg:169.50ms
step:896/1530 train_loss:3.4964 train_time:150183ms step_avg:169.51ms
step:897/1530 train_loss:3.5422 train_time:150359ms step_avg:169.51ms
step:898/1530 train_loss:3.5863 train_time:150533ms step_avg:169.52ms
step:899/1530 train_loss:3.4742 train_time:150705ms step_avg:169.52ms
step:900/1530 train_loss:3.4172 train_time:150877ms step_avg:169.53ms
step:901/1530 train_loss:3.6175 train_time:151050ms step_avg:169.53ms
step:902/1530 train_loss:3.6293 train_time:151222ms step_avg:169.53ms
step:903/1530 train_loss:3.5362 train_time:151398ms step_avg:169.54ms
step:904/1530 train_loss:3.4867 train_time:151573ms step_avg:169.54ms
step:905/1530 train_loss:3.4968 train_time:151743ms step_avg:169.55ms
step:906/1530 train_loss:3.7003 train_time:151918ms step_avg:169.55ms
step:907/1530 train_loss:3.5202 train_time:152091ms step_avg:169.56ms
step:908/1530 train_loss:3.5662 train_time:152264ms step_avg:169.56ms
step:909/1530 train_loss:3.4525 train_time:152440ms step_avg:169.57ms
step:910/1530 train_loss:3.5285 train_time:152618ms step_avg:169.58ms
step:911/1530 train_loss:3.6421 train_time:152794ms step_avg:169.58ms
step:912/1530 train_loss:3.5976 train_time:152974ms step_avg:169.59ms
step:913/1530 train_loss:3.4593 train_time:153152ms step_avg:169.60ms
step:914/1530 train_loss:3.7390 train_time:153330ms step_avg:169.61ms
step:915/1530 train_loss:3.5386 train_time:153511ms step_avg:169.63ms
step:916/1530 train_loss:3.6149 train_time:153687ms step_avg:169.63ms
step:917/1530 train_loss:3.5970 train_time:153861ms step_avg:169.64ms
step:918/1530 train_loss:4.8216 train_time:154043ms step_avg:169.65ms
step:919/1530 train_loss:3.5032 train_time:154221ms step_avg:169.66ms
step:920/1530 train_loss:3.5882 train_time:154394ms step_avg:169.66ms
step:921/1530 train_loss:3.5481 train_time:154572ms step_avg:169.67ms
step:922/1530 train_loss:3.5800 train_time:154749ms step_avg:169.68ms
step:923/1530 train_loss:3.6099 train_time:154924ms step_avg:169.69ms
step:924/1530 train_loss:3.6762 train_time:155101ms step_avg:169.70ms
step:925/1530 train_loss:3.6445 train_time:155278ms step_avg:169.70ms
step:926/1530 train_loss:3.5552 train_time:155452ms step_avg:169.71ms
step:927/1530 train_loss:3.5522 train_time:155627ms step_avg:169.71ms
step:928/1530 train_loss:3.7751 train_time:155804ms step_avg:169.72ms
step:929/1530 train_loss:3.6036 train_time:155980ms step_avg:169.73ms
step:930/1530 train_loss:3.3996 train_time:156157ms step_avg:169.74ms
step:931/1530 train_loss:3.4948 train_time:156331ms step_avg:169.74ms
step:932/1530 train_loss:3.6401 train_time:156509ms step_avg:169.75ms
step:933/1530 train_loss:3.3616 train_time:156686ms step_avg:169.76ms
step:934/1530 train_loss:3.5803 train_time:156866ms step_avg:169.77ms
step:935/1530 train_loss:3.4339 train_time:157043ms step_avg:169.78ms
step:936/1530 train_loss:3.5146 train_time:157221ms step_avg:169.78ms
step:937/1530 train_loss:3.6217 train_time:157398ms step_avg:169.79ms
step:938/1530 train_loss:3.5344 train_time:157573ms step_avg:169.80ms
step:939/1530 train_loss:3.6654 train_time:157751ms step_avg:169.81ms
step:940/1530 train_loss:3.4748 train_time:157925ms step_avg:169.81ms
step:941/1530 train_loss:3.5419 train_time:158100ms step_avg:169.82ms
step:942/1530 train_loss:3.3509 train_time:158278ms step_avg:169.83ms
step:943/1530 train_loss:3.7106 train_time:158456ms step_avg:169.83ms
step:944/1530 train_loss:3.4018 train_time:158762ms step_avg:169.98ms
step:945/1530 train_loss:3.4230 train_time:158944ms step_avg:169.99ms
step:946/1530 train_loss:5.0839 train_time:159124ms step_avg:170.00ms
step:947/1530 train_loss:3.5997 train_time:159301ms step_avg:170.01ms
step:948/1530 train_loss:3.4821 train_time:159477ms step_avg:170.02ms
step:949/1530 train_loss:3.3680 train_time:159805ms step_avg:170.19ms
step:950/1530 train_loss:3.4400 train_time:159979ms step_avg:170.19ms
step:951/1530 train_loss:3.4062 train_time:160158ms step_avg:170.20ms
step:952/1530 train_loss:3.4793 train_time:160333ms step_avg:170.20ms
step:953/1530 train_loss:3.5671 train_time:160511ms step_avg:170.21ms
step:954/1530 train_loss:3.4480 train_time:160688ms step_avg:170.22ms
step:955/1530 train_loss:3.4800 train_time:160863ms step_avg:170.23ms
step:956/1530 train_loss:3.4418 train_time:161038ms step_avg:170.23ms
step:957/1530 train_loss:3.4952 train_time:161217ms step_avg:170.24ms
step:958/1530 train_loss:3.5015 train_time:161395ms step_avg:170.25ms
step:959/1530 train_loss:3.5124 train_time:161571ms step_avg:170.25ms
step:960/1530 train_loss:3.4029 train_time:161748ms step_avg:170.26ms
step:961/1530 train_loss:3.6427 train_time:161922ms step_avg:170.27ms
step:962/1530 train_loss:3.5945 train_time:162097ms step_avg:170.27ms
step:963/1530 train_loss:3.4303 train_time:162274ms step_avg:170.28ms
step:964/1530 train_loss:3.4277 train_time:162452ms step_avg:170.29ms
step:965/1530 train_loss:3.4790 train_time:162626ms step_avg:170.29ms
step:966/1530 train_loss:3.7101 train_time:162802ms step_avg:170.29ms
step:967/1530 train_loss:3.5178 train_time:162976ms step_avg:170.30ms
step:968/1530 train_loss:3.5065 train_time:163151ms step_avg:170.30ms
step:969/1530 train_loss:3.5749 train_time:163324ms step_avg:170.31ms
step:970/1530 train_loss:3.3713 train_time:163497ms step_avg:170.31ms
step:971/1530 train_loss:3.5290 train_time:163672ms step_avg:170.31ms
step:972/1530 train_loss:3.4742 train_time:163844ms step_avg:170.32ms
step:973/1530 train_loss:3.5358 train_time:164018ms step_avg:170.32ms
step:974/1530 train_loss:3.5833 train_time:164195ms step_avg:170.33ms
step:975/1530 train_loss:3.4599 train_time:164371ms step_avg:170.33ms
step:976/1530 train_loss:3.6680 train_time:164544ms step_avg:170.34ms
step:977/1530 train_loss:3.5608 train_time:164717ms step_avg:170.34ms
step:978/1530 train_loss:3.3516 train_time:164892ms step_avg:170.34ms
step:979/1530 train_loss:3.6259 train_time:165068ms step_avg:170.35ms
step:980/1530 train_loss:3.4090 train_time:165244ms step_avg:170.35ms
step:981/1530 train_loss:3.5737 train_time:165422ms step_avg:170.36ms
step:982/1530 train_loss:3.5434 train_time:165596ms step_avg:170.37ms
step:983/1530 train_loss:3.5135 train_time:165772ms step_avg:170.37ms
step:984/1530 train_loss:3.4863 train_time:165947ms step_avg:170.38ms
step:985/1530 train_loss:3.5704 train_time:166123ms step_avg:170.38ms
step:986/1530 train_loss:3.4082 train_time:166298ms step_avg:170.39ms
step:987/1530 train_loss:3.4871 train_time:166471ms step_avg:170.39ms
step:988/1530 train_loss:3.4628 train_time:166644ms step_avg:170.39ms
step:989/1530 train_loss:3.4160 train_time:166817ms step_avg:170.40ms
step:990/1530 train_loss:3.6609 train_time:166993ms step_avg:170.40ms
step:991/1530 train_loss:3.4690 train_time:167168ms step_avg:170.41ms
step:992/1530 train_loss:3.4369 train_time:167347ms step_avg:170.41ms
step:993/1530 train_loss:3.4973 train_time:167526ms step_avg:170.42ms
step:994/1530 train_loss:3.5947 train_time:167700ms step_avg:170.43ms
step:995/1530 train_loss:3.5256 train_time:167874ms step_avg:170.43ms
step:996/1530 train_loss:3.4549 train_time:168047ms step_avg:170.43ms
step:997/1530 train_loss:3.7500 train_time:168221ms step_avg:170.44ms
step:998/1530 train_loss:3.4368 train_time:168394ms step_avg:170.44ms
step:999/1530 train_loss:3.5861 train_time:168569ms step_avg:170.44ms
step:1000/1530 train_loss:3.4364 train_time:168747ms step_avg:170.45ms
step:1000/1530 val_loss:3.4642 train_time:168800ms step_avg:170.50ms
step:1001/1530 train_loss:3.4951 train_time:168925ms step_avg:170.46ms
step:1002/1530 train_loss:3.3708 train_time:169102ms step_avg:170.47ms
step:1003/1530 train_loss:3.5549 train_time:169279ms step_avg:170.47ms
step:1004/1530 train_loss:3.5995 train_time:169456ms step_avg:170.48ms
step:1005/1530 train_loss:3.3871 train_time:169629ms step_avg:170.48ms
step:1006/1530 train_loss:3.4666 train_time:169808ms step_avg:170.49ms
step:1007/1530 train_loss:3.4399 train_time:169984ms step_avg:170.50ms
step:1008/1530 train_loss:3.5629 train_time:170161ms step_avg:170.50ms
step:1009/1530 train_loss:3.6565 train_time:170339ms step_avg:170.51ms
step:1010/1530 train_loss:3.5585 train_time:170512ms step_avg:170.51ms
step:1011/1530 train_loss:3.5326 train_time:170686ms step_avg:170.52ms
step:1012/1530 train_loss:3.3915 train_time:170861ms step_avg:170.52ms
step:1013/1530 train_loss:3.5348 train_time:171036ms step_avg:170.52ms
step:1014/1530 train_loss:3.6153 train_time:171213ms step_avg:170.53ms
step:1015/1530 train_loss:3.3248 train_time:171391ms step_avg:170.54ms
step:1016/1530 train_loss:3.4083 train_time:171564ms step_avg:170.54ms
step:1017/1530 train_loss:3.3971 train_time:171740ms step_avg:170.55ms
step:1018/1530 train_loss:3.3929 train_time:171917ms step_avg:170.55ms
step:1019/1530 train_loss:3.5174 train_time:172093ms step_avg:170.56ms
step:1020/1530 train_loss:3.3783 train_time:172268ms step_avg:170.56ms
step:1021/1530 train_loss:3.3506 train_time:172441ms step_avg:170.57ms
step:1022/1530 train_loss:3.4763 train_time:172618ms step_avg:170.57ms
step:1023/1530 train_loss:3.5046 train_time:172795ms step_avg:170.58ms
step:1024/1530 train_loss:3.4711 train_time:172975ms step_avg:170.59ms
step:1025/1530 train_loss:3.4702 train_time:173151ms step_avg:170.59ms
step:1026/1530 train_loss:3.6135 train_time:173327ms step_avg:170.60ms
step:1027/1530 train_loss:3.3172 train_time:173503ms step_avg:170.60ms
step:1028/1530 train_loss:3.3971 train_time:173683ms step_avg:170.61ms
step:1029/1530 train_loss:3.3059 train_time:173864ms step_avg:170.62ms
step:1030/1530 train_loss:3.5360 train_time:174039ms step_avg:170.63ms
step:1031/1530 train_loss:3.5051 train_time:174217ms step_avg:170.63ms
step:1032/1530 train_loss:3.6942 train_time:174399ms step_avg:170.65ms
step:1033/1530 train_loss:3.4879 train_time:174575ms step_avg:170.65ms
step:1034/1530 train_loss:3.3934 train_time:174750ms step_avg:170.65ms
step:1035/1530 train_loss:3.4462 train_time:174928ms step_avg:170.66ms
step:1036/1530 train_loss:3.4785 train_time:175105ms step_avg:170.67ms
step:1037/1530 train_loss:3.7839 train_time:175284ms step_avg:170.68ms
step:1038/1530 train_loss:3.6198 train_time:175460ms step_avg:170.68ms
step:1039/1530 train_loss:3.5078 train_time:175640ms step_avg:170.69ms
step:1040/1530 train_loss:3.4107 train_time:175816ms step_avg:170.70ms
step:1041/1530 train_loss:3.4832 train_time:175995ms step_avg:170.70ms
step:1042/1530 train_loss:3.5205 train_time:176170ms step_avg:170.71ms
step:1043/1530 train_loss:3.4435 train_time:176344ms step_avg:170.71ms
step:1044/1530 train_loss:3.4562 train_time:176522ms step_avg:170.72ms
step:1045/1530 train_loss:3.5072 train_time:176701ms step_avg:170.73ms
step:1046/1530 train_loss:3.4203 train_time:176877ms step_avg:170.73ms
step:1047/1530 train_loss:3.6325 train_time:177054ms step_avg:170.74ms
step:1048/1530 train_loss:3.4953 train_time:177229ms step_avg:170.74ms
step:1049/1530 train_loss:3.3984 train_time:177404ms step_avg:170.75ms
step:1050/1530 train_loss:3.3938 train_time:177583ms step_avg:170.75ms
step:1051/1530 train_loss:3.4956 train_time:177761ms step_avg:170.76ms
step:1052/1530 train_loss:3.3586 train_time:177940ms step_avg:170.77ms
step:1053/1530 train_loss:3.6893 train_time:178118ms step_avg:170.77ms
step:1054/1530 train_loss:3.5320 train_time:178298ms step_avg:170.78ms
step:1055/1530 train_loss:3.3833 train_time:178473ms step_avg:170.79ms
step:1056/1530 train_loss:3.4973 train_time:178649ms step_avg:170.79ms
step:1057/1530 train_loss:3.5752 train_time:178827ms step_avg:170.80ms
step:1058/1530 train_loss:3.3007 train_time:179004ms step_avg:170.81ms
step:1059/1530 train_loss:3.3713 train_time:179185ms step_avg:170.82ms
step:1060/1530 train_loss:3.4312 train_time:179362ms step_avg:170.82ms
step:1061/1530 train_loss:3.4163 train_time:179535ms step_avg:170.82ms
step:1062/1530 train_loss:3.3784 train_time:179711ms step_avg:170.83ms
step:1063/1530 train_loss:3.4595 train_time:179886ms step_avg:170.83ms
step:1064/1530 train_loss:3.3758 train_time:180060ms step_avg:170.83ms
step:1065/1530 train_loss:3.3555 train_time:180238ms step_avg:170.84ms
step:1066/1530 train_loss:3.4142 train_time:180415ms step_avg:170.85ms
step:1067/1530 train_loss:3.2767 train_time:180594ms step_avg:170.86ms
step:1068/1530 train_loss:3.4308 train_time:180770ms step_avg:170.86ms
step:1069/1530 train_loss:3.2940 train_time:180952ms step_avg:170.87ms
step:1070/1530 train_loss:3.5681 train_time:181127ms step_avg:170.87ms
step:1071/1530 train_loss:3.5104 train_time:181307ms step_avg:170.88ms
step:1072/1530 train_loss:3.4371 train_time:181482ms step_avg:170.89ms
step:1073/1530 train_loss:3.5192 train_time:181656ms step_avg:170.89ms
step:1074/1530 train_loss:3.4291 train_time:181832ms step_avg:170.89ms
step:1075/1530 train_loss:3.3970 train_time:182009ms step_avg:170.90ms
step:1076/1530 train_loss:3.7904 train_time:182186ms step_avg:170.91ms
step:1077/1530 train_loss:3.4321 train_time:182360ms step_avg:170.91ms
step:1078/1530 train_loss:3.0886 train_time:182545ms step_avg:170.92ms
step:1079/1530 train_loss:3.5278 train_time:182722ms step_avg:170.93ms
step:1080/1530 train_loss:3.4200 train_time:182899ms step_avg:170.93ms
step:1081/1530 train_loss:3.5024 train_time:183074ms step_avg:170.94ms
step:1082/1530 train_loss:3.5841 train_time:183249ms step_avg:170.94ms
step:1083/1530 train_loss:3.4953 train_time:183426ms step_avg:170.95ms
step:1084/1530 train_loss:3.4597 train_time:183601ms step_avg:170.95ms
step:1085/1530 train_loss:3.4340 train_time:183776ms step_avg:170.95ms
step:1086/1530 train_loss:3.6308 train_time:183952ms step_avg:170.96ms
step:1087/1530 train_loss:3.4991 train_time:184127ms step_avg:170.96ms
step:1088/1530 train_loss:3.3634 train_time:184304ms step_avg:170.97ms
step:1089/1530 train_loss:3.3704 train_time:184483ms step_avg:170.98ms
step:1090/1530 train_loss:3.4783 train_time:184662ms step_avg:170.98ms
step:1091/1530 train_loss:3.2773 train_time:184837ms step_avg:170.99ms
step:1092/1530 train_loss:3.4804 train_time:185014ms step_avg:170.99ms
step:1093/1530 train_loss:3.6056 train_time:185191ms step_avg:171.00ms
step:1094/1530 train_loss:3.4469 train_time:185366ms step_avg:171.00ms
step:1095/1530 train_loss:3.4147 train_time:185539ms step_avg:171.00ms
step:1096/1530 train_loss:3.4261 train_time:185718ms step_avg:171.01ms
step:1097/1530 train_loss:3.4852 train_time:185895ms step_avg:171.02ms
step:1098/1530 train_loss:3.5607 train_time:186073ms step_avg:171.02ms
step:1099/1530 train_loss:3.5264 train_time:186251ms step_avg:171.03ms
step:1100/1530 train_loss:3.4247 train_time:186431ms step_avg:171.04ms
step:1101/1530 train_loss:3.2835 train_time:186609ms step_avg:171.04ms
step:1102/1530 train_loss:3.3035 train_time:186788ms step_avg:171.05ms
step:1103/1530 train_loss:3.4421 train_time:186971ms step_avg:171.06ms
step:1104/1530 train_loss:3.3166 train_time:187148ms step_avg:171.07ms
step:1105/1530 train_loss:4.0589 train_time:187327ms step_avg:171.07ms
step:1106/1530 train_loss:3.2217 train_time:187502ms step_avg:171.08ms
step:1107/1530 train_loss:3.5673 train_time:187678ms step_avg:171.08ms
step:1108/1530 train_loss:3.3418 train_time:187853ms step_avg:171.09ms
step:1109/1530 train_loss:3.4980 train_time:188028ms step_avg:171.09ms
step:1110/1530 train_loss:3.4236 train_time:188202ms step_avg:171.09ms
step:1111/1530 train_loss:3.4811 train_time:188379ms step_avg:171.10ms
step:1112/1530 train_loss:3.5543 train_time:188561ms step_avg:171.11ms
step:1113/1530 train_loss:3.4284 train_time:188744ms step_avg:171.12ms
step:1114/1530 train_loss:3.3770 train_time:188925ms step_avg:171.13ms
step:1115/1530 train_loss:3.2346 train_time:189105ms step_avg:171.14ms
step:1116/1530 train_loss:3.4253 train_time:189279ms step_avg:171.14ms
step:1117/1530 train_loss:3.5885 train_time:189458ms step_avg:171.15ms
step:1118/1530 train_loss:3.6204 train_time:189634ms step_avg:171.15ms
step:1119/1530 train_loss:3.4769 train_time:189807ms step_avg:171.15ms
step:1120/1530 train_loss:3.4847 train_time:189984ms step_avg:171.16ms
step:1121/1530 train_loss:3.3886 train_time:190161ms step_avg:171.16ms
step:1122/1530 train_loss:3.4540 train_time:190336ms step_avg:171.17ms
step:1123/1530 train_loss:3.5760 train_time:190512ms step_avg:171.17ms
step:1124/1530 train_loss:3.3378 train_time:190688ms step_avg:171.17ms
step:1125/1530 train_loss:3.2196 train_time:190864ms step_avg:171.18ms
step:1125/1530 val_loss:3.4052 train_time:190914ms step_avg:171.22ms
step:1126/1530 train_loss:3.4765 train_time:191040ms step_avg:171.18ms
step:1127/1530 train_loss:3.6721 train_time:191218ms step_avg:171.19ms
step:1128/1530 train_loss:3.2277 train_time:191395ms step_avg:171.19ms
step:1129/1530 train_loss:3.5545 train_time:191573ms step_avg:171.20ms
step:1130/1530 train_loss:3.3707 train_time:191751ms step_avg:171.21ms
step:1131/1530 train_loss:3.4021 train_time:191932ms step_avg:171.22ms
step:1132/1530 train_loss:3.3649 train_time:192105ms step_avg:171.22ms
step:1133/1530 train_loss:3.4867 train_time:192424ms step_avg:171.35ms
step:1134/1530 train_loss:3.4425 train_time:192608ms step_avg:171.36ms
step:1135/1530 train_loss:3.5176 train_time:192787ms step_avg:171.37ms
step:1136/1530 train_loss:3.5624 train_time:192965ms step_avg:171.37ms
step:1137/1530 train_loss:3.4560 train_time:193142ms step_avg:171.38ms
step:1138/1530 train_loss:3.3489 train_time:193320ms step_avg:171.38ms
step:1139/1530 train_loss:3.6524 train_time:193655ms step_avg:171.53ms
step:1140/1530 train_loss:3.4539 train_time:193833ms step_avg:171.53ms
step:1141/1530 train_loss:3.5894 train_time:194012ms step_avg:171.54ms
step:1142/1530 train_loss:3.4386 train_time:194190ms step_avg:171.55ms
step:1143/1530 train_loss:3.3584 train_time:194370ms step_avg:171.55ms
step:1144/1530 train_loss:3.4394 train_time:194546ms step_avg:171.56ms
step:1145/1530 train_loss:3.5871 train_time:194720ms step_avg:171.56ms
step:1146/1530 train_loss:3.5571 train_time:194902ms step_avg:171.57ms
step:1147/1530 train_loss:3.4834 train_time:195080ms step_avg:171.57ms
step:1148/1530 train_loss:3.4978 train_time:195257ms step_avg:171.58ms
step:1149/1530 train_loss:3.3205 train_time:195438ms step_avg:171.59ms
step:1150/1530 train_loss:3.3716 train_time:195613ms step_avg:171.59ms
step:1151/1530 train_loss:3.3172 train_time:195795ms step_avg:171.60ms
step:1152/1530 train_loss:3.3937 train_time:195976ms step_avg:171.61ms
step:1153/1530 train_loss:3.4331 train_time:196157ms step_avg:171.62ms
step:1154/1530 train_loss:3.5176 train_time:196334ms step_avg:171.62ms
step:1155/1530 train_loss:3.3192 train_time:196517ms step_avg:171.63ms
step:1156/1530 train_loss:3.5331 train_time:196701ms step_avg:171.64ms
step:1157/1530 train_loss:3.4930 train_time:196881ms step_avg:171.65ms
step:1158/1530 train_loss:3.2487 train_time:197058ms step_avg:171.65ms
step:1159/1530 train_loss:3.3469 train_time:197235ms step_avg:171.66ms
step:1160/1530 train_loss:3.3354 train_time:197411ms step_avg:171.66ms
step:1161/1530 train_loss:3.0731 train_time:197591ms step_avg:171.67ms
step:1162/1530 train_loss:3.4172 train_time:197768ms step_avg:171.67ms
step:1163/1530 train_loss:3.3861 train_time:197946ms step_avg:171.68ms
step:1164/1530 train_loss:3.2879 train_time:198122ms step_avg:171.68ms
step:1165/1530 train_loss:3.2471 train_time:198298ms step_avg:171.69ms
step:1166/1530 train_loss:3.3873 train_time:198478ms step_avg:171.69ms
step:1167/1530 train_loss:3.4085 train_time:198653ms step_avg:171.70ms
step:1168/1530 train_loss:3.7188 train_time:198828ms step_avg:171.70ms
step:1169/1530 train_loss:3.3717 train_time:199005ms step_avg:171.70ms
step:1170/1530 train_loss:3.3856 train_time:199182ms step_avg:171.71ms
step:1171/1530 train_loss:3.2952 train_time:199359ms step_avg:171.71ms
step:1172/1530 train_loss:3.4194 train_time:199531ms step_avg:171.71ms
step:1173/1530 train_loss:3.5318 train_time:199711ms step_avg:171.72ms
step:1174/1530 train_loss:3.3837 train_time:199894ms step_avg:171.73ms
step:1175/1530 train_loss:3.3624 train_time:200075ms step_avg:171.74ms
step:1176/1530 train_loss:3.4238 train_time:200254ms step_avg:171.74ms
step:1177/1530 train_loss:3.4468 train_time:200438ms step_avg:171.75ms
step:1178/1530 train_loss:3.4929 train_time:200615ms step_avg:171.76ms
step:1179/1530 train_loss:3.3993 train_time:200789ms step_avg:171.76ms
step:1180/1530 train_loss:3.3473 train_time:200978ms step_avg:171.78ms
step:1181/1530 train_loss:3.3341 train_time:201157ms step_avg:171.78ms
step:1182/1530 train_loss:3.3700 train_time:201334ms step_avg:171.79ms
step:1183/1530 train_loss:3.3258 train_time:201512ms step_avg:171.79ms
step:1184/1530 train_loss:3.5042 train_time:201690ms step_avg:171.80ms
step:1185/1530 train_loss:3.5375 train_time:201871ms step_avg:171.81ms
step:1186/1530 train_loss:3.3613 train_time:202051ms step_avg:171.81ms
step:1187/1530 train_loss:3.4169 train_time:202239ms step_avg:171.83ms
step:1188/1530 train_loss:3.4385 train_time:202415ms step_avg:171.83ms
step:1189/1530 train_loss:3.2705 train_time:202596ms step_avg:171.84ms
step:1190/1530 train_loss:3.4381 train_time:202775ms step_avg:171.84ms
step:1191/1530 train_loss:3.5779 train_time:202953ms step_avg:171.85ms
step:1192/1530 train_loss:3.3881 train_time:203127ms step_avg:171.85ms
step:1193/1530 train_loss:3.2721 train_time:203302ms step_avg:171.85ms
step:1194/1530 train_loss:3.5577 train_time:203481ms step_avg:171.86ms
step:1195/1530 train_loss:3.3697 train_time:203661ms step_avg:171.87ms
step:1196/1530 train_loss:3.3816 train_time:203848ms step_avg:171.88ms
step:1197/1530 train_loss:3.2886 train_time:204028ms step_avg:171.89ms
step:1198/1530 train_loss:3.2998 train_time:204216ms step_avg:171.90ms
step:1199/1530 train_loss:3.3397 train_time:204397ms step_avg:171.91ms
step:1200/1530 train_loss:3.4470 train_time:204574ms step_avg:171.91ms
step:1201/1530 train_loss:3.4764 train_time:204752ms step_avg:171.92ms
step:1202/1530 train_loss:3.6735 train_time:204942ms step_avg:171.93ms
step:1203/1530 train_loss:3.4036 train_time:205121ms step_avg:171.94ms
step:1204/1530 train_loss:3.3052 train_time:205299ms step_avg:171.94ms
step:1205/1530 train_loss:3.4352 train_time:205475ms step_avg:171.95ms
step:1206/1530 train_loss:3.4696 train_time:205653ms step_avg:171.95ms
step:1207/1530 train_loss:3.5154 train_time:205829ms step_avg:171.95ms
step:1208/1530 train_loss:3.3941 train_time:206005ms step_avg:171.96ms
step:1209/1530 train_loss:3.2396 train_time:206186ms step_avg:171.97ms
step:1210/1530 train_loss:3.3017 train_time:206366ms step_avg:171.97ms
step:1211/1530 train_loss:3.3925 train_time:206542ms step_avg:171.97ms
step:1212/1530 train_loss:3.3894 train_time:206719ms step_avg:171.98ms
step:1213/1530 train_loss:3.4075 train_time:206899ms step_avg:171.99ms
step:1214/1530 train_loss:3.2486 train_time:207080ms step_avg:171.99ms
step:1215/1530 train_loss:3.3943 train_time:207256ms step_avg:172.00ms
step:1216/1530 train_loss:3.3249 train_time:207433ms step_avg:172.00ms
step:1217/1530 train_loss:3.3182 train_time:207611ms step_avg:172.01ms
step:1218/1530 train_loss:3.4029 train_time:207789ms step_avg:172.01ms
step:1219/1530 train_loss:3.2610 train_time:207973ms step_avg:172.02ms
step:1220/1530 train_loss:3.4744 train_time:208148ms step_avg:172.02ms
step:1221/1530 train_loss:3.5039 train_time:208323ms step_avg:172.03ms
step:1222/1530 train_loss:3.4240 train_time:208498ms step_avg:172.03ms
step:1223/1530 train_loss:3.2937 train_time:208677ms step_avg:172.03ms
step:1224/1530 train_loss:3.2503 train_time:208858ms step_avg:172.04ms
step:1225/1530 train_loss:3.3663 train_time:209037ms step_avg:172.05ms
step:1226/1530 train_loss:3.3289 train_time:209218ms step_avg:172.05ms
step:1227/1530 train_loss:3.2713 train_time:209395ms step_avg:172.06ms
step:1228/1530 train_loss:3.4424 train_time:209571ms step_avg:172.06ms
step:1229/1530 train_loss:3.3617 train_time:209748ms step_avg:172.07ms
step:1230/1530 train_loss:3.3925 train_time:209930ms step_avg:172.07ms
step:1231/1530 train_loss:3.5730 train_time:210109ms step_avg:172.08ms
step:1232/1530 train_loss:3.4903 train_time:210290ms step_avg:172.09ms
step:1233/1530 train_loss:3.4289 train_time:210468ms step_avg:172.09ms
step:1234/1530 train_loss:3.5786 train_time:210645ms step_avg:172.10ms
step:1235/1530 train_loss:3.3172 train_time:210824ms step_avg:172.10ms
step:1236/1530 train_loss:3.2885 train_time:211003ms step_avg:172.11ms
step:1237/1530 train_loss:3.2723 train_time:211180ms step_avg:172.11ms
step:1238/1530 train_loss:3.2783 train_time:211362ms step_avg:172.12ms
step:1239/1530 train_loss:3.3307 train_time:211540ms step_avg:172.12ms
step:1240/1530 train_loss:3.3767 train_time:211717ms step_avg:172.13ms
step:1241/1530 train_loss:3.4248 train_time:211894ms step_avg:172.13ms
step:1242/1530 train_loss:3.2961 train_time:212071ms step_avg:172.14ms
step:1243/1530 train_loss:3.4022 train_time:212250ms step_avg:172.14ms
step:1244/1530 train_loss:3.4036 train_time:212423ms step_avg:172.14ms
step:1245/1530 train_loss:3.4062 train_time:212601ms step_avg:172.15ms
step:1246/1530 train_loss:3.2391 train_time:212779ms step_avg:172.15ms
step:1247/1530 train_loss:3.3707 train_time:212955ms step_avg:172.15ms
step:1248/1530 train_loss:3.4259 train_time:213130ms step_avg:172.16ms
step:1249/1530 train_loss:3.4227 train_time:213309ms step_avg:172.16ms
step:1250/1530 train_loss:3.3004 train_time:213489ms step_avg:172.17ms
step:1250/1530 val_loss:3.3518 train_time:213544ms step_avg:172.21ms
step:1251/1530 train_loss:3.4856 train_time:213676ms step_avg:172.18ms
step:1252/1530 train_loss:3.3603 train_time:213852ms step_avg:172.18ms
step:1253/1530 train_loss:3.3080 train_time:214028ms step_avg:172.19ms
step:1254/1530 train_loss:3.4156 train_time:214210ms step_avg:172.19ms
step:1255/1530 train_loss:3.5156 train_time:214402ms step_avg:172.21ms
step:1256/1530 train_loss:3.3004 train_time:214585ms step_avg:172.22ms
step:1257/1530 train_loss:3.3727 train_time:214762ms step_avg:172.22ms
step:1258/1530 train_loss:3.3667 train_time:214946ms step_avg:172.23ms
step:1259/1530 train_loss:3.3268 train_time:215123ms step_avg:172.24ms
step:1260/1530 train_loss:3.2067 train_time:215300ms step_avg:172.24ms
step:1261/1530 train_loss:3.3015 train_time:215481ms step_avg:172.25ms
step:1262/1530 train_loss:3.3231 train_time:215664ms step_avg:172.26ms
step:1263/1530 train_loss:3.2383 train_time:215846ms step_avg:172.26ms
step:1264/1530 train_loss:3.4362 train_time:216022ms step_avg:172.27ms
step:1265/1530 train_loss:3.4206 train_time:216198ms step_avg:172.27ms
step:1266/1530 train_loss:3.4392 train_time:216376ms step_avg:172.27ms
step:1267/1530 train_loss:3.3705 train_time:216555ms step_avg:172.28ms
step:1268/1530 train_loss:3.4079 train_time:216736ms step_avg:172.29ms
step:1269/1530 train_loss:3.2503 train_time:216922ms step_avg:172.30ms
step:1270/1530 train_loss:3.1072 train_time:217098ms step_avg:172.30ms
step:1271/1530 train_loss:3.3993 train_time:217276ms step_avg:172.30ms
step:1272/1530 train_loss:3.3466 train_time:217451ms step_avg:172.31ms
step:1273/1530 train_loss:3.3750 train_time:217631ms step_avg:172.31ms
step:1274/1530 train_loss:3.3592 train_time:217811ms step_avg:172.32ms
step:1275/1530 train_loss:3.4348 train_time:217988ms step_avg:172.32ms
step:1276/1530 train_loss:3.4640 train_time:218162ms step_avg:172.32ms
step:1277/1530 train_loss:3.4101 train_time:218342ms step_avg:172.33ms
step:1278/1530 train_loss:3.4108 train_time:218517ms step_avg:172.33ms
step:1279/1530 train_loss:3.2620 train_time:218698ms step_avg:172.34ms
step:1280/1530 train_loss:3.3595 train_time:218883ms step_avg:172.35ms
step:1281/1530 train_loss:3.4241 train_time:219062ms step_avg:172.35ms
step:1282/1530 train_loss:3.4600 train_time:219236ms step_avg:172.36ms
step:1283/1530 train_loss:3.3329 train_time:219415ms step_avg:172.36ms
step:1284/1530 train_loss:3.3642 train_time:219593ms step_avg:172.36ms
step:1285/1530 train_loss:3.3589 train_time:219771ms step_avg:172.37ms
step:1286/1530 train_loss:3.3316 train_time:219947ms step_avg:172.37ms
step:1287/1530 train_loss:3.4840 train_time:220126ms step_avg:172.38ms
step:1288/1530 train_loss:3.2884 train_time:220307ms step_avg:172.38ms
step:1289/1530 train_loss:3.3789 train_time:220494ms step_avg:172.40ms
step:1290/1530 train_loss:3.4585 train_time:220680ms step_avg:172.41ms
step:1291/1530 train_loss:3.3811 train_time:220860ms step_avg:172.41ms
step:1292/1530 train_loss:3.4771 train_time:221041ms step_avg:172.42ms
step:1293/1530 train_loss:3.5141 train_time:221221ms step_avg:172.42ms
step:1294/1530 train_loss:3.4569 train_time:221402ms step_avg:172.43ms
step:1295/1530 train_loss:3.2811 train_time:221581ms step_avg:172.44ms
step:1296/1530 train_loss:3.3736 train_time:221760ms step_avg:172.44ms
step:1297/1530 train_loss:3.2728 train_time:221940ms step_avg:172.45ms
step:1298/1530 train_loss:3.2732 train_time:222120ms step_avg:172.45ms
step:1299/1530 train_loss:3.3963 train_time:222298ms step_avg:172.46ms
step:1300/1530 train_loss:3.4026 train_time:222475ms step_avg:172.46ms
step:1301/1530 train_loss:3.4037 train_time:222650ms step_avg:172.46ms
step:1302/1530 train_loss:3.5754 train_time:222833ms step_avg:172.47ms
step:1303/1530 train_loss:3.3052 train_time:223014ms step_avg:172.48ms
step:1304/1530 train_loss:3.5118 train_time:223194ms step_avg:172.48ms
step:1305/1530 train_loss:3.2574 train_time:223371ms step_avg:172.49ms
step:1306/1530 train_loss:3.4513 train_time:223553ms step_avg:172.49ms
step:1307/1530 train_loss:3.4525 train_time:223728ms step_avg:172.50ms
step:1308/1530 train_loss:3.2828 train_time:223907ms step_avg:172.50ms
step:1309/1530 train_loss:3.3044 train_time:224086ms step_avg:172.51ms
step:1310/1530 train_loss:3.2869 train_time:224264ms step_avg:172.51ms
step:1311/1530 train_loss:3.2935 train_time:224442ms step_avg:172.52ms
step:1312/1530 train_loss:3.3749 train_time:224621ms step_avg:172.52ms
step:1313/1530 train_loss:3.3410 train_time:224799ms step_avg:172.52ms
step:1314/1530 train_loss:3.0396 train_time:224982ms step_avg:172.53ms
step:1315/1530 train_loss:3.2742 train_time:225160ms step_avg:172.54ms
step:1316/1530 train_loss:3.3932 train_time:225334ms step_avg:172.54ms
step:1317/1530 train_loss:3.4174 train_time:225512ms step_avg:172.54ms
step:1318/1530 train_loss:3.3022 train_time:225699ms step_avg:172.55ms
step:1319/1530 train_loss:3.4262 train_time:225879ms step_avg:172.56ms
step:1320/1530 train_loss:3.4618 train_time:226062ms step_avg:172.57ms
step:1321/1530 train_loss:3.3628 train_time:226242ms step_avg:172.57ms
step:1322/1530 train_loss:3.3187 train_time:226549ms step_avg:172.67ms
step:1323/1530 train_loss:3.3158 train_time:226739ms step_avg:172.69ms
step:1324/1530 train_loss:3.4332 train_time:226920ms step_avg:172.69ms
step:1325/1530 train_loss:3.4905 train_time:227103ms step_avg:172.70ms
step:1326/1530 train_loss:3.2082 train_time:227284ms step_avg:172.71ms
step:1327/1530 train_loss:3.1607 train_time:227460ms step_avg:172.71ms
step:1328/1530 train_loss:3.4913 train_time:227638ms step_avg:172.71ms
step:1329/1530 train_loss:3.2963 train_time:227979ms step_avg:172.84ms
step:1330/1530 train_loss:3.4294 train_time:228162ms step_avg:172.85ms
step:1331/1530 train_loss:3.3298 train_time:228338ms step_avg:172.85ms
step:1332/1530 train_loss:3.7388 train_time:228521ms step_avg:172.86ms
step:1333/1530 train_loss:3.4760 train_time:228701ms step_avg:172.87ms
step:1334/1530 train_loss:3.3657 train_time:228880ms step_avg:172.87ms
step:1335/1530 train_loss:3.2875 train_time:229057ms step_avg:172.87ms
step:1336/1530 train_loss:3.2903 train_time:229241ms step_avg:172.88ms
step:1337/1530 train_loss:3.5468 train_time:229421ms step_avg:172.89ms
step:1338/1530 train_loss:3.5179 train_time:229600ms step_avg:172.89ms
step:1339/1530 train_loss:3.3357 train_time:229780ms step_avg:172.90ms
step:1340/1530 train_loss:3.2845 train_time:229956ms step_avg:172.90ms
step:1341/1530 train_loss:3.5865 train_time:230132ms step_avg:172.90ms
step:1342/1530 train_loss:3.3524 train_time:230312ms step_avg:172.91ms
step:1343/1530 train_loss:3.3644 train_time:230489ms step_avg:172.91ms
step:1344/1530 train_loss:3.4129 train_time:230669ms step_avg:172.92ms
step:1345/1530 train_loss:3.3833 train_time:230851ms step_avg:172.92ms
step:1346/1530 train_loss:3.2940 train_time:231028ms step_avg:172.92ms
step:1347/1530 train_loss:3.2787 train_time:231204ms step_avg:172.93ms
step:1348/1530 train_loss:3.3501 train_time:231383ms step_avg:172.93ms
step:1349/1530 train_loss:3.2730 train_time:231561ms step_avg:172.94ms
step:1350/1530 train_loss:3.3891 train_time:231741ms step_avg:172.94ms
step:1351/1530 train_loss:3.2421 train_time:231917ms step_avg:172.94ms
step:1352/1530 train_loss:3.3085 train_time:232096ms step_avg:172.95ms
step:1353/1530 train_loss:3.3977 train_time:232274ms step_avg:172.95ms
step:1354/1530 train_loss:3.2572 train_time:232451ms step_avg:172.95ms
step:1355/1530 train_loss:3.1843 train_time:232627ms step_avg:172.96ms
step:1356/1530 train_loss:3.5087 train_time:232807ms step_avg:172.96ms
step:1357/1530 train_loss:3.4236 train_time:232989ms step_avg:172.97ms
step:1358/1530 train_loss:3.1832 train_time:233168ms step_avg:172.97ms
step:1359/1530 train_loss:3.4344 train_time:233348ms step_avg:172.98ms
step:1360/1530 train_loss:3.3458 train_time:233528ms step_avg:172.98ms
step:1361/1530 train_loss:3.1243 train_time:233714ms step_avg:172.99ms
step:1362/1530 train_loss:3.3932 train_time:233895ms step_avg:173.00ms
step:1363/1530 train_loss:3.2815 train_time:234081ms step_avg:173.01ms
step:1364/1530 train_loss:3.3006 train_time:234259ms step_avg:173.01ms
step:1365/1530 train_loss:3.3157 train_time:234436ms step_avg:173.02ms
step:1366/1530 train_loss:3.4187 train_time:234618ms step_avg:173.02ms
step:1367/1530 train_loss:3.3954 train_time:234796ms step_avg:173.03ms
step:1368/1530 train_loss:3.3442 train_time:234978ms step_avg:173.03ms
step:1369/1530 train_loss:3.2736 train_time:235164ms step_avg:173.04ms
step:1370/1530 train_loss:3.5989 train_time:235343ms step_avg:173.05ms
step:1371/1530 train_loss:3.3124 train_time:235525ms step_avg:173.05ms
step:1372/1530 train_loss:3.3695 train_time:235708ms step_avg:173.06ms
step:1373/1530 train_loss:3.3684 train_time:235886ms step_avg:173.06ms
step:1374/1530 train_loss:3.1455 train_time:236066ms step_avg:173.07ms
step:1375/1530 train_loss:3.5350 train_time:236246ms step_avg:173.07ms
step:1375/1530 val_loss:3.3089 train_time:236297ms step_avg:173.11ms
step:1376/1530 train_loss:3.3507 train_time:236426ms step_avg:173.08ms
step:1377/1530 train_loss:3.4776 train_time:236604ms step_avg:173.08ms
step:1378/1530 train_loss:3.4638 train_time:236782ms step_avg:173.09ms
step:1379/1530 train_loss:3.1148 train_time:236964ms step_avg:173.09ms
step:1380/1530 train_loss:3.3140 train_time:237143ms step_avg:173.10ms
step:1381/1530 train_loss:3.6837 train_time:237327ms step_avg:173.10ms
step:1382/1530 train_loss:3.2095 train_time:237505ms step_avg:173.11ms
step:1383/1530 train_loss:3.3904 train_time:237686ms step_avg:173.11ms
step:1384/1530 train_loss:3.4718 train_time:237868ms step_avg:173.12ms
step:1385/1530 train_loss:3.4047 train_time:238043ms step_avg:173.12ms
step:1386/1530 train_loss:3.3398 train_time:238223ms step_avg:173.13ms
step:1387/1530 train_loss:3.1952 train_time:238402ms step_avg:173.13ms
step:1388/1530 train_loss:3.3422 train_time:238579ms step_avg:173.13ms
step:1389/1530 train_loss:3.3159 train_time:238762ms step_avg:173.14ms
step:1390/1530 train_loss:3.5647 train_time:238940ms step_avg:173.14ms
step:1391/1530 train_loss:3.2895 train_time:239117ms step_avg:173.15ms
step:1392/1530 train_loss:3.2848 train_time:239296ms step_avg:173.15ms
step:1393/1530 train_loss:3.2368 train_time:239476ms step_avg:173.16ms
step:1394/1530 train_loss:3.4997 train_time:239654ms step_avg:173.16ms
step:1395/1530 train_loss:3.3875 train_time:239832ms step_avg:173.16ms
step:1396/1530 train_loss:3.4029 train_time:240008ms step_avg:173.17ms
step:1397/1530 train_loss:3.3100 train_time:240184ms step_avg:173.17ms
step:1398/1530 train_loss:3.2524 train_time:240360ms step_avg:173.17ms
step:1399/1530 train_loss:3.3120 train_time:240540ms step_avg:173.17ms
step:1400/1530 train_loss:3.3170 train_time:240722ms step_avg:173.18ms
step:1401/1530 train_loss:3.3472 train_time:240899ms step_avg:173.18ms
step:1402/1530 train_loss:3.2914 train_time:241077ms step_avg:173.19ms
step:1403/1530 train_loss:3.4966 train_time:241263ms step_avg:173.20ms
step:1404/1530 train_loss:3.2805 train_time:241440ms step_avg:173.20ms
step:1405/1530 train_loss:3.3120 train_time:241621ms step_avg:173.21ms
step:1406/1530 train_loss:3.3118 train_time:241800ms step_avg:173.21ms
step:1407/1530 train_loss:3.1769 train_time:241977ms step_avg:173.21ms
step:1408/1530 train_loss:3.3088 train_time:242157ms step_avg:173.22ms
step:1409/1530 train_loss:3.3002 train_time:242344ms step_avg:173.23ms
step:1410/1530 train_loss:3.2852 train_time:242522ms step_avg:173.23ms
step:1411/1530 train_loss:3.3637 train_time:242697ms step_avg:173.23ms
step:1412/1530 train_loss:3.3294 train_time:242874ms step_avg:173.23ms
step:1413/1530 train_loss:3.3565 train_time:243053ms step_avg:173.24ms
step:1414/1530 train_loss:3.3277 train_time:243233ms step_avg:173.24ms
step:1415/1530 train_loss:3.4045 train_time:243416ms step_avg:173.25ms
step:1416/1530 train_loss:3.2280 train_time:243605ms step_avg:173.26ms
step:1417/1530 train_loss:3.2785 train_time:243788ms step_avg:173.27ms
step:1418/1530 train_loss:3.3867 train_time:243969ms step_avg:173.27ms
step:1419/1530 train_loss:3.3402 train_time:244151ms step_avg:173.28ms
step:1420/1530 train_loss:3.3679 train_time:244332ms step_avg:173.28ms
step:1421/1530 train_loss:3.3679 train_time:244509ms step_avg:173.29ms
step:1422/1530 train_loss:3.3236 train_time:244690ms step_avg:173.29ms
step:1423/1530 train_loss:3.3155 train_time:244869ms step_avg:173.30ms
step:1424/1530 train_loss:3.3326 train_time:245053ms step_avg:173.30ms
step:1425/1530 train_loss:3.1901 train_time:245240ms step_avg:173.31ms
step:1426/1530 train_loss:3.3210 train_time:245419ms step_avg:173.32ms
step:1427/1530 train_loss:3.2811 train_time:245602ms step_avg:173.33ms
step:1428/1530 train_loss:3.3718 train_time:245779ms step_avg:173.33ms
step:1429/1530 train_loss:3.3528 train_time:245956ms step_avg:173.33ms
step:1430/1530 train_loss:3.2551 train_time:246136ms step_avg:173.34ms
step:1431/1530 train_loss:3.3205 train_time:246318ms step_avg:173.34ms
step:1432/1530 train_loss:3.3329 train_time:246500ms step_avg:173.35ms
step:1433/1530 train_loss:3.1280 train_time:246682ms step_avg:173.35ms
step:1434/1530 train_loss:3.2913 train_time:246868ms step_avg:173.36ms
step:1435/1530 train_loss:3.1161 train_time:247047ms step_avg:173.37ms
step:1436/1530 train_loss:3.2308 train_time:247227ms step_avg:173.37ms
step:1437/1530 train_loss:3.4048 train_time:247403ms step_avg:173.37ms
step:1438/1530 train_loss:3.3808 train_time:247580ms step_avg:173.38ms
step:1439/1530 train_loss:3.3069 train_time:247761ms step_avg:173.38ms
step:1440/1530 train_loss:3.1906 train_time:247936ms step_avg:173.38ms
step:1441/1530 train_loss:3.3346 train_time:248116ms step_avg:173.39ms
step:1442/1530 train_loss:3.3890 train_time:248301ms step_avg:173.39ms
step:1443/1530 train_loss:3.4867 train_time:248489ms step_avg:173.40ms
step:1444/1530 train_loss:3.4453 train_time:248665ms step_avg:173.41ms
step:1445/1530 train_loss:3.3384 train_time:248845ms step_avg:173.41ms
step:1446/1530 train_loss:3.1945 train_time:249026ms step_avg:173.42ms
step:1447/1530 train_loss:3.2947 train_time:249207ms step_avg:173.42ms
step:1448/1530 train_loss:3.2952 train_time:249387ms step_avg:173.43ms
step:1449/1530 train_loss:3.3970 train_time:249565ms step_avg:173.43ms
step:1450/1530 train_loss:3.3851 train_time:249745ms step_avg:173.43ms
step:1451/1530 train_loss:3.2016 train_time:249923ms step_avg:173.44ms
step:1452/1530 train_loss:3.3199 train_time:250102ms step_avg:173.44ms
step:1453/1530 train_loss:3.2573 train_time:250278ms step_avg:173.44ms
step:1454/1530 train_loss:3.2876 train_time:250455ms step_avg:173.45ms
step:1455/1530 train_loss:3.3283 train_time:250638ms step_avg:173.45ms
step:1456/1530 train_loss:3.2826 train_time:250815ms step_avg:173.45ms
step:1457/1530 train_loss:3.1503 train_time:250993ms step_avg:173.46ms
step:1458/1530 train_loss:3.4228 train_time:251170ms step_avg:173.46ms
step:1459/1530 train_loss:3.2660 train_time:251354ms step_avg:173.47ms
step:1460/1530 train_loss:3.3167 train_time:251532ms step_avg:173.47ms
step:1461/1530 train_loss:3.4252 train_time:251713ms step_avg:173.48ms
step:1462/1530 train_loss:3.2641 train_time:251889ms step_avg:173.48ms
step:1463/1530 train_loss:3.4654 train_time:252072ms step_avg:173.48ms
step:1464/1530 train_loss:3.3578 train_time:252251ms step_avg:173.49ms
step:1465/1530 train_loss:3.3591 train_time:252430ms step_avg:173.49ms
step:1466/1530 train_loss:3.2835 train_time:252607ms step_avg:173.49ms
step:1467/1530 train_loss:3.3923 train_time:252786ms step_avg:173.50ms
step:1468/1530 train_loss:3.2858 train_time:252964ms step_avg:173.50ms
step:1469/1530 train_loss:3.2765 train_time:253144ms step_avg:173.51ms
step:1470/1530 train_loss:3.3311 train_time:253327ms step_avg:173.51ms
step:1471/1530 train_loss:3.2585 train_time:253512ms step_avg:173.52ms
step:1472/1530 train_loss:3.2487 train_time:253696ms step_avg:173.53ms
step:1473/1530 train_loss:3.4416 train_time:253874ms step_avg:173.53ms
step:1474/1530 train_loss:3.3080 train_time:254059ms step_avg:173.54ms
step:1475/1530 train_loss:3.1479 train_time:254245ms step_avg:173.55ms
step:1476/1530 train_loss:3.2659 train_time:254424ms step_avg:173.55ms
step:1477/1530 train_loss:3.2363 train_time:254610ms step_avg:173.56ms
step:1478/1530 train_loss:3.3066 train_time:254796ms step_avg:173.57ms
step:1479/1530 train_loss:3.3951 train_time:254978ms step_avg:173.57ms
step:1480/1530 train_loss:3.2695 train_time:255156ms step_avg:173.58ms
step:1481/1530 train_loss:3.4515 train_time:255339ms step_avg:173.58ms
step:1482/1530 train_loss:3.3670 train_time:255526ms step_avg:173.59ms
step:1483/1530 train_loss:3.2760 train_time:255716ms step_avg:173.60ms
step:1484/1530 train_loss:3.2663 train_time:255904ms step_avg:173.61ms
step:1485/1530 train_loss:3.2761 train_time:256084ms step_avg:173.62ms
step:1486/1530 train_loss:3.2235 train_time:256269ms step_avg:173.62ms
step:1487/1530 train_loss:3.3411 train_time:256451ms step_avg:173.63ms
step:1488/1530 train_loss:3.2451 train_time:256636ms step_avg:173.64ms
step:1489/1530 train_loss:3.3102 train_time:256816ms step_avg:173.64ms
step:1490/1530 train_loss:3.2518 train_time:256997ms step_avg:173.65ms
step:1491/1530 train_loss:3.1557 train_time:257178ms step_avg:173.65ms
step:1492/1530 train_loss:3.2661 train_time:257359ms step_avg:173.66ms
step:1493/1530 train_loss:3.4279 train_time:257537ms step_avg:173.66ms
step:1494/1530 train_loss:3.2963 train_time:257717ms step_avg:173.66ms
step:1495/1530 train_loss:3.0302 train_time:257903ms step_avg:173.67ms
step:1496/1530 train_loss:3.3609 train_time:258086ms step_avg:173.68ms
step:1497/1530 train_loss:3.3130 train_time:258271ms step_avg:173.69ms
step:1498/1530 train_loss:3.3436 train_time:258454ms step_avg:173.69ms
step:1499/1530 train_loss:3.3103 train_time:258643ms step_avg:173.70ms
step:1500/1530 train_loss:3.2928 train_time:258831ms step_avg:173.71ms
step:1500/1530 val_loss:3.2774 train_time:258886ms step_avg:173.75ms
step:1501/1530 train_loss:3.0861 train_time:259022ms step_avg:173.72ms
step:1502/1530 train_loss:3.3567 train_time:259214ms step_avg:173.74ms
step:1503/1530 train_loss:3.2386 train_time:259393ms step_avg:173.74ms
step:1504/1530 train_loss:3.2465 train_time:259573ms step_avg:173.74ms
step:1505/1530 train_loss:3.2095 train_time:259752ms step_avg:173.75ms
step:1506/1530 train_loss:3.2796 train_time:259936ms step_avg:173.75ms
step:1507/1530 train_loss:3.1793 train_time:260131ms step_avg:173.77ms
step:1508/1530 train_loss:3.4801 train_time:260315ms step_avg:173.77ms
step:1509/1530 train_loss:3.2793 train_time:260492ms step_avg:173.78ms
step:1510/1530 train_loss:3.2719 train_time:260672ms step_avg:173.78ms
step:1511/1530 train_loss:3.4137 train_time:260978ms step_avg:173.87ms
step:1512/1530 train_loss:3.4180 train_time:261165ms step_avg:173.88ms
step:1513/1530 train_loss:3.2673 train_time:261350ms step_avg:173.89ms
step:1514/1530 train_loss:3.0836 train_time:261532ms step_avg:173.89ms
step:1515/1530 train_loss:3.2424 train_time:261714ms step_avg:173.90ms
step:1516/1530 train_loss:3.2541 train_time:261899ms step_avg:173.90ms
step:1517/1530 train_loss:3.2974 train_time:262081ms step_avg:173.91ms
step:1518/1530 train_loss:3.2034 train_time:262265ms step_avg:173.92ms
step:1519/1530 train_loss:3.5009 train_time:262597ms step_avg:174.02ms
step:1520/1530 train_loss:3.1245 train_time:262783ms step_avg:174.03ms
step:1521/1530 train_loss:3.2029 train_time:262959ms step_avg:174.03ms
step:1522/1530 train_loss:3.3489 train_time:263145ms step_avg:174.04ms
step:1523/1530 train_loss:3.2275 train_time:263323ms step_avg:174.04ms
step:1524/1530 train_loss:3.3462 train_time:263502ms step_avg:174.04ms
step:1525/1530 train_loss:3.3349 train_time:263691ms step_avg:174.05ms
step:1526/1530 train_loss:3.2758 train_time:263880ms step_avg:174.06ms
step:1527/1530 train_loss:3.2869 train_time:264061ms step_avg:174.07ms
step:1528/1530 train_loss:3.4085 train_time:264243ms step_avg:174.07ms
step:1529/1530 train_loss:3.4033 train_time:264420ms step_avg:174.07ms
step:1530/1530 train_loss:3.2363 train_time:264598ms step_avg:174.08ms
step:1530/1530 val_loss:3.2749 train_time:264653ms step_avg:174.11ms