train your reward model issue #37

wac81 · 2023-03-12T02:12:10Z

can't train reward model with batch

    seq, prompt_mask, labels = next(train_loader)
    loss = reward_model(seq, prompt_mask = prompt_mask, labels = labels)
    accelerator.backward(loss / GRADIENT_ACCUMULATE_EVERY)

i set this but i get error from code, check source code , found out this:

    if  self.binned_output:
        return F.mse_loss(pred, labels)

    return F.cross_entropy(pred, labels)

cross_entropy DO NOT support multi trainset. i change to mse_loss ,still error.

how i compute loss from multi trainset , like batch size set 8 ,

The text was updated successfully, but these errors were encountered:

wac81 · 2023-03-19T04:58:50Z

reward model doesn't need training.

Are you serious?

how to explain README example?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

train your reward model issue #37

train your reward model issue #37

wac81 commented Mar 12, 2023

wac81 commented Mar 19, 2023

train your reward model issue #37

train your reward model issue #37

Comments

wac81 commented Mar 12, 2023

wac81 commented Mar 19, 2023