Combined loss (L₃)

Appears in 1 paper

The total fine-tuning loss: L₃ = L_task + λ · L_language_model.

As used in Paper 10 — Improving Language Understanding by Generative Pre-Training →

The total fine-tuning loss: L₃ = L_task + λ · L_language_model. The λ weight (0.5 in the paper) keeps the language modelling objective active during fine-tuning, acting as a regulariser.

Paper 10 — Improving Language Understanding by Generative Pre-Training →

Appears in papers