爱X视频在线,乱人伦AV免费,中日看片网

作者：算力魔方創始人/英特爾創新大使劉力

近日，荷蘭科學家Raz發布了Reinforce-Lite算法，實現了在 48GB顯存的顯卡上僅用 12 小時在3B模型上重現DeepSeek“Wait!/Aha”時刻。

原文鏈接：https://medium.com/@rjusnba/overnight-end-to-end-rl-training-a-3b-model-on-a-grade-school-math-dataset-leads-to-reasoning-df61410c04c6
滑動查看更多

一，Reinforce-Lite算法的顯存要求

Raz通過移除KL，移除替代比率，去掉評論模型，使用組相對獎勵（DeepSeek的GRPO風格）進行優勢計算，提出了一種更簡單、更穩定、更高效的輕量級強化學習方法：Reinforce-Lite，使得顯存需求，從72GB下降到36GB！下表是：端到端的用強化學習訓練 3B 模型的顯存需求。

二，Reinforce-Lite算法的PyTorch實現

Reinforce-lite算法的PyTorch實現如下所示：

第一步，初始化一個指令微調的LLM，并適當提示以將其推理步驟包含在標簽中。

第二步，定義一個獎勵函數用于模型輸出（例如，GSM8K數學推理任務中的正確性）。通過正則表達式提取標簽中的數值，并與數據集中的實際答案進行比較。

第三步，通過直接計算相對于獎勵的梯度來優化策略，而不需要替代損失。

第四步，使用組相對歸一化進行優勢計算，消除了對評論模型的需求。我們使用組大小為10。

第五步，使用標準對數概率梯度更新模型。

def reinforce_lite(batch, policy_model, tokenizer, device, step, save_dir):
"""
使用強化學習方法訓練策略模型。

Args:
batch (list of tuples): 包含提示和目標句子的列表。
policy_model (torch.nn.Module): 策略模型，用于生成響應。
tokenizer (transformers.PreTrainedTokenizer): 用于處理文本的標記器。
device (torch.device): 指定模型運行的設備。
step (int): 當前訓練步數。
save_dir (str): 保存模型的目錄。

Returns:
tuple: 包含策略損失、平均獎勵、策略損失項、0.0、第一個響應和所有響應的長度。

"""
# 設置模型為訓練模式
policy_model.train()
# 解包輸入數據
prompts, targets = zip(*batch)
# 獲取批量大小
batch_size = len(prompts)
# 初始化評估組索引
evaluated_group = 0

# 初始化存儲列表
all_logprobs = []
all_rewards = []
all_responses = []
all_lengths = []

for group_idx in range(config.GROUP_SIZE):
# 格式化提示
formatted_prompts = [format_prompt(p, tokenizer) for p in prompts]
# 將提示轉換為模型輸入
inputs = tokenizer(
formatted_prompts,
return_tensors="pt",
padding=True,
truncation=True,
max_length=config.MAX_SEQ_LENGTH
).to(device)

# 生成參數
generate_kwargs = {
**inputs,
"max_new_tokens": config.MAX_NEW_TOKENS,
"do_sample": True,
"temperature": 0.7,
"top_p": 0.9,
"pad_token_id": tokenizer.pad_token_id,
"return_dict_in_generate": True,
}

# 判斷當前組是否為評估組
if group_idx == evaluated_group:
# 生成響應
generated = policy_model.generate(**generate_kwargs)
# 獲取生成的響應ID
generated_ids = generated.sequences
# 獲取模型輸出
outputs = policy_model(
generated_ids,
attention_mask=(generated_ids != tokenizer.pad_token_id).long()
)
# 獲取提示長度和響應長度
prompt_length = inputs.input_ids.shape[1]
response_length = generated_ids.shape[1] - prompt_length
# 計算對數概率
if response_length > 0:
logits = outputs.logits[:, prompt_length-1:-1, :]
response_tokens = generated_ids[:, prompt_length:]
log_probs = torch.log_softmax(logits, dim=-1)
token_log_probs = torch.gather(log_probs, -1, response_tokens.unsqueeze(-1)).squeeze(-1)
sequence_log_probs = token_log_probs.sum(dim=1)
else:
sequence_log_probs = torch.zeros(batch_size, device=device)
else:
# 在不計算梯度的情況下生成響應
with torch.no_grad():
generated = policy_model.generate(**generate_kwargs)
sequence_log_probs = torch.zeros(batch_size, device=device)

# 解碼生成的響應
responses = tokenizer.batch_decode(
generated.sequences[:, inputs.input_ids.shape[1]:],
skip_special_tokens=True
)
# 計算獎勵
rewards = torch.tensor([get_reward(resp, tgt) for resp, tgt in zip(responses, targets)], device=device)

# 存儲結果
all_responses.extend(responses)
all_rewards.append(rewards)
all_logprobs.append(sequence_log_probs)
all_lengths.extend([len(r.split()) for r in responses])

# 堆疊獎勵和對數概率
rewards_tensor = torch.stack(all_rewards)
logprobs_tensor = torch.stack(all_logprobs)

# 分離評估組的獎勵和其他組的獎勵
evaluated_rewards = rewards_tensor[evaluated_group]
others_rewards = torch.cat([
rewards_tensor[:evaluated_group],
rewards_tensor[evaluated_group+1:]
], dim=0)

# 計算基線值
baseline = others_rewards.mean(dim=0)
# 計算優勢
advantages = (evaluated_rewards - baseline) / (others_rewards.std(dim=0) + 1e-8)
advantages = torch.clamp(advantages, -2.0, 2.0)

# 計算策略損失
policy_loss = -(logprobs_tensor[evaluated_group] * advantages.detach()).mean()

return policy_loss, rewards_tensor.mean().item(), policy_loss.item(), 0.0, all_responses[0], all_lengths
滑動查看更多

三，Reinforce-Lite算法的數據集：GSM 8K

Reinforce-Lite使用GSM8K數據集：這是一個小學數學數據集，包含數學問題及其答案，格式如下：