RL-based LLM - a skytree Collection

skytree 's Collections

RL-based LLM

updated Sep 23, 2024

PERL: Parameter Efficient Reinforcement Learning from Human Feedback

Paper • 2403.10704 • Published Mar 15, 2024 • 59