2023-10-28 05:08
本条微博链接
提出一种称为“可控解码(CD)”的新方法,通过离线策略强化学习和模块化设计,实现对生成语言模型输出的引导和控制,具有很大潜力。
[LG]《Controlled Decoding from Language Models》S Mudgal, J Lee, H Ganapathy, Y Li, T Wang, Y Huang, Z Chen, H Cheng, M Collins, T Strohman, J Chen, A Beutel, A Beirami [Google DeepMind & Google Research] (2023) 网
………………………………