【资料图】
谷歌DeepMind于8月21日发布论文,提出一种使LLM与人类偏好对齐更简单的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人类反馈的强化学习)使用人类反馈改进语言模型,ReST通过生成和使用离线数据进行训练,从而使得LLM与人类偏好保持一致。研究团队表示,虽然ReST可用于所有生成任务,但本文的重点是机器翻译。研究者在机器翻译任务上进行了实验,测试基准包括IWSLT 2014、WMT 2020和Web Domain。结果表明,ReST可以极大地提高翻译质量。
关键词:
新闻发布平台 |科极网 |环球周刊网 |tp钱包官网下载 |中国创投网 |教体产业网 |中国商界网 |万能百科 |薄荷网 |资讯_时尚网 |连州财经网 |剧情啦 |5元服装包邮 |中华网河南 |网购省钱平台 |海淘返利 |太平洋装修网 |励普网校 |九十三度白茶网 |商标注册 |专利申请 |启哈号 |速挖投诉平台 |深度财经网 |深圳热线 |财报网 |财报网 |财报网 |咕噜财经 |太原热线 |电路维修 |防水补漏 |水管维修 |墙面翻修 |旧房维修 |参考经济网 |中原网视台 |财经产业网 |全球经济网 |消费导报网 |外贸网 |重播网 |国际财经网 |星岛中文网 |手机测评 |品牌推广 |名律网 |项目大全 |整形资讯 |整形新闻 |美丽网 |佳人网 |税法网 |法务网 |法律服务 |法律咨询 |成报网 |媒体采购网 |聚焦网 |参考网
亚洲资本网 版权所有
Copyright © 2011-2020 亚洲资本网 All Rights Reserved. 联系网站:55 16 53 8 @qq.com