“上下文”Google DeepMind 学者研发Focused Transformer ,扩展大模型输出长度限制

2023-07-11 17:05:27来源:PingWest品玩

今天,很高兴为大家分享来自PingWest品玩的Google DeepMind 学者研发Focused Transformer ,扩展大模型输出长度限制,如果您对Google DeepMind 学者研发Focused Transformer ,扩展大模型输出长度限制感兴趣,请往下看。

品玩7月11日讯,据 Arxiv 页面显示,Google DeepMind 研究团队近日联手华沙大学和波兰科学院等机构,研发一项名为 Focused Transformer 的技术。

Focused Transformer 技术旨在通过对比训练来扩展上下文长度的方法,可以用于大型语言模型。Focused Transformer 技术通过对比训练来增强 (key, value) 空间的结构,从而扩展了上下文长度。这项技术使得已经预训练的大型语言模型可以被重新训练来延长它们的有效上下文。

论文显示,研究团队使用一款名为 LongLLaMA 的大模型进行测试。经过实验,研究团队已经成功使用 LongLLaMA 模型在密码检索任务中实现了256K的上下文长度。

好了,关于Google DeepMind 学者研发Focused Transformer ,扩展大模型输出长度限制就讲到这。


返回科技金融网首页 >>

版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。


相关文章