微比恩 > 信息聚合 > 轻松打造家用版 GPT-4,微软开源微调指令集:效果不输原版,中英双语都能用

轻松打造家用版 GPT-4,微软开源微调指令集:效果不输原版,中英双语都能用

2023-04-14 12:23:06来源: IT之家

缺数据不是问题,直接用 GPT-4 生成的指令就够了,标注员恐怕要失业了!「指令」(Instruction)是 ChatGPT 模型取得突破性进展的关键因素,可以让语言模型的输出更符合「人类的偏好」。但指令的标注工作需要耗费大量的人力,即便有了开源的语言模型,资金不足的学术机构、小公司也很难训练出自己 ChatGPT.最近微软的研究人员利用之前提出的 Self-Instruct 技术,首次尝试使用 GPT-4 模型来自动生成语言模型所需的微调指令数据。论文链接:https://arxiv.org/ pdf / 2304.03277.pdf代码链接:https://github.com/Instruction-Tuning-with-GPT-4 / GPT-4-LLM在基于 Meta 开源的 LLaMA 模型上的实验结果表明,由 GPT-4 生成的 5.2 万条英语和汉语 instruction-following 数据在新任务中

关注公众号
标签: 开源 微软