微比恩 > 信息聚合 > 轻松打造家用版 GPT-4，微软开源微调指令集：效果不输原版，中英双语都能用

轻松打造家用版 GPT-4，微软开源微调指令集：效果不输原版，中英双语都能用

2023-04-14 12:23:06来源: IT之家

图片地址：https://img.ithome.com/newsuploadfiles/2023/4/c57a7bd9-8609-4d1d-9bcf-23b1cac559d2.png?x-bce-process=image/format,f_auto

缺数据不是问题，直接用 GPT-4 生成的指令就够了，标注员恐怕要失业了！「指令」（Instruction）是 ChatGPT 模型取得突破性进展的关键因素，可以让语言模型的输出更符合「人类的偏好」。但指令的标注工作需要耗费大量的人力，即便有了开源的语言模型，资金不足的学术机构、小公司也很难训练出自己 ChatGPT.最近微软的研究人员利用之前提出的 Self-Instruct 技术，首次尝试使用 GPT-4 模型来自动生成语言模型所需的微调指令数据。论文链接：https://arxiv.org/ pdf / 2304.03277.pdf代码链接：https://github.com/Instruction-Tuning-with-GPT-4 / GPT-4-LLM在基于 Meta 开源的 LLaMA 模型上的实验结果表明，由 GPT-4 生成的 5.2 万条英语和汉语 instruction-following 数据在新任务中

阅读原文