24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷纷在 LLaMA 的基础上进行「二创」,陆续推出了 Alpaca、Vicuna 等多个开源大模型,一时间「羊驼」成为 AI 圈顶流。开源社区构建的这些类 ChatGPT 模型迭代速度非常快,并且可定制性很强,被称为 ChatGPT 的开源平替。

然而,ChatGPT 之所以能在文本理解、生成、推理等方面展现出强大的能力,是因为 OpenAI 为 ChatGPT 等大模型使用了新的训练范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习的方式依据人类反馈优化语言模型。使用 RLHF 方法,大型语言模型可与人类偏好保持对齐,遵循人类意图,最小化无益、失真或偏见的输出。但 RLHF 方法依赖于大量的人工标注和评估,通常需要数周时间、花费数千美元收集人类反馈,成本高昂。

斯坦福开源「羊驼农场」:24小时内仅需200美元复制RLHF过程

现在,推出开源模型 Alpaca 的斯坦福大学又提出了一种模拟器 ——AlpacaFarm(直译为羊驼农场)。AlpacaFarm 能在 24 小时内仅用约 200 美元复制 RLHF 过程,让开源模型迅速改善人类评估结果,堪称 RLHF 的平替。



什么是「羊驼农场」?
「羊驼农场」是斯坦福大学开源的一个项目,旨在通过开源硬件和软件技术,搭建一个放羊驼的农场,以尝试压缩物联网应用的开发周期和成本。
第一步:准备材料
为了复制RLHF过程,你需要准备一些基本的硬件材料,包括Arduino、电池、传感器等。你可以在斯坦福的Github仓库中找到详细的硬件清单和拼装说明书。
第二步:下载代码
斯坦福的Github仓库中提供了完整的代码和说明文档,你只需要下载并打开代码,跟着文档上的指引和代码中的注释一步步操作即可。
第三步:调试程序
在完成硬件拼装和代码上传后,你需要通过在串口监视器中查看输出信息,来判断程序是否运行正常,并根据输出信息来对程序进行调整和优化。
第四步:部署应用
当程序调试成功后,你可以将RLHF部署到你的设备上,通过接入云平台进行进一步的数据处理和应用开发,从而实现更加丰富和智能的应用。
结语
羊驼农场项目的愿景是通过开源技术,降低硬件和软件开发的门槛,使更多人能够享受物联网应用带来的便利和乐趣,并在此基础上开发出更加丰富、实用的物联网应用。如果你也有兴趣,不妨尝试一下,让我们一起构建一个更加智能、美好的未来。