1
GPT-2:「精灵制造机」
提到NLP模型,我们印象最深的可能是GPT-3。今年该模型因1750亿超大参数量和超强应用,在各大媒体平台频频刷屏。GPT-2,与GPT-3师出同门,都是OpenAI研发的自然语言处理模型,两个模型最大的不同是它的参数量,GPT-2仅为15亿。但这并不影响它的应用范围。与GPT-3类似,GPT-2也可以用来写故事、画图表,或者玩国际象棋。最近Rayfield受到GPT-2在国际象棋和民间音乐上应用的启发,也想来搞点不一样的事情。他突发奇想决定用GPT-2来生成全新的宠物精灵形象,结果效果还不错。Rayfield从3000个生成图像中挑选出了6个,如图:emm...看起来,小精灵原型还不错,但就是清晰度太差。Rayfield又邀请了业内知名动漫设计师雷切尔?布里格斯(Rachel Briggs)来帮他完成这些精灵的“重绘”工作。最终,基于GPT-2生成的原型,这些宠物小精灵就变成了这样:感觉第二个和第六个可以直接成为《神奇宝贝》的一员了,你觉得呢?Rayfield简单介绍了他利用GPT-2创建这些精灵的实现过程。大致就是:搜寻了788张小精灵图片(均为64x64像素)作为数据源,然后:- 将图像转换为基于文本的格式。
- 用输入文本训练GPT-2模型。
- 使用经过训练的模型生成图像。
- 将基于文本的图像格式转换为PNG。
2
Image GPT:语言模型处理图像任务
需要说明的是,上述Rayfield用GPT-2语言模型来学习图像表征的方法,早已被OpenAI验证。无监督和自监督的学习,或没有人为标记的数据的学习,在自然语言处理领域取得了令人瞩目的成功,因为像BERT、GPT-2、RoBERTa、T5 等 Transformer 模型,在广泛的语言任务中取得了最佳成绩,但同类的模型在图像分类任务中,不能生成较为有用的特征。出于这一目的,OpenAI尝试利用GPT-2处理图像分类任务,以探究用 Transformer 模型在学习图像表征方面的可行性。他们发现,当用展开成像素序列——被称为 iGPT(image GPT) 的图像来训练 GPT-2 模型时,模型似乎能够捕捉二维图像特征,并且能够在没有人类提供的数据标注下,自动生成各种逻辑连续的图像样本。实验结果如图:人类提供上半图(第一列),GPT-2自动补全下半图,右侧为原始图像同时,该模型的特征在多个分类任务的数据集上也取得了不错的成绩,尤其是在 ImageNet 上取得了接近于最优的成绩,如下图。在自然语言处理中,依赖于单词预测的无监督学习算法(如 GPT-2 和 BERT)之所以成功,一个可能的原因是下游语言任务的实例出现在训练用的文本中。但相比之下,像素序列并不直接地包含它们所属的图像的标签。而即使没有明确的监督,图像上的 GPT-2 仍然起作用。OpenAI研究团队认为其原因是足够大的 Transformer 模型,通过训练来预测下一个像素,最终它能够学会根据清晰可识别对象来生成具有多样性的样本。他们采用一种通用的无监督学习算法—生成序列建模进行了测试。具体来说,他们在 ImageNet 上分别训练包含 76M、455M 和 1.4B 参数的 iGPT-S、iGPT-M 和 iGPT-L Transformer;还在来自 ImageNet 和互联网的图像的混合数据集上训练 iGPT-XL ——一个 68 亿参数的 Transformer。由于对长序列采用密集注意力(dense attention)的建模计算成本高,他们用 32x32、48x48 和 64x64 的低分辨率进行了训练。最终实验结果表明,通过计算量来代替二维知识,以及通过从网络中选择的特征,序列 Transformer 可以与最优的卷积网竞争,实现无监督图像分类。此外,通过将 GPT-2 语言模型直接应用于图像生成的结果,也进一步表明由于其简单性和通用性,序列 Transformer 在足够的计算量下,有可能成为学习到不同领域的特征的有效方法。更多OpenAI团队实验内容可参见论文:https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf引用链接:- https://www.reddit.com/r/MachineLearning/comments/jyh0h4/p_generating_pokemon_sprites_with_gpt2/
- https://matthewrayfield.com/articles/ai-generated-pokemon-sprites-with-gpt-2/
- https://openai.com/blog/image-gpt/
点击阅读原文,直达NeurIPS小组!
感谢阅读,如果觉得本文对您有帮助,请给我点个赞,或者把本文的网址复制分享其它好友。
本文网址:http://www.nulj.cn/k/1583.html复制
写博客不容易,服务器成本也很高,感谢谢支持。微信打赏红包