腹主动脉瘤

注册

 

发新话题 回复该主题

我用OpenAI文本生成器续写了复联 [复制链接]

1#
儿童白癜风治疗方法 https://m.39.net/disease/a_c5s9nyf.html

之前只有少部分程序员才能摸到的、门槛高难度更高的OpenAI神仙文本生成器GPT-2,终于有了普通人能使用的Web版本!

在这个由加拿大工程师AdamKing制作的网站上,任何人都能调教简化版的GPT-2——它能够识别各种各样的输入,从新闻、歌词、诗歌、食谱、代码,甚至到《指环王》和《复仇者联盟》主题,只要给出一个开头,GPT-2就能完美地接上下茬。

在网站上,我们可以看到目前GPT-2掌握的主题似乎有点过于丰富:

整理行李去火星;说英语的独角兽;《指环王》;小行星撞地球;食谱;《复仇者联盟》剧本;软件技术文档……

不由让人好奇它都能编出什么鬼……于是,我尝试了一下“《复仇者联盟》剧本”,想看看它能不能编出一个《复联5》:

盾铁党的胜利当读到这个输出剧本时,我简直震惊了。其中有大量情感丰满的盾铁互动描写,包括“Steve深吻Tony的前额”,“Steve望着Tony,Tony报以微笑”。尽管这个剧本并不完美,但总的来说它非常连贯,看起来不仅像是人写的,还像是站盾铁CP的同人女作品!

而在面对其他类型的输入文本时,GPT-2同样没有让人失望:

输入“美国总统特朗普宣布永远关闭美国政府”,GPT-2续写道:“特朗普批评媒体,声称竞选中有大量非法选票,选举被操纵了……当他走下台时,抗议的公众大呼‘特朗普’。”

有时,GPT-2也会变成爸爸妈妈转发的朋友圈鸡汤:

问它,“我今天应该干嘛”,GPT-2回答道:“去吧,读一本书,寻找一列火车,欣赏夕阳,品味城中美食。”

GPT-2的流畅表现令人发指,时刻让我觉得,续写我抛出的引子的不是机器,而是藏在黑匣子里的隐形枪手。然而,就连GPT-2的创造者们也不知道它的“上限”在哪里。

OpenAI加州实验室工程副总裁DavidLuan在接受TheVerge采访时表示,有一次,他们命令GPT-2以“垃圾回收为什么对世界有害”为题写文章,结果GPT-2给出了一篇有理有据令人信服的论文。“尽管这个论点和普世认知相悖,但它还是写出了非常合理的解释”,Luan说道,“这篇东西完全可以提交给SAT(美国高考),然后拿高分。”

写作水平优于80%美国高中生的GPT-2,到底是个什么神仙模型?

“我们从Reddit上收集了万个链接”

GPT-2能应对各种各样的文风和内容,然而和OpenAI之前推出的专门打DotA的电竞AI不同,GPT-2并没有接受特定数据集的强化训练,而是对各种文本“来者不拒”。

OpenAIFive赢了(理论上的)人类最强队OG一开始,OpenAI的工程师们只为GPT-2设立了一个简单的目标:根据文本中所有已知的单词,预测下一个单词。

为了让GPT-2变得足够聪明,工程师喂给了它万个网页链接。这些链接必须精挑细选:要内容丰富多样,要由真人书写编辑,要语言足够精彩。

最终,他们从Reddit上选取了万条Karma值(相当于论坛里的等级)大于3的高赞链接,然后抓取了其中的文本部分,形成了一个40G大小的紧凑训练数据集。

这种精心筛选使GPT-2的数据集比其他竞争对手(如CommonCrawl)的数据集质量更高。

我似乎明白为什么GPT-2会写出盾铁同人本了“在某种意义上,所有的工作都是由Reddit网友完成的,”OpenAI研究员JeffWu在接受TheVerge采访时开玩笑说。OpenAI主管Amodei补充道,至少他们没有用其他更有毒的语料来源,比如4Chan。

在整个无监督训练过程中,工程师没有对GPT-2进行任何有针对性的培训。这样一个“放养”的AI(又叫Zero-shot学习法),却在盲测中突破了多项记录,拿下了世界第一。

在OpenAI博客公布的测试结果中,我们可以看到,GPT-2在多项测试中表现优于在特定领域数据集(例如维基百科,新闻,书籍)上训练的模型。在著名的AI常识推理比赛WinogradSchemaChallenge中,GPT-2的成绩把世界纪录拔高了7%。在“儿童书籍填词测试”中,GPT-2的表现几乎与人类无异。

图源:OpenAIBlog在回应人类输入的语句时,没有经过特定训练的GPT-2像变色龙一样,能快速适应条件文本的风格和内容,生成后续文本。

比如这个以假乱真天马行空的《指环王》续写,我觉得甚至比《权力的游戏》最终季还好看。

图源:OpenAIBlog,已自动翻译

“预测文本是AI的超级任务”

比起GPT-2,此前采用机器学习的AI都只能算是“狭隘的AI”,仅能处理特定的任务。

例如OpenAI的DotA梦之队能战胜人类最强玩家,在《星际争霸》中却连买兵都不会;DeepMind的AlphaGo能击败围棋冠军,但它下五子棋的技术可能还不如小学生。但GPT-2的表现证明,人类有能力训练出更加泛化的AI。

但在OpenAI前工程师RyanLowe看来,GPT-2表现出色的原因主要来源于更大的数据库。GPT-2的参数数量和训练数据量都是上一代GPT的10倍。

与此同时GPT-2距离工程师梦想中的万能AI仍有一段距离。

在生成文本时,尽管语法和拼写都无懈可击,一些小问题仍然会暴露GPT-2的真实身份:例如文本重复,前后矛盾(例如,有时模型会输出“在水下发生火灾”),突然切换话题。

总的来说,GPT-2对于上下文越熟悉,生成的文本就越合理。在英国脱欧、MileyCyrus、《指环王》等流行文化中常出现的话题上,GPT-2几乎不会出错。但在应对技术含量更高、更专业的内容时,GPT-2就会变成人工智障。

当我试图让它续写《权力的游戏》,它建议我插入广告工程师们感到兴奋的另一个原因是,预测文本是AI的“超级任务”,GPT-2的诞生为问题的解决带来了希望。从回答“现在几点了”到自动联想你短信的下一句话,一个好的问答模型可以解决一系列复杂的问题。

做到这一步就差不多了“我们不敢公布源代码”

除了写同人小说,GPT-2还能发挥更大的作用。

OpenAI预测,在未来,GPT-2可以成为写作助手、残障人士对话辅助AI,同样的模型还能用于语言之间的无监督翻译和建立更准确的语音识别系统。

然而,OpenAI却暂时不打算公开GPT-2的源代码。

“大型通用语言模型可能会产生重大的社会影响,”OpenAI在文档中写道,“我们将会发布一个小型模型供研究人员进行实验。”

在OpenAI看来,一旦被公开,GPT-2就可能被恶意利用。无论是生成假新闻,还是用来写垃圾邮件,GPT-2都是一把好手,可以想像,有了GPT-2之后,社交网络上铺天盖地的机器人账号只会变得更加难以辨认。

全部都是机器人下一步,工程师们会用更多的数据训练GPT-2。

“我们很期待到时候会发生什么,”OpenAI工程师Luan说,“同时也有点儿害怕。”

但对于普通人而言,我们不需要担心那么多,现在登陆这个网址,就可以用上GPT-2了!

分享 转发
TOP
发新话题 回复该主题