文化承载着国家的基因,文化的传承影响国家未来的发展。十八大以来,“文化自信”成为了热门词汇。纵观中华文明上下五千年,最能体现文化自信的载体非古诗词莫属。
优美的诗词里蕴含着丰富的历史情感,传递着多彩的中国故事。学诗读词是每个华夏儿女从小必修的功课。
但诗词的用词往往比较隐讳,意义也跟现代理解有了较大的差别。
但如果有一个工具能将诗词当中的意向和情感提取出来,这将大大降低人们鉴赏古诗词时的门槛,将更好的激发人们对诗词的探索热情,助力汉语的传承与发扬。
你能否想象,AI不仅能精准的提取诗词中的意象与情感基调相结合,还能在此基础上生成独具风格的图片。
在DeeCamp训练营中,组名为Text2Image(下文简称为T2I)的学员们将这一想象变成了现实。
T2I团队利用三周的时间,开发出了一款“基于古诗词文本语义的图片生成”工具。这个基于AI技术的工具,能根据诗歌的意象和情感理解,生成意象图片,并对这个图片进行情感渲染着色和水墨风格的迁移,最终画出AI心中的唐风宋韵。
这款极具创新性的工具让AI和古诗文碰撞出了前所未有的火花。
一、技术解密
T2I的研究内容,分为对古诗文本语义的理解、意向图片内容的生成、情感着色并且进行水墨化的风格迁徙三部分。
在文本方面,T2I搜集了5万多首唐诗,使用规则匹配和CNN提取意象,准确率可达到91%。在情感判别方面,T2I人工标注了2200多句诗歌的情感正负倾向,使用word2vec字向量分析和情感字典自动标注数据,以句为单位进行情感判别,准确率达80.1%。
而为了实现情感着色,T2I人工搜集了基于荷、草、柳、梅、沙漠、山、云、雁8个意向的25000张单意象图片和2000张多意象图片,使用WGAN-GP和风格迁移等模型,结合Open-CV等工具,实现了情感着色和水墨图片生成。
二、难点解析
据T2I的成员介绍, 该项目的主要难点在于:由于没有现成的古诗文本与对应内容图片的成对数据,从算法上来看,则没有现成可直接利用的端到端算法。故而团队将任务拆解为文本语义理解和图片生成两个部分。在文本语义理解方面,因古诗词结构的多样性和内容的丰富性,导致实现难度较大。
而在图片生成方面,当古诗文存在混合意向时(如:花有清香月有阴),则需生成多意象并存的图片意向融合。
因此,T2I的成员的积极的在开发过程中进行了创新:在文本语义理解的算法上,团队优先考虑从原文中直接提取意向。当原文无直接意象时,借助译文对于意象的解读进行规则匹配,原文和译文都没有时,借助CNN网络进行建模推断。
在T2I的努力下,一个既能读得懂优美的山水田园诗,还能挥毫作画,画出唐风宋韵的AI粲然而生。得益于相当完整精致的技术方案,这份诗人与AI穿越千年时空实现的心灵互通的美好在DeeCamp闭幕当天呈现在人们眼前。感人的演示效果使T2I收获了DeeCamp2018的最佳方案奖。
未来,该项目可以生成一个诗词动画系统,这套系统既可以帮助孩子看图识古诗,也可以帮助外国友人在线学习中文诗词。落地场景十分光明~
三、所遇之人,皆为挚友
过去的一个月很长。
T2I的成员们从对课题的一无所知、一无所有到齐心协力,分工合作,在3周内完成了课题任务并得到了超乎预期的收获。每个人都卸下了曾经的光环,从标注数据的脏活累活入手,一点点的尝试、失败、再尝试,直到看到模型和系统的进步。
过去的一个月很短。
那么多的知识还在消化,项目还需要去进一步的完善,朋友还有太多的话没说,桌游和美食也没有玩够吃够。有队员开玩笑说:GAN来GAN去,最后千山鸟飞“绝”。尽管DeeCamp已经结束,但T2I的成员们却仍然不愿相信这场愉快的体验已经结束,那帮并肩作战的可爱队友都已四散各地。
T2I成员谈及DeeCamp之旅的感悟:
人生的曼妙之处就在于不可知的际遇。“这次DeeCamp之行不仅学到了AI技术,更重要的是结识了一批意气相交的伙伴。”T21成员总结这一个月的收获,有人学到了前沿的科技知识、有人提高了自己的代码能力,有人视野得到了开阔,有人对人生道路有了更明确地规划......还有人:
“我最大的收获是认识了好多小姐姐”
充实、开放、快乐的DeeCamp生活使这群才华横溢的少年了解了现实工业界的未来研究方向,并将在学校所学的理论能应用到有趣的实践项目中。也使他们结实了志同道合的伙伴,各自发挥所长各显神通,不断碰撞、磨擦出智慧的火花。
或许DeeCamp就像一条汹涌的知识大河,短短一月只能从中截取一道涓流,但却足够受用很久。
而从一个想法到一场完美的展示,除了积淀起坚实的理论基础,尚需心怀上下求索的精神,只有不忘初心,才能在科技发展的浪潮中,逐渐拉进与未来的距离。
推荐阅读:
欢迎关注创新工场微信公众号:chuangxin2009。创新工场拥有强大的投资和投后团队,持续输出关于创业投资、投后的真知灼见~ 还有机会参与到创业培训、沙龙和其他各类活动中。