大漠孤烟、长河落日,AI也有诗情画意 | DeeCamp Show

2018 年 8 月 27 日 创新工场

文化承载着国家的基因,文化的传承影响国家未来的发展。十八大以来,“文化自信”成为了热门词汇。纵观中华文明上下五千年,最能体现文化自信的载体非古诗词莫属。


优美的诗词里蕴含着丰富的历史情感,传递着多彩的中国故事。学诗读词是每个华夏儿女从小必修的功课。


但诗词的用词往往比较隐讳,意义也跟现代理解有了较大的差别。



但如果有一个工具能将诗词当中的意向和情感提取出来,这将大大降低人们鉴赏古诗词时的门槛,将更好的激发人们对诗词的探索热情,助力汉语的传承与发扬。


你能否想象,AI不仅能精准的提取诗词中的意象与情感基调相结合,还能在此基础上生成独具风格的图片。



在DeeCamp训练营中,组名为Text2Image(下文简称为T2I)的学员们将这一想象变成了现实。


T2I团队利用三周的时间,开发出了一款“基于古诗词文本语义的图片生成”工具。这个基于AI技术的工具,能根据诗歌的意象和情感理解,生成意象图片,并对这个图片进行情感渲染着色和水墨风格的迁移,最终画出AI心中的唐风宋韵。


这款极具创新性的工具让AI和古诗文碰撞出了前所未有的火花。


一、技术解密


T2I的研究内容,分为对古诗文本语义的理解、意向图片内容的生成、情感着色并且进行水墨化的风格迁徙三部分。


在文本方面,T2I搜集了5万多首唐诗,使用规则匹配和CNN提取意象,准确率可达到91%。在情感判别方面,T2I人工标注了2200多句诗歌的情感正负倾向,使用word2vec字向量分析和情感字典自动标注数据,以句为单位进行情感判别,准确率达80.1%。




而为了实现情感着色,T2I人工搜集了基于荷、草、柳、梅、沙漠、山、云、雁8个意向的25000张单意象图片和2000张多意象图片,使用WGAN-GP和风格迁移等模型,结合Open-CV等工具,实现了情感着色和水墨图片生成。


二、难点解析


据T2I的成员介绍, 该项目的主要难点在于:由于没有现成的古诗文本与对应内容图片的成对数据,从算法上来看,则没有现成可直接利用的端到端算法。故而团队将任务拆解为文本语义理解和图片生成两个部分。在文本语义理解方面,因古诗词结构的多样性和内容的丰富性,导致实现难度较大。


而在图片生成方面,当古诗文存在混合意向时(如:花有清香月有阴),则需生成多意象并存的图片意向融合。


因此,T2I的成员的积极的在开发过程中进行了创新:在文本语义理解的算法上,团队优先考虑从原文中直接提取意向。当原文无直接意象时,借助译文对于意象的解读进行规则匹配,原文和译文都没有时,借助CNN网络进行建模推断。




在T2I的努力下,一个既能读得懂优美的山水田园诗,还能挥毫作画,画出唐风宋韵的AI粲然而生。得益于相当完整精致的技术方案,这份诗人与AI穿越千年时空实现的心灵互通的美好在DeeCamp闭幕当天呈现在人们眼前。感人的演示效果使T2I收获了DeeCamp2018的最佳方案奖。


未来,该项目可以生成一个诗词动画系统,这套系统既可以帮助孩子看图识古诗,也可以帮助外国友人在线学习中文诗词。落地场景十分光明~


三、所遇之人,皆为挚友


过去的一个月很长。


T2I的成员们从对课题的一无所知、一无所有到齐心协力,分工合作,在3周内完成了课题任务并得到了超乎预期的收获。每个人都卸下了曾经的光环,从标注数据的脏活累活入手,一点点的尝试、失败、再尝试,直到看到模型和系统的进步。


过去的一个月很短。


那么多的知识还在消化,项目还需要去进一步的完善,朋友还有太多的话没说,桌游和美食也没有玩够吃够。有队员开玩笑说:GAN来GAN去,最后千山鸟飞“绝”。尽管DeeCamp已经结束,但T2I的成员们却仍然不愿相信这场愉快的体验已经结束,那帮并肩作战的可爱队友都已四散各地。


T2I成员谈及DeeCamp之旅的感悟:


人生的曼妙之处就在于不可知的际遇。“这次DeeCamp之行不仅学到了AI技术,更重要的是结识了一批意气相交的伙伴。”T21成员总结这一个月的收获,有人学到了前沿的科技知识、有人提高了自己的代码能力,有人视野得到了开阔,有人对人生道路有了更明确地规划......还有人:


“我最大的收获是认识了好多小姐姐”


充实、开放、快乐的DeeCamp生活使这群才华横溢的少年了解了现实工业界的未来研究方向,并将在学校所学的理论能应用到有趣的实践项目中。也使他们结实了志同道合的伙伴,各自发挥所长各显神通,不断碰撞、磨擦出智慧的火花。


或许DeeCamp就像一条汹涌的知识大河,短短一月只能从中截取一道涓流,但却足够受用很久。


而从一个想法到一场完美的展示,除了积淀起坚实的理论基础,尚需心怀上下求索的精神,只有不忘初心,才能在科技发展的浪潮中,逐渐拉进与未来的距离。




推荐阅读:

欢迎关注创新工场微信公众号:chuangxin2009。创新工场拥有强大的投资和投后团队,持续输出关于创业投资、投后的真知灼见~ 还有机会参与到创业培训、沙龙和其他各类活动中。


登录查看更多
0

相关内容

语义理解(NLU)是通过一系列的AI算法,将文本解析为结构化的、机器可读的意图与词槽信息,便于互联网开发者更好的理解并满足用户需求。 思知AI机器人开放平台面向互联网开发者提供对自然语言文本的语义理解服务。
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
351+阅读 · 2020年6月24日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
22+阅读 · 2020年6月2日
【天津大学】知识图谱划分算法研究综述
专知会员服务
106+阅读 · 2020年4月27日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
AI算法太难入门?看完这本书你就不会这么想
大数据技术
8+阅读 · 2019年6月10日
已删除
将门创投
13+阅读 · 2019年4月17日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
荐书丨深度学习框架PyTorch:入门与实践
程序人生
11+阅读 · 2018年1月19日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
羞羞的AI,如何改变色情产业?
虎嗅网
9+阅读 · 2017年11月24日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
从0到1,漫谈步态识别那些事
机器学习研究会
10+阅读 · 2017年9月24日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
Arxiv
4+阅读 · 2019年12月2日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
VIP会员
相关VIP内容
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
351+阅读 · 2020年6月24日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
22+阅读 · 2020年6月2日
【天津大学】知识图谱划分算法研究综述
专知会员服务
106+阅读 · 2020年4月27日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
相关资讯
AI算法太难入门?看完这本书你就不会这么想
大数据技术
8+阅读 · 2019年6月10日
已删除
将门创投
13+阅读 · 2019年4月17日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
荐书丨深度学习框架PyTorch:入门与实践
程序人生
11+阅读 · 2018年1月19日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
羞羞的AI,如何改变色情产业?
虎嗅网
9+阅读 · 2017年11月24日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
从0到1,漫谈步态识别那些事
机器学习研究会
10+阅读 · 2017年9月24日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员