CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第十期于2022年7月5日成功举行。本沙龙由中国图象图形学学会主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本期活动邀请北京大学王逸之博士分享报告: 面向文字的图形图像生成方法及其应用。微沙龙活动在B站、蔻享学术,中国图像图形学报视频号进行了同步直播。
本次活动由北京大学王选计算机所连宙辉副教授主持,北京大学王选计算机的博士研究生王逸之做了题为“面向文字的图形图像生成方法及其应用”的学术报告。报告首先介绍了文字的图形和图像生成工作的背景和意义。接着,报告结合文字图形/图像的设计和创作流程,定位了若干亟需解决的问题。为了解决属性可控的定制字体生成问题,该报告提出一种基于属性注意力机制和半监督学习策略的生成式网络,学习字体属性的相关性和充分利用无标签数据;为了探究紧凑高质的矢量字体生成问题,该报告提出使用双模态(矢量轮廓和栅格图像)学习方法和可微分栅格化算法,分别用于充分完善字形细节和修正位置偏移问题;为了探究内容可感知的文字标志生成问题,该报告提出了双判别器(序列和图像)模块,用于合理评估生成结果的质量,同时提出可微分拼接算法,将字形元素可微地渲染到画布上。该报告展示了这些方法在平面设计、内容创作等领域的实际应用;最后,还将字形生成应用到文字识别任务中,提出一种生成模型驱动的特征学习方法,用于显式抽取场景和字体无关特征,提升识别模型的准确率。最后,报告嘉宾回答了听众提出的一系列问题,并号召大家共同探究该领域尚为解决的难题。报告中涉及工作的源代码已经开源至个人主页:https://https://yizhiwang96.github.io/。
报告的论文:
[1] Wang, Yizhi, Yue Gao, and Zhouhui Lian. "Attribute2font: Creating fonts you want from attributes." ACM Transactions on Graphics. 2020.
[2] Wang, Yizhi, and Zhouhui Lian. "DeepVecFont: synthesizing high -quality vector fonts via dual-modality learning." ACM Transactions on Graphics. 2021.
[3] Wang, Yizhi, et al. "Aesthetic Text Logo Synthesis via Content-aware Layout Inferring." CVPR. 2022.
[4] Wang, Yizhi, and Zhouhui Lian. "Exploring font-independent features for scene text recognition." ACM MM. 2020.
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!
错过直播的同学可以前往B站观看回放视频,链接:
https://www.bilibili.com/video/BV16Z4y1a7hg?share_source=copy_web
或微信扫描二维码观看