- 文丨小饭桌新媒体记者 王艳 -
在国内创业,想要找到一片还没有被人涉足的蓝海太不容易了,但是赵梓淳却发现,在国外已经十分成熟的分级阅读在国内还没有人来做,赵梓淳动了心。
分级阅读简言之就是把人的阅读能力量化出来,并匹配与其阅读能力相符的书籍,以达到更好的阅读效果。
国外的蓝思分级已经进入主流教学场景,分级从200L至1700L,学生可以选择高于自己阅读水平50L或者低于自己阅读水平100L的图书阅读。
赵梓淳想要通过人工智能的方法把国内的分级阅读制度建立起来。带着这样的想法,当时只有三个人的团队成立考拉阅读,但在找融资时却处处碰壁。
后来,赵梓淳找到真格基金的徐小平,说了自己的想法后徐小平撂出一句话:“你这个项目好多专业术语我听不懂,但团队不错,要做的事也是好事,如果真的能提高孩子的阅读水平,那这事就靠谱。”
2016年10月,赵梓淳的考拉阅读获得伽利略资本和真格基金的数百万天使轮投资。
在国内把分级阅读从零开始做并不容易,拿到融资后赵梓淳带着团队进入摸索和积累期,2017年8月考拉阅读获得清科辰光领投的数千万人民币pre-A轮投资,12月5日又宣布完成近千万美金A轮融资,由启明创投、GGV纪源资本共同投资。
在一年时间内,考拉阅读完成了三轮融资并实现了分级阅读底层标准的搭建到终端产品的完整架构及落地使用。
◆ ◆ ◆
没有人敢碰的蓝海市场
赵梓淳曾先后就读于美国芝加哥大学金融数学专业和哥伦比亚大学运筹学专业,并担任哥伦比亚大学CU-Asia常务副主席,曾先后任职于美国高盛和奥本海默基金。但是华尔街的金融男能不能做好中国的教育信息化?产品做好之后是不是能够推进到学校使用?使用之后是不是能从学校那里赚到钱?面对投资人抛来的这些问题,赵梓淳心里也没谱。
分级阅读在国外,不管是方法还是商业模式都已经得到验证:英文分级阅读已覆盖了美国90%的K12学校,主流的分级系统蓝思分级和Renaissance 的ATOS分级测评体系的科学性和效率都已经得到了市场的认可。
在美国这是一个百亿美金的赛道,但是在国内却一直没有人来做。
一方面,英文的基础组成是26个字母,而中文的基础组成是3600多个汉字,这种差别让分析文本时所需要的语料是指数级的增长;同时,英文中的单词是分隔开的,但是中文句子中的单词并没有明显的分隔,这些都给文本分析增加了难度。
所以赵梓淳心里也清楚,做国内的分级阅读是真的从零做起,没有前人可以借鉴。它不像做一个APP,成不成投放到市场里就能验证,但是做底层研究,如果研究不出能落地应用的产品,这事就这么没了。
但没有人做恰巧说明这是一片蓝海市场,毕竟在国内想要找到一片真正的蓝海并不容易。赵梓淳想要试一试。
英文的分级阅读标准制定出来用了近10年的时间,赵梓淳找到国内的语言学专家,他们给出的结论是,按照目前语言学的方法做中文的分级阅读标准,得10到20年的时间。
“用人工智能加上传统的语言学是不是可以缩短这个时间差?”于是赵梓淳找到了苏隽琪和任易。用人工智能做分级阅读,赵梓淳觉得他们的团队似乎有天然的优势,苏隽琪在美国生活了十年,对分级阅读有很深的认知,曾经是美国Google 总部search infrastructure team的产品经理;CTO任易是北京大学数据挖掘方向的博士,曾在IBM中国研发中心Waston for Life Service和微软亚洲研究院工作,擅长自然语言处理和数据挖掘。
随后首席数据科学家Jake Zhao和首席语言学家李轩加入,Zhao曾在Facebook从事研究工作,师从于机器学习顶尖学者、深度学习的奠基人之一Yann LeCun教授,而李轩则为香港中文大学的语言学博士。
◆ ◆ ◆
做儿童版今日头条
美国的分级阅读主要是通过传统统计语言学的方法来做,虽然精度不如人工智能的方法,但是优势在于十年的学生阅读数据积累;并且做分级阅读是多学科交叉的事情,既需要测量心理学、语言学、统计学的知识,又需要用到机器学习、深度学习的技术。
一开始,考拉阅读团队会先处理大概几百万字的精标语料库、上千万字的非平衡语料库和几十亿字的平衡语料库。
那段时间,考拉阅读的算法团队几乎吃住在公司,先是把学生的阅读书籍扫描后重新排版,转换成电子文本,不断把模型的精度提高。
为了收集学生的阅读数据,一年的时间里赵梓淳带着团队从一线城市跑到四线城市,截至今年11月,考拉阅读已经对三十余万中国学生开展了阅读能力信息采集,打造了最大的中国学生的阅读能力的量表和常模,可对每名学生的阅读能力进行测试。
“比如《小蝌蚪找妈妈》的难度在300ER左右,而《道德经》和《管锥编》这样的书则在1250ER,接近难度值的极限。”
赵梓淳口中说的ER值就是考拉阅读做出的一套量化中文分级阅读标准(ER Framework),ER Framework可以即时测量出任何一段中文文本的阅读难度值,在200ER-1300ER区间,数字越大,难度越高。
赵梓淳说,目前考拉阅读已经处理了1300万字非平衡语料库,近两亿字平衡语料库。当以专家评鉴作为基准时,ER Framework的准确率在93%左右。
考拉阅读的商业化变现一方面来自付费产品,另一方面来自线下的阅读课程、线下图书馆改造等,这部分主要通过代理商、渠道商的形式在线下铺开。
目前考拉阅读的产品已经进入几百所学校进行使用。产品分基础版和高级版两种,基础版本免费使用,高级版本每年会收取一定费用,并为其提供类似儿童版今日头条的功能,为孩子推荐更加适合其阅读能力的书籍,并为孩子提高阅读能力提供解决方案。
“根据国外的AR分级体系,如果一个四年级的孩子测出来的值是5.1,这代表的是五年级第一个月中国学生的平均阅读水平,这样就可以很直观地看到孩子的水平,老师和家长可以据此为孩子提供更加适合其能力的书籍。”在赵梓淳看来,如果给一年级的孩子看《红楼梦》,因为看不懂就会丧失阅读的兴趣,但如果每天都让孩子读《小蝌蚪找妈妈》也学不到新的东西,所以真正适合孩子的是让其踮起脚能够得着的书。比如阅读能力在600ER的孩子会比较适合难度在550ER到670ER的书籍。
目前考拉阅读的团队规模在70人左右,半数是算法和工程师团队,还有20人的教研团队。
此次融资结束之后,考拉阅读将主要做公司底层AI技术的累积,打造首个“人工智能+阅读”研究院XY Research,把测文本的ER Framework的精度提高,构建更大的中国孩子的阅读能力的模型,并推出一个图书基因组计划,可以把每本书的整个颗粒度打的很细,更精准地推荐孩子喜欢的书籍。在积累足量的学生数据后,将在一到两年后推出AI老师。
小饭桌
A轮班
ღ 第10届小饭桌A轮班正在报名中,班级导师愉悦资本创始合伙人戴汨面对面交流,各领域实操经验丰富专家深度互动授课,助力解决A轮阶段创业者战略发展、融资法律财税、团队建设、产品运营、品牌推广问题。
ღ 5天4夜,不只有干货传授,加入最强A轮社群,获得小饭桌A轮班重磅学员档案。资源互补,同业互助,异业合作。点击阅读原文即可查看课程详情。
👉 咨询电话:17600205985 齐老师(早10:00—晚10:30)
👉 课程咨询:添加微信号 fanzhuojun2
👉 有融资需求请发商业计划书至bm@xfz.cn
快来点击“阅读原文”,加入小饭桌最强A轮社群!