在他的研究中,社交媒体帖子中的每个单词都具有不同的“排名”或者“分数”。比如,科学和文化主题、英文单词以及篇幅较长的单词和帖子可作为良好学术表现的评判指标;而丰富的表情符号、使用大写字母书写的单词或短语,以及与星座、驾驶等相关的词汇则代着学生有较差的在校成绩。 图 | 一般文本特征与学习成绩的皮尔逊积矩相关系数(Pearson correlation coefficient)。(统计学中,这一系数用于度量两个变量之间的相关程度,其值介于 -1 与 1 之间,在自然科学领域中则广泛用于度量两个变量之间的线性相关程度。) 相关研究论文以“Estimating educational outcomes from students’ short texts on social media”为题,于今年 9 月在线发表在EPJ Data Science上。