This paper proposes a method for classifying movie genres by only looking at text reviews. The data used are from Large Movie Review Dataset v1.0 and IMDb. This paper compared a K-nearest neighbors (KNN) model and a multilayer perceptron (MLP) that uses tf-idf as input features. The paper also discusses different evaluation metrics used when doing multi-label classification. For the data used in this research, the KNN model performed the best with an accuracy of 55.4\% and a Hamming loss of 0.047.
翻译:本文建议一种仅通过查看文本审查对电影类型进行分类的方法。 所使用的数据来自大型电影审查数据集 v1.0 和 IMDb。 本文比较了K- 近邻模型和多层光谱模型,后者使用 tf- idf 作为输入特征。 本文还讨论了在进行多标签分类时使用的不同评价指标。 对于本研究中使用的数据, KNN 模型的精确度为55.4 ⁇ 和 0.047 的仓载损失, 最佳效果为 55.4 ⁇ 和 0.047 。