This study presents a hybrid deep learning architecture that integrates LSTM, CNN, and an Attention mechanism to enhance the classification of web content based on text. Pretrained GloVe embeddings are used to represent words as dense vectors that preserve semantic similarity. The CNN layer extracts local n-gram patterns and lexical features, while the LSTM layer models long-range dependencies and sequential structure. The integrated Attention mechanism enables the model to focus selectively on the most informative parts of the input sequence. A 5-fold cross-validation setup was used to assess the robustness and generalizability of the proposed solution. Experimental results show that the hybrid LSTM-CNN-Attention model achieved outstanding performance, with an accuracy of 0.98, precision of 0.94, recall of 0.92, and F1-score of 0.93. These results surpass the performance of baseline models based solely on CNNs, LSTMs, or transformer-based classifiers such as BERT. The combination of neural network components enabled the model to effectively capture both fine-grained text structures and broader semantic context. Furthermore, the use of GloVe embeddings provided an efficient and effective representation of textual data, making the model suitable for integration into systems with real-time or near-real-time requirements. The proposed hybrid architecture demonstrates high effectiveness in text-based web content classification, particularly in tasks requiring both syntactic feature extraction and semantic interpretation. By combining presented mechanisms, the model addresses the limitations of individual architectures and achieves improved generalization. These findings support the broader use of hybrid deep learning approaches in NLP applications, especially where complex, unstructured textual data must be processed and classified with high reliability.


翻译:本研究提出了一种融合LSTM、CNN与注意力机制的混合深度学习架构,旨在提升基于文本的网页内容分类性能。该模型采用预训练的GloVe词向量将词语表示为保留语义相似性的稠密向量。CNN层用于提取局部n-gram模式及词汇特征,而LSTM层则建模长距离依赖关系与序列结构。集成的注意力机制使模型能够选择性地关注输入序列中最具信息量的部分。通过五折交叉验证设置评估了所提方案的鲁棒性与泛化能力。实验结果表明,混合LSTM-CNN-Attention模型取得了卓越的性能,准确率达0.98,精确率为0.94,召回率为0.92,F1分数为0.93。这些结果超越了仅基于CNN、LSTM或Transformer架构分类器(如BERT)的基线模型性能。神经网络组件的组合使模型能够有效捕获细粒度文本结构与更广泛的语义上下文。此外,GloVe词向量的使用为文本数据提供了高效且有效的表示方式,使得该模型适用于集成到具有实时或近实时需求的系统中。所提出的混合架构在基于文本的网页内容分类中展现出高效性,尤其在需要同时进行句法特征提取与语义理解的任务中。通过融合所提出的机制,该模型克服了单一架构的局限性,实现了更好的泛化能力。这些发现支持了混合深度学习方法在自然语言处理应用中的更广泛使用,特别是在需要以高可靠性处理与分类复杂非结构化文本数据的场景中。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
专知会员服务
46+阅读 · 2020年10月22日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
专知会员服务
46+阅读 · 2020年10月22日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员