HTML 正文内容提取库 Boilerpipe | 软件推介 - 专知

会员服务 ·

0

HTML 正文内容提取库 Boilerpipe | 软件推介

2018 年 1 月 29 日 开源中国

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息，提取出目标信息（如正文内容、发布时间）的 Java 库。

授权协议：Apache

开发语言：Java

操作系统：跨平台

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息，提取出目标信息（如正文内容、发布时间）的 Java 库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。

Boilerpipe 的包结构：

boilerpipe，根目录

document，文档包，定义了 boilerpipe 所处理文档数据类型，主要包括 TextDocument 和 TextBlock 。一个 TextDocument 即一个网页，由多个 TextBlock 构成。

lables，标签，每个 TextBlock 都有一个 lable 字段，表示该 TextBlock 的属性（如是不是正文）。

filters，过滤器，定义了多个过滤器，过滤器的作用即对 TextBlock 进行过滤，使用机器学习、统计、启发式方法等数据挖掘算法判断哪些 TextBlock 是所需要的（正文段），给 TextBlock 加上 lable ，去除无关的 TextBlock 。

sax，SAX 解析器，定义了从各种来源获取并解析网页的方法。

extractors，提取器，提取流程的入口。每个 extractor 都定义了自己的提取方法，通过调用不同的 filter 达到不同的处理效果。

conditions，条件判断，判断一个 TextBlock 是否满足特定的条件。

estimators，评估器，评估一个 extractor 对特定 document 的提取效果。

调用关系图示：

介绍内容摘自：CSDN

推荐阅读

Linus Torvalds 恶评 Intel 漏洞修复补丁：完全就是垃圾！

教育部：AI、算法、开源硬件等进入全国高中新课标

2017 年度码云新增项目排行榜 TOP 50，为它们打“call

Bootstrap 4 正式发布！带来新的示例和新的主题

Java 9 逆天的十大新特性

点击“阅读原文”查看更多精彩内容

登录查看更多

1

相关内容

HTML

超文本标记语言（英文：HyperText Markup Language，HTML）是为“网页创建和其它可在网页浏览器中看到的信息”设计的一种标记语言。

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

专知会员服务

270+阅读 · 2020年6月10日

Python导论，476页pdf，现代Python计算

Python导论，476页pdf，现代Python计算

专知会员服务

264+阅读 · 2020年5月17日

干净的数据：数据清洗入门与实践，204页pdf

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【2020关键词提取】使用多个本地功能从单个文档中提取关键字，YAKE! Keyword extraction from single documents using multiple local features

【2020关键词提取】使用多个本地功能从单个文档中提取关键字，YAKE! Keyword extraction from single documents using multiple local features

专知会员服务

26+阅读 · 2020年5月2日

算法与数据结构Python，369页pdf

算法与数据结构Python，369页pdf

专知会员服务

166+阅读 · 2020年3月4日

《代码整洁之道》：5大基本要点

《代码整洁之道》：5大基本要点

专知会员服务

50+阅读 · 2020年3月3日

数据标注研究综述，软件学报，19页pdf

数据标注研究综述，软件学报，19页pdf

专知会员服务

95+阅读 · 2020年2月20日

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

专知会员服务

183+阅读 · 2020年1月1日

【论文推荐】文本分析应用的NLP特征推荐

【论文推荐】文本分析应用的NLP特征推荐

专知会员服务

34+阅读 · 2019年12月8日

已删除

AI科技评论

4+阅读 · 2018年8月12日

2018年7月份GitHub开源项目排行榜

2018年7月份GitHub开源项目排行榜

算法与数据结构

15+阅读 · 2018年8月3日

跨框架深度学习可视化框架 VisualDL | 软件推介

跨框架深度学习可视化框架 VisualDL | 软件推介

开源中国

3+阅读 · 2018年4月26日

干货 | Python 爬虫的工具列表大全

干货 | Python 爬虫的工具列表大全

机器学习算法与Python学习

11+阅读 · 2018年4月13日

【推荐】中文处理(BiLSTM分词)工具包FoolNLTK

【推荐】中文处理(BiLSTM分词)工具包FoolNLTK

机器学习研究会

6+阅读 · 2017年12月27日

FoolNLTK：可能是目前最准的中文分词工具 | 软件推介

FoolNLTK：可能是目前最准的中文分词工具 | 软件推介

开源中国

7+阅读 · 2017年12月23日

【回顾】机器学习中的数学基础

【回顾】机器学习中的数学基础

AI研习社

6+阅读 · 2017年11月7日

【推荐】自动特征工程开源框架

【推荐】自动特征工程开源框架

机器学习研究会

17+阅读 · 2017年11月7日

Face Recognition —— Python 的人脸识别库 | 软件推介

Face Recognition —— Python 的人脸识别库 | 软件推介

开源中国

3+阅读 · 2017年8月5日

33款可用来抓数据的开源爬虫软件工具 (推荐收藏)

33款可用来抓数据的开源爬虫软件工具 (推荐收藏)

数据科学浅谈

7+阅读 · 2017年7月29日

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

Arxiv

17+阅读 · 2020年6月2日

A Survey on Trajectory Data Management, Analytics, and Learning

A Survey on Trajectory Data Management, Analytics, and Learning

Arxiv

16+阅读 · 2020年3月25日

DDTCDR: Deep Dual Transfer Cross Domain Recommendation

Arxiv

5+阅读 · 2019年10月11日

How do you correct run-on sentences it's not as easy as it seems

Arxiv

4+阅读 · 2018年9月21日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

5+阅读 · 2018年4月5日

VizWiz Grand Challenge: Answering Visual Questions from Blind People

Arxiv

3+阅读 · 2018年4月2日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots

Arxiv

11+阅读 · 2018年1月6日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

3+阅读 · 2017年11月24日

LA-LDA: A Limited Attention Topic Model for Social Recommendation

Arxiv

3+阅读 · 2013年1月26日

VIP会员

相关主题

相关VIP内容

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

专知会员服务

270+阅读 · 2020年6月10日

Python导论，476页pdf，现代Python计算

Python导论，476页pdf，现代Python计算

专知会员服务

264+阅读 · 2020年5月17日

干净的数据：数据清洗入门与实践，204页pdf

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【2020关键词提取】使用多个本地功能从单个文档中提取关键字，YAKE! Keyword extraction from single documents using multiple local features

【2020关键词提取】使用多个本地功能从单个文档中提取关键字，YAKE! Keyword extraction from single documents using multiple local features

专知会员服务

26+阅读 · 2020年5月2日

算法与数据结构Python，369页pdf

算法与数据结构Python，369页pdf

专知会员服务

166+阅读 · 2020年3月4日

《代码整洁之道》：5大基本要点

《代码整洁之道》：5大基本要点

专知会员服务

50+阅读 · 2020年3月3日

数据标注研究综述，软件学报，19页pdf

数据标注研究综述，软件学报，19页pdf

专知会员服务

95+阅读 · 2020年2月20日

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

专知会员服务

183+阅读 · 2020年1月1日

【论文推荐】文本分析应用的NLP特征推荐

【论文推荐】文本分析应用的NLP特征推荐

专知会员服务

34+阅读 · 2019年12月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

已删除

AI科技评论

4+阅读 · 2018年8月12日

2018年7月份GitHub开源项目排行榜

2018年7月份GitHub开源项目排行榜

算法与数据结构

15+阅读 · 2018年8月3日

跨框架深度学习可视化框架 VisualDL | 软件推介

跨框架深度学习可视化框架 VisualDL | 软件推介

开源中国

3+阅读 · 2018年4月26日

干货 | Python 爬虫的工具列表大全

干货 | Python 爬虫的工具列表大全

机器学习算法与Python学习

11+阅读 · 2018年4月13日

【推荐】中文处理(BiLSTM分词)工具包FoolNLTK

【推荐】中文处理(BiLSTM分词)工具包FoolNLTK

机器学习研究会

6+阅读 · 2017年12月27日

FoolNLTK：可能是目前最准的中文分词工具 | 软件推介

FoolNLTK：可能是目前最准的中文分词工具 | 软件推介

开源中国

7+阅读 · 2017年12月23日

【回顾】机器学习中的数学基础

【回顾】机器学习中的数学基础

AI研习社

6+阅读 · 2017年11月7日

【推荐】自动特征工程开源框架

【推荐】自动特征工程开源框架

机器学习研究会

17+阅读 · 2017年11月7日

Face Recognition —— Python 的人脸识别库 | 软件推介

Face Recognition —— Python 的人脸识别库 | 软件推介

开源中国

3+阅读 · 2017年8月5日

33款可用来抓数据的开源爬虫软件工具 (推荐收藏)

33款可用来抓数据的开源爬虫软件工具 (推荐收藏)

数据科学浅谈

7+阅读 · 2017年7月29日

相关论文

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

Arxiv

17+阅读 · 2020年6月2日

A Survey on Trajectory Data Management, Analytics, and Learning

A Survey on Trajectory Data Management, Analytics, and Learning

Arxiv

16+阅读 · 2020年3月25日

DDTCDR: Deep Dual Transfer Cross Domain Recommendation

Arxiv

5+阅读 · 2019年10月11日

How do you correct run-on sentences it's not as easy as it seems

Arxiv

4+阅读 · 2018年9月21日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

5+阅读 · 2018年4月5日

VizWiz Grand Challenge: Answering Visual Questions from Blind People

Arxiv

3+阅读 · 2018年4月2日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots

Arxiv

11+阅读 · 2018年1月6日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

3+阅读 · 2017年11月24日

LA-LDA: A Limited Attention Topic Model for Social Recommendation

Arxiv

3+阅读 · 2013年1月26日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员