惊恐,红薯又出来写代码了,这次撸了个 HtmlSucker | 软件推介

2018 年 1 月 31 日 开源中国 oschina


全体 OSChina 官方程序员都吓屎了,因为红薯又写代码了。这次他撸了个 HtmlSucker ,这个名字一听就很猥琐有没有。而且其实也没什么x用,无非就是在不知道 HTML 页面规则的情况下,从一个 HTML 网页中提取文章的正文信息。用来干嘛呢? 反正肯定跟爬虫有关。

授权协议:WTFPL

开发语言:Java

操作系统:跨平台

软件作者:红薯


简介


HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、 封面图以及文章正文内容。基于 jsoup 库进行 HTML 解析。


HtmlSucker 提取文章正文的原理:分析整个 HTML 文档的所有节点,提取其中包含最多文字的的连续节点。


本项目部分代码参考 Crux 项目,例如 HeuristicString 类。


示例代码:


public static void main(String[] args) throws IOException {

    String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";

    System.out.println(HtmlSucker.parse(url, 20000));

}


输出结果:


title:撮合平台 1.0.1 发布 暴露远程调用接口 - 开源中国社区

keywords:开源中国,micro-match,撮合平台 1.0.1 发布 暴露远程调用接口

description:撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法 1,挂买单接口 2,挂卖单接口 3,撮合接口 4,撮合结果查询接口 详见:https://my.oschina.net/jeffreyning/blog/1612810...

author:

date:null

image:https://www.oschina.net/img/logo_s2.png

content:

<p style="margin:0 0 10px 0;"><a data-traceid="news_detail_above_text_link_1" data-tracepid="news_detail_above_text_link" style="color:#A00;font-weight:bold;" href="http://click.aliyun.com/m/18500/" target="_blank">阿里云高性能云服务器,2折起! &gt;&gt;&gt; &gt;&gt;&gt;</a>&nbsp;&nbsp;<img src="https://my.oschina.net/img/hot3.png" align="" style="max-height: 32px; max-width: 32px;"></p>

<p>撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法</p>

<p>1,挂买单接口</p>

<p>2,挂卖单接口</p>

<p>3,撮合接口</p>

<p>4,撮合结果查询接口</p>

<p>详见:<a data-cke-saved-href="https://my.oschina.net/jeffreyning/blog/1612810" href="https://my.oschina.net/jeffreyning/blog/1612810" target="_blank">https://my.oschina.net/jeffreyning/blog/1612810</a></p>


听说第一个版本还很弱智,原理是计算最大文本节点的方式来获取正文信息。(就这也好意思发布一个项目,难道欺负我朝无人吗?)


HtmlSucker 0.0.1 发布


Maven:


<dependency>

    <groupId>net.oschina.htmlsucker</groupId>

    <artifactId>HtmlSucker</artifactId>

    <version>0.0.1</version>

</dependency>


示例代码:


public static void main(String[] args) throws IOException {

    String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";

    System.out.println(HtmlSucker.parse(url, 20000));

}


源码地址:https://gitee.com/ld/HtmlSucker


对于红薯又偷偷出来写代码这事,巴叔已经忍无可忍了:



这个项目怎么样?大家快来留言吐槽啊!




推荐阅读

Nginx 系列实用教程:性能

GitHub 代码仓库数据解读:热度最高编程语言

教育部:AI、算法、开源硬件等进入全国高中新课标

2017 年度码云新增项目排行榜 TOP 50,为它们打“call

Bootstrap 4 正式发布!带来新的示例和新的主题

点击“阅读原文”查看更多精彩内容

登录查看更多
1

相关内容

关于开源中国社区 OSChina.NET 找到您想要的开源软件,分享和交流 开源中国社区简介: 开源中国社区 oschina.net 成立于2008年8月,其目的是为中国的IT技术人员提供一个全面的、快捷更新的用来检索开源软件以及交流使用开源经验的平台,目前开源中国社区已收录超过一万七千多款开源软件。
经过不断的改进,目前开源中国社区已经形成了由开源软件库、代码分享、资讯、讨论区和博客等几大频道内容。
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
34+阅读 · 2020年1月10日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
37+阅读 · 2019年10月9日
msf实现linux shell反弹
黑白之道
49+阅读 · 2019年8月16日
深大教授开源的人脸检测库,速度号称史上最快
大数据技术
9+阅读 · 2019年3月21日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
已删除
AI科技评论
4+阅读 · 2018年8月12日
Android P正式发布,你需要尽快做适配了
前端之巅
3+阅读 · 2018年8月7日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
4+阅读 · 2016年9月20日
VIP会员
相关资讯
msf实现linux shell反弹
黑白之道
49+阅读 · 2019年8月16日
深大教授开源的人脸检测库,速度号称史上最快
大数据技术
9+阅读 · 2019年3月21日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
已删除
AI科技评论
4+阅读 · 2018年8月12日
Android P正式发布,你需要尽快做适配了
前端之巅
3+阅读 · 2018年8月7日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
Top
微信扫码咨询专知VIP会员