(点击上方公众号,可快速关注)
来源:伯乐在线 - 刘立华
LingPipe是运用计算机语言学处理文本信息的工具包,可用于如下任务:
在新闻中查找人名、组织或位置。
自动分类Twitter搜索结果。
提供查询的正确拼写建议。
架构
LingPipe的架构是有效的、可扩展的、可重用的、健壮的。亮点包括:
Java API源码和单元测试;
多语种、多域、集成型模式;
用新任务的新数据训练;
n最优统计的置信度估计输出;
在线训练;
线程安全模型和并发读同步独占写(concurrent-read exclusive-write)解码器;
字符编码敏感的I/O。
教程列表
主题分类
通过人物语言模型分类新闻文章。
http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html
命名实体识别
介绍如何运行、训练和评估命名实体识别器。
http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
聚类
单连接和完整连接的层次聚类器图,包括各种聚类评估技术。
http://alias-i.com/lingpipe/demos/tutorial/cluster/read-me.html
词性标注
介绍如何从语料库用标签解析器和处理器训练词性标注器,如何编译模型到磁盘并读取,如何运行并评估第一次最佳、第n次最佳及置信得分标注器(confidence-scored taggers)。
http://alias-i.com/lingpipe/demos/tutorial/posTags/read-me.html
句子检测
介绍如何使用分块接口检测语句等。
http://alias-i.com/lingpipe/demos/tutorial/sentences/read-me.html
拼写校正
类似搜索引擎的拼写检查,介绍如何调整和训练模型。
http://alias-i.com/lingpipe/demos/tutorial/querySpellChecker/read-me.html
数据库文本挖掘
第一部分使用MEDLINE引用JDBC填充MySQL数据库。第二部分运行数据库脚本创建表和实体。第三部分介绍如何通过数据库查询做数据库文本挖掘。
http://alias-i.com/lingpipe/demos/tutorial/db/read-me.html
字符串比较
介绍如何使用距离和接近措施结束字符串,包括加权编辑距离,TF/IDF距离等。
http://alias-i.com/lingpipe/demos/tutorial/stringCompare/read-me.html
兴趣短语检测
从一个语料库中统计显著多字词组和相对的“热词”的提取
http://alias-i.com/lingpipe/demos/tutorial/interestingPhrases/read-me.html
人物语言建模
训练和调整人物语言模型。
http://alias-i.com/lingpipe/demos/tutorial/lm/read-me.html
中文分词
介绍了如何细分中文字符成不同的话。
http://alias-i.com/lingpipe/demos/tutorial/chineseTokens/read-me.html
连接符和音节
展示了如何从训练数据字典中训练连字符和音节。例如荷兰语、英语和德语。
http://alias-i.com/lingpipe/demos/tutorial/hyphenation/read-me.html
情感分析
使用语言模型的分类做电影评论的情感分析。
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
语言识别
语言识别作为分类问题
http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html
奇异值分解
使用奇异值分解因子矩阵。解释了如何处理位置值估算、正规化、调优参数设置。
http://alias-i.com/lingpipe/demos/tutorial/svd/read-me.html
逻辑回归
介绍了如何为判别标准估计正规化多项式逻辑回归模型。
http://alias-i.com/lingpipe/demos/tutorial/logistic-regression/read-me.html
期望最大化
介绍了如何为半监督学习(semi-supervised learning)各种任务使用期望最大化。
http://alias-i.com/lingpipe/demos/tutorial/em/read-me.html
词义消歧
词义消歧是根据一个词的上下文确定一个词的含义的过程,用于分类、搜索、聚类等。
http://alias-i.com/lingpipe/demos/tutorial/wordSense/read-me.html
Eclipse
使用Eclipse IDE编译和测试LingPipe的基本说明。
http://alias-i.com/lingpipe/demos/tutorial/eclipse/read-me.html
开发文档
教程
http://alias-i.com/lingpipe/demos/tutorial/read-me.html
下载
http://alias-i.com/lingpipe/web/download.html
API文档
http://alias-i.com/lingpipe/docs/api/index.html
Demos
http://alias-i.com/lingpipe/web/demos.html
【关于投稿】
如果大家有原创好文投稿,请直接给公号发送留言。
① 留言格式:
【投稿】+《 文章标题》+ 文章链接
② 示例:
【投稿】《不要自称是程序员,我十多年的 IT 职场总结》:http://blog.jobbole.com/94148/
③ 最后请附上您的个人简介哈~
看完本文有收获?请转发分享给更多人
关注「ImportNew」,提升Java技能