Github项目推荐 | Ambar:开源的文档搜素引擎

2019 年 3 月 5 日 AI研习社

Ambar: Document Search Engine

Site:https://ambar.cloud/ 

Ambar是一个开源文档搜索引擎,具有自动爬取、OCR、标记和即时全文搜索功能。


项目地址:

https://github.com/RD17/ambar 


Ambar定义了在工作流中实现全文文档搜索的新方法:

  • 使用单个 docker-compose 文件就能轻松部署Ambar

  • 在文档和图像内容中执行类似google的搜索

  • Ambar支持所有流行的文档格式,如果需要的话也可以执行OCR

  • 给你的文档打标签

  • 使用一个简单的REST Api将Ambar集成到你的工作流中

特点

  • 搜索

教程:掌握Ambar搜索查询

  • 模糊搜索(John~3)

  • 短语搜索("John Smith")

  • 按作者搜索(作者:John)

  • 按文件路径搜索(文件名:*.txt)

  • 按日期搜索(时间:昨天,今天,上周等)

  • 按大小搜索(大小> 1M)

  • 按标签搜索(标签:ocr)

  • 按你的输入进行搜索

  • 支持的语言分析器:英语 ambar_en, 俄罗斯语 ambar_ru, 德语 ambar_de, 意大利语 ambar_it, 波兰语  ambar_pl, 中文 ambar_cn, 中日韩统一表意文字 ambar_cjk

  • 爬取

Ambar 2.0仅支持本地fs抓取,如果你需要抓取FTP位置的SMB共享 —— 只需使用标准Linux工具挂载它。 爬取过程是自动的,因为爬虫会监视fs事件并自动处理新文件,所以不需要进行调度。

  • 内容提取

  • Ambar支持大文件提取(>30MB)

  • ZIP档案

  • 邮件档案(PST)

  • MS Office文档(Word,Excel,Powerpoint,Visio,Publisher)

  • OCR图像

  • 带附件的电子邮件

  • Adobe PDF(带OCR)

  • OCR支持的语言:Eng,Rus,Ita,Deu(德文),Fra,Spa,Pl(波兰语),Nld(荷兰文)

  • OpenOffice文档

  • RTF,纯文本档案

  • HTML / XHTML

  • 多线程处理

安装

注意:Ambar要求在Docker运行,如果没有Docker将无法运行

请按照【安装指南】进行安装

Docker镜像请在Docker Hub上寻找

支持

Ambar是完全开源的,你可以免费使用,你也可以从我们的团队获得专门的支持,但是需要付费。具体可查看项目“Support”部分介绍。

隐私政策

License

项目遵循MIT License

点击阅读原文,可查看本文划线链接部分内容

登录查看更多
7

相关内容

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
179+阅读 · 2020年1月1日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
87+阅读 · 2019年11月25日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
29+阅读 · 2019年10月17日
Windows开源无人机仿真工具:AirSim1.0 入门
无人机
25+阅读 · 2019年6月8日
Github项目推荐 | pikepdf - Python的PDF读写库
AI研习社
9+阅读 · 2019年3月29日
Github项目推荐 | gensim - Python中的主题建模
AI研习社
15+阅读 · 2019年3月16日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
推荐|Google最热门31款开源项目资源
全球人工智能
4+阅读 · 2017年11月24日
33款可用来抓数据的开源爬虫软件工具 (推荐收藏)
数据科学浅谈
7+阅读 · 2017年7月29日
用python和Tesseract实现光学字符识别(OCR)
Python程序员
7+阅读 · 2017年7月18日
Arxiv
9+阅读 · 2019年11月6日
Arxiv
8+阅读 · 2019年3月28日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
相关资讯
Windows开源无人机仿真工具:AirSim1.0 入门
无人机
25+阅读 · 2019年6月8日
Github项目推荐 | pikepdf - Python的PDF读写库
AI研习社
9+阅读 · 2019年3月29日
Github项目推荐 | gensim - Python中的主题建模
AI研习社
15+阅读 · 2019年3月16日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
推荐|Google最热门31款开源项目资源
全球人工智能
4+阅读 · 2017年11月24日
33款可用来抓数据的开源爬虫软件工具 (推荐收藏)
数据科学浅谈
7+阅读 · 2017年7月29日
用python和Tesseract实现光学字符识别(OCR)
Python程序员
7+阅读 · 2017年7月18日
Top
微信扫码咨询专知VIP会员