Ambar: Document Search Engine
Site:https://ambar.cloud/
Ambar是一个开源文档搜索引擎,具有自动爬取、OCR、标记和即时全文搜索功能。
项目地址:
https://github.com/RD17/ambar
Ambar定义了在工作流中实现全文文档搜索的新方法:
使用单个 docker-compose 文件就能轻松部署Ambar
在文档和图像内容中执行类似google的搜索
Ambar支持所有流行的文档格式,如果需要的话也可以执行OCR
给你的文档打标签
使用一个简单的REST Api将Ambar集成到你的工作流中
教程:掌握Ambar搜索查询
模糊搜索(John~3)
短语搜索("John Smith")
按作者搜索(作者:John)
按文件路径搜索(文件名:*.txt)
按日期搜索(时间:昨天,今天,上周等)
按大小搜索(大小> 1M)
按标签搜索(标签:ocr)
按你的输入进行搜索
支持的语言分析器:英语 ambar_en, 俄罗斯语 ambar_ru, 德语 ambar_de, 意大利语 ambar_it, 波兰语 ambar_pl, 中文 ambar_cn, 中日韩统一表意文字 ambar_cjk
Ambar 2.0仅支持本地fs抓取,如果你需要抓取FTP位置的SMB共享 —— 只需使用标准Linux工具挂载它。 爬取过程是自动的,因为爬虫会监视fs事件并自动处理新文件,所以不需要进行调度。
Ambar支持大文件提取(>30MB)
ZIP档案
邮件档案(PST)
MS Office文档(Word,Excel,Powerpoint,Visio,Publisher)
OCR图像
带附件的电子邮件
Adobe PDF(带OCR)
OCR支持的语言:Eng,Rus,Ita,Deu(德文),Fra,Spa,Pl(波兰语),Nld(荷兰文)
OpenOffice文档
RTF,纯文本档案
HTML / XHTML
多线程处理
安装
注意:Ambar要求在Docker运行,如果没有Docker将无法运行
请按照【安装指南】进行安装
Docker镜像请在Docker Hub上寻找
Ambar是完全开源的,你可以免费使用,你也可以从我们的团队获得专门的支持,但是需要付费。具体可查看项目“Support”部分介绍。
项目遵循MIT License
点击阅读原文,可查看本文划线链接部分内容