背景
NAS上面存储的可不只有媒体文件,还有各种格式的文档资料。部分用户属于文字工作者,对于这些文档的内容进行搜索也是很重要的一个需求,这一块可以参考一下威联通的qsirch
需求
- 主流文档格式支持:txt、md、pdf、office全家桶
- OCR图片文字内容识别,适用于各种票据、证件
- 部分PPT文档常用竖向文字排版,最好也能正确识别
- 支持按文档类型进行筛选搜索,能更精准,同时更省计算资源
- 搜索结果按相关度降序,并显示相关度指数
- 预览每个搜索结果,包括文件名,命中结果的相关段落上下文文本,源文件片段(方便人来判断)
- 一键发起文件分享
吐槽
就奇怪,这么刚的需求,搜遍了整个论坛没有人提 |