跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • Elasticsearch 索引 html 文档有什么比较好的实践方案
未分類
2 9 月 2020

Elasticsearch 索引 html 文档有什么比较好的实践方案

Elasticsearch 索引 html 文档有什么比较好的实践方案

資深大佬 : NULL2020 16

索引的时候,可以自定义分词,添加 html_strip 过滤掉 html 标签不分词,但文档的 _source 里面还是会有 html 标签,因为需要做高亮,命中的高亮文本是从 _source 里面取的,如果命中的文本前后有 html 标签,则返回的高亮文本里也有可能会有标签,并且标签还有可能被截断,这就导致返回给前端无法准确展示。

数据使用 Logstash pipeline 从 mysql 同步到 es,目前想到的一个方案是在 pipeline 里加了 mutate,把所有 html 标签全部过滤掉,这样返回给前端的就只是纯文本,粗略看了下索引数据,基本满足要求。
如果不在数据写入 es 前过滤掉标签,有没有办法在搜索返回时过滤掉标签?

mutate 只是把 html 标签过滤掉,文档里还有些 url 链接(并可能带 url 参数),好像也会被索引到,有没有办法不索引 url 及后面的 url 参数。

以上,一般搜索引擎里如何实现把 html 标签过滤掉,同时返回的数据能够提供前端友好地展示?

大佬有話說 (1)

  • 主 資深大佬 : NULL2020

    emmm,没大佬赐教下吗。。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具