跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 网站内容同时存在多种语言的标题时, 怎么做搜索分词?
未分類
31 12 月 2020

网站内容同时存在多种语言的标题时, 怎么做搜索分词?

网站内容同时存在多种语言的标题时, 怎么做搜索分词?

資深大佬 : skypyb 3

RT.

假如一个网站需要支持文章搜索。
那么当文章标题可能存在 中文|日文 时, 这个文章应该如何分词? 用户输入时又如何分词?

来个好哥哥指点一下

大佬有話說 (9)

  • 資深大佬 : ryh

    个人觉得可以不用那么复杂,依照用户设置的显示什么语言 或者 header 里的 accept-language 搜那个语言的标题就好了,其他语言忽略

    显示中文 但搜 平假名 片假名 这种倒是好处理,搜日语的就行, 搜汉字的话你怎么处理,只有用户定义( client 设置 /自选)搜索语言

  • 資深大佬 : learningman

    你看看谷歌怎么处理的呗,你不定义就按网站语言来
    当然谷歌可能还有机器学习之类的东西,但这个方向应该没啥问题

  • 資深大佬 : niubee1

    ES 里存多条

  • 主 資深大佬 : skypyb

    @ryh
    @learningman

    网站就是中文网站, 但是站内内容可能会出现相当一部分的日文标题 (因为是二次元相关)
    如果只搜中文, 那就会漏东西了

  • 資深大佬 : YouLMAO

    “`
    1. title analyzer 设置中加日, 浪费索引速度 2 倍
    2. 当你知道这个视频包含日语, 比如只占 0.1%的视频, 则同时索引进 title 和 title_jp, 其他情况索引进 title
    “`

    当 query 包含日语, 同时搜索 title+title_jp

  • 資深大佬 : YouLMAO

    markdown 咋搞的, 不好用

  • 資深大佬 : leekafai

    p**b 好像就是这样,多语种 title 都可以搜索得到

  • 資深大佬 : zhuangjia

    @YouLMAO 仅主贴支持,评论不支持

  • 資深大佬 : huayumo

    上 elasticsearch 搜索引擎,数据库分词什么的鼓捣半天不如 es

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具