V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
skypyb
V2EX  ›  程序员

网站内容同时存在多种语言的标题时, 怎么做搜索分词?

  •  
  •   skypyb · 2021-01-03 13:12:03 +08:00 · 1534 次点击
    这是一个创建于 1429 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT.

    假如一个网站需要支持文章搜索。
    那么当文章标题可能存在 中文|日文 时, 这个文章应该如何分词? 用户输入时又如何分词?


    来个好哥哥指点一下

    9 条回复    2021-01-04 16:14:20 +08:00
    ryh
        1
    ryh  
       2021-01-03 13:28:50 +08:00
    个人觉得可以不用那么复杂,依照用户设置的显示什么语言 或者 header 里的 accept-language 搜那个语言的标题就好了,其他语言忽略

    显示中文 但搜 平假名 片假名 这种倒是好处理,搜日语的就行, 搜汉字的话你怎么处理,只有用户定义( client 设置 /自选)搜索语言
    learningman
        2
    learningman  
       2021-01-03 13:56:34 +08:00
    你看看谷歌怎么处理的呗,你不定义就按网站语言来
    当然谷歌可能还有机器学习之类的东西,但这个方向应该没啥问题
    niubee1
        3
    niubee1  
       2021-01-03 14:05:52 +08:00
    ES 里存多条
    skypyb
        4
    skypyb  
    OP
       2021-01-03 15:40:33 +08:00
    @ryh
    @learningman

    网站就是中文网站, 但是站内内容可能会出现相当一部分的日文标题 (因为是二次元相关)
    如果只搜中文, 那就会漏东西了 😂
    YouLMAO
        5
    YouLMAO  
       2021-01-03 16:03:18 +08:00
    ```
    1. title analyzer 设置中加日, 浪费索引速度 2 倍
    2. 当你知道这个视频包含日语, 比如只占 0.1%的视频, 则同时索引进 title 和 title_jp, 其他情况索引进 title
    ```

    当 query 包含日语, 同时搜索 title+title_jp
    YouLMAO
        6
    YouLMAO  
       2021-01-03 16:04:20 +08:00
    markdown 咋搞的, 不好用
    leekafai
        7
    leekafai  
       2021-01-04 10:11:46 +08:00
    p**b 好像就是这样,多语种 title 都可以搜索得到
    zhuangjia
        8
    zhuangjia  
       2021-01-04 10:14:17 +08:00
    @YouLMAO 仅主贴支持,评论不支持
    huayumo
        9
    huayumo  
       2021-01-04 16:14:20 +08:00
    上 elasticsearch 搜索引擎,数据库分词什么的鼓捣半天不如 es
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5537 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 07:45 · PVG 15:45 · LAX 23:45 · JFK 02:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.