V2EX  ›  英汉词典

Minhash

释义 Definition

Minhash(最小哈希)是一种用于快速估计两个集合相似度(最常见是 Jaccard 相似度)的算法/技术。它通过对集合元素进行哈希并取“最小值”来生成短小的签名(signature),从而在大规模去重、近似检索、相似文档检测中高效工作。(在技术语境中也常写作 MinHash。)

发音 Pronunciation (IPA)

/ˈmɪnˌhæʃ/

例句 Examples

Minhash helps us find near-duplicate web pages quickly.
Minhash 可以帮助我们快速找到几乎重复的网页。

By computing Minhash signatures for each document and then using locality-sensitive hashing, the system can efficiently retrieve candidates that are likely to have high Jaccard similarity.
通过为每篇文档计算 Minhash 签名并结合局部敏感哈希(LSH),系统可以高效检索出那些很可能具有较高 Jaccard 相似度的候选项。

词源 Etymology

minhashmin(minimum,“最小”)+ hash(“哈希”)构成,字面意思是“取最小的哈希值”。该方法在信息检索与网络去重研究中广为传播,常与估计集合相似度的需求一起出现(尤其是用于近似计算 Jaccard 相似度)。

相关词 Related Words

文学与著作中的用例 Literary / Notable Works

  • Andrei Z. Broder, “On the resemblance and containment of documents”(1997)——经典论文,系统讨论了用于文档相似与包含关系估计的方法(MinHash 相关思想的代表性来源之一)。
  • Jure Leskovec, Anand Rajaraman, Jeff Ullman, “Mining of Massive Datasets”(《海量数据挖掘》)——在“相似项检索/去重”等章节中介绍 MinHash 与 LSH 的组合用法。
  • Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, “Introduction to Information Retrieval”(《信息检索导论》)——在近重复检测、集合相似度估计等主题中涉及 MinHash/相关技术。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   779 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 18:52 · PVG 02:52 · LAX 10:52 · JFK 13:52
♥ Do have faith in what you're doing.