Minhash(最小哈希)是一种用于快速估计两个集合相似度(最常见是 Jaccard 相似度)的算法/技术。它通过对集合元素进行哈希并取“最小值”来生成短小的签名(signature),从而在大规模去重、近似检索、相似文档检测中高效工作。(在技术语境中也常写作 MinHash。)
/ˈmɪnˌhæʃ/
Minhash helps us find near-duplicate web pages quickly.
Minhash 可以帮助我们快速找到几乎重复的网页。
By computing Minhash signatures for each document and then using locality-sensitive hashing, the system can efficiently retrieve candidates that are likely to have high Jaccard similarity.
通过为每篇文档计算 Minhash 签名并结合局部敏感哈希(LSH),系统可以高效检索出那些很可能具有较高 Jaccard 相似度的候选项。
minhash 由 min(minimum,“最小”)+ hash(“哈希”)构成,字面意思是“取最小的哈希值”。该方法在信息检索与网络去重研究中广为传播,常与估计集合相似度的需求一起出现(尤其是用于近似计算 Jaccard 相似度)。