hash加速搜索的原理？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4090 天前的主题，其中的信息可能已经有所发展或是发生改变。

在网上下到2000w的csv，基于文本的搜索最快的的方式就是grep了吧。

1.那么如果 grep 'foo|bar' finename.txt 是否相当于先做一遍grep foo，再做一遍grep bar?

对大文件搜索才体会到了性能问题。

2.google的秒搜是基于一种什么思想呢？

http://v2ex.com/t/65589 这里提到

===========
我提供一个思路给你，在索引里面，定长数据查询效率要远远高于不定长数据，url是不定长数据，但是可以转变成为定长，如果散列足够随机，冲突不大的话，那么可以考虑，比如：
把url转换成为long值，hash(url) -> id
long值的范围是 2^64，说实话，我不认为你能达到产生冲突的可能性
然后做非uniq索引，在每次查询结果列表里面做遍历，在冲突小的情况下，每次基本返回一条数据。

如果你的数据量很小，允许一定误差，那就根本不考虑冲突的情况。

这其实就是hash的基本思想。
===========

hash都定长的话，就不需要通过诸如Knuth–Morris–Pratt algorithm的算法来匹配吗？

已读了

http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

http://en.wikipedia.org/wiki/String_searching_algorithm

Hash

grep

url

6 条回复 • 1970-01-01 08:00:00 +08:00