最近想搞一个项目。
抓一个 1000W 数据的站点。
前期考虑分批抓取。 这时候就有问题了。
有时候可能会碰到抓取链接重复的问题。
我现在想知道的是。 如何再抓取链接的部分就把重复链接进行放弃呢?
我看了很多方案都是抓取到最后的时候进行排除。