今天看啥  ›  专栏  ›  数据与算法之美

用 Python 实现一个大数据搜索引擎

数据与算法之美  · 公众号  · 算法  · 2018-02-17 18:23
搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。布隆过滤器 (Bloom Filter)第一步我们先要实现一个布隆过滤器。布隆过滤器是大数据领域的一个常见算法,它的目的是过滤掉那些不是目标的元素。也就是说如果一个要搜索的词并不存在与我的数据中,那么它可以以很快的速度返回目标不存在。让我们看看以下布隆过滤器的代码:class Bloomfilter(object):    """    A Bloom filter is a probabilistic data-structure that trades space for accuracy    when determining if a value is in a set.  It can tell you if a value was possibly    added, or if it was definitely not ad ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照