桶排序 (Bucket sort)的工作的原理:

假设输入数据服从均匀分布, 将数据分到有限数量的桶里,每 个桶再分别排序(有可能再使用 别的排序算法或是以递归方式继 续使用桶排序进行排序

 

编程思路


1、初始化桶的大小为K
2、获取 n 个数据中的最大值 max,最小值 min
3、将数据放入到 n/K +1 个桶中,a[i] 放入哪个桶的规则为 (a[i]-min)/k

4、对 n/K 个桶分别进行快速排序并输出。


import random


def quick_sort(data_list):
    length = len(data_list)
    quick_sort_c(data_list, 0, length - 1)


def quick_sort_c(data_list, begin, end):
    if begin >= end:
        return
    else:
        index = partition(data_list, begin, end)
        quick_sort_c(data_list, begin, index - 1)
        quick_sort_c(data_list, index + 1, end)


def partition(data_list, begin, end):
    partition_key = data_list[end]
    index = begin
    for i in range(begin, end):
        if data_list[i] < partition_key:
            data_list[i], data_list[index] = data_list[index], data_list[i]
            index += 1

    data_list[index], data_list[end] = data_list[end], data_list[index]

    return index


def find_top_k(data_list, k):
    length = len(data_list)
    begin = 0
    end = length - 1
    index = partition(data_list, begin, end)
    while index != length - k:
        if index > length - k:
            end = index - 1
            index = partition(data_list, begin, end)
        else:
            begin = index + 1
            index = partition(data_list, index + 1, end)

    return data_list[index]


def bucket_sort(data_list, bucket_size=5):
    length = len(data_list)
    min_ = max_ = data_list[0]

    # 寻找最小值和最大值
    for i in range(0, length):
        if data_list[i] < min_:
            min_ = data_list[i]
        if data_list[i] > max_:
            max_ = data_list[i]

    # 定义多个桶
    num_of_buckets = (max_ - min_) // bucket_size + 1
    buckets = [[] for _ in range(num_of_buckets)]

    # 将数据放入桶中
    for i in range(0, length):
        buckets[(data_list[i] - min_)//bucket_size].append(data_list[i])

    # 依次对桶内数据进行快速排序
    data_list.clear()

    for i in range(num_of_buckets):
        quick_sort(buckets[i])
        for data in buckets[i]:
            data_list.append(data)


data_list = [random.randint(0, 100) for i in range(10)]
print(data_list)
bucket_sort(data_list)
print(data_list)

桶排序适用场景

桶排序适合外部排序,外部排序就是数据在内存之外,比如磁盘上,数据量比较大,无法 一次性读入内存。

举个例子,假如老板给你一份 10 GB 大小的文件,是订单的交易明细数 据,要求你按订单金额从大到小排序,而你的内存内有 4GB,实际可用内存只有 2 GB, 那么此时就是桶排序发挥作用的时候了。

1. 将文件逐行读入内存(几乎每个编程语言都可 以),扫描并记录最小值,最大值,假如最小值为 1 元,最大值为 10 万元,且都为整数, 不是整数也没关系,可以先乘以 100 换成整数,排序后再除以 100 还原。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐