大数据算法＜一＞：hash函数分流 +文件建堆实现

今天看左神讲的这个题目首先考虑如何计数，也就是每一个url出现了多少次呢？使用布隆过滤。（还没学）使用hash函数进行分流，将相同的hash值取模的url放到同一个文件中。每一个url对应一个字符串hash。这个字符串hash对一个数取模那么这样同一种url就会进入一个文件中去。第二个问题,统计前100:先把100亿条数据使用hash函数进行分流，划分成不同文件。然后对于每一个文件建堆：进行一个h

天下一般

1094人浏览 · 2022-05-07 18:47:34

天下一般 · 2022-05-07 18:47:34 发布

今天看左神讲的这个题目

首先考虑如何计数，也就是每一个url出现了多少次呢？

使用布隆过滤。（还没学）
使用hash函数进行分流，将相同的hash值取模的url放到同一个文件中。
1. 每一个url对应一个字符串hash。
2. 这个字符串hash对一个数取模
3. 那么这样同一种url就会进入一个文件中去。

第二个问题,统计前100:

先把100亿条数据使用hash函数进行分流，划分成不同文件。
然后对于每一个文件建堆：
1. 进行一个hashMap的统计，url作为key, 词频作为value。
2. 按照value进行排序。
3. 把排好的内容放入磁盘中。
最后进行统计：
1. 首先进行建堆：从每个文件中读取第一条数据，然后将他们从文件中删除，把<文件名，文件数据> 存入大根堆中。
2. 然后在cnt < N 且堆不空时：
  1. 堆顶加入答案。
  2. 堆顶对应的文件，如果不空，读取第一条数据加入堆，并且删除第一条数据。
3. 知道满足统计了N条，或者堆为空(没有这么多种的url)的时候返回统计的答案。

这里记录下一些其他问题

文件统计之后是放在磁盘中，还是存储在内存中呢？
- 放在磁盘中，因为建立就算统计完成之后，url的数量依旧很多，可能到达10亿条。
如何更少的读取磁盘？
- 败者树(还没学)

详细代码请转到

在这里插入图片描述

这里写一下测试类与结果

package leetcode.categories.bigData;

import javafx.util.Pair;

import java.util.*;

public class Main {

    public static void main(String[] args) {

        // 划分文件，得到划分好的文件
        Division div = new Division();
        HashMap<String, List<String>>files = div.divInM();

        // 为每个文件建立堆
        BigHeap bg = new BigHeap(files);
        // 在内存中建立每一个文件的heap
        HashMap<String, Queue> mp = new HashMap<>();
        for (String file : files.keySet()) {
            Queue que = bg.build(file);
            mp.put(file, que);
        }
        // 进行统计
        CountTopN cnt = new CountTopN(3);
        List<Pair<String, Integer>> ans = cnt.workInMemory(mp);
        for (Pair<String, Integer> p : ans) {
            System.out.println(p.getKey() + " " + p.getValue());
        }
    }
}

获取前三名

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r