c++多线程库tbb

本文主要讲tbb的基本使用

m0_54069809

1649人浏览 · 2025-04-28 08:15:04

m0_54069809 · 2025-04-28 08:15:04 发布

tbb

深入浅出 Intel Threading Building Blocks (TBB)：解锁 C++ 并行编程的利器

深入浅出 Intel Threading Building Blocks (TBB)：解锁 C++ 并行编程的利器

在当今多核处理器已成主流的时代，如何充分利用硬件资源、提升软件性能，成为每一位软件工程师必须面对的挑战。传统的基于线程（如 Pthreads、Windows Threads）的并行编程模型虽然强大，但往往伴随着复杂的线程管理、同步、负载均衡等问题，开发效率和代码可维护性常常不尽人意。为了应对这些挑战，Intel 推出了 Threading Building Blocks (TBB)，一个旨在简化 C++ 并行程序开发的高性能库。

TBB 凭借其基于 任务（Task） 而非线程的抽象、高效的 工作窃取（Work-Stealing） 调度器以及丰富的 并行算法 和 并发容器，极大地提高了 C++ 并行编程的生产力和最终性能。本文将带你深入了解 TBB 的核心概念，详细介绍其常用组件和函数，并结合实际代码案例进行演示。

TBB 的核心理念：任务并行与工作窃取

TBB 的设计哲学与传统线程库有所不同。它鼓励开发者思考 “有哪些任务可以并行执行”，而不是 “如何管理线程”。开发者定义独立的任务单元，TBB 的运行时库（Runtime Library）负责将这些任务高效地映射到物理线程上执行。

其核心调度机制是 工作窃取（Work-Stealing）：

TBB 维护一个全局或局部的任务队列池。
每个工作线程（通常数量等于或接近核心数）拥有自己的双端任务队列（Deque）。
当一个线程完成自己的任务后，它会尝试从自己的队列尾部获取新任务（LIFO，有利于缓存局部性）。
如果自己的队列为空，它会随机选择另一个“受害者”线程，并尝试从该线程队列的头部 “窃取”一个任务（FIFO，窃取较大的任务块，减少窃取频率）。

这种机制天然地实现了 动态负载均衡，避免了某些线程空闲而另一些线程过载的情况，同时也减少了对显式同步的需求。开发者只需要关注任务的划分，而将复杂的调度和同步交给 TBB 处理。

环境准备

建议使用qt编译，qt编译既简单又方便是c++开发很好的工具
在使用 TBB 之前，你需要先获取并配置好库。可以通过以下方式：

Intel oneAPI Base Toolkit: 推荐的方式，包含了 TBB 以及其他性能库和工具。
独立下载: 从 TBB 的 GitHub Releases 页面下载预编译包或源码。
包管理器: 在 Linux 系统上，通常可以使用 apt (Debian/Ubuntu) 或 yum/dnf (Fedora/CentOS/RHEL) 安装，例如 sudo apt install libtbb-dev。在 macOS 上，可以使用 brew install tbb。

编译与链接:
使用 TBB 编写的代码通常需要包含相应的头文件（如 <tbb/parallel_for.h>），并在编译链接时指定 TBB 库。对于 GCC 或 Clang，通常需要添加 -ltbb 链接选项：

g++ my_program.cpp -o my_program -std=c++11 -ltbb

TBB 核心组件详解与示例

接下来，我们将深入探讨 TBB 中最常用、最核心的几个组件。

1. `tbb::parallel_for`：并行化循环

这是 TBB 中最基本也是最常用的并行算法，用于将独立的循环迭代并行化。它特别适用于那些循环体之间没有依赖关系（或只有易于处理的依赖）的 for 循环。

接口概要:

#include <tbb/parallel_for.h>

template<typename Range, typename Body>
void parallel_for(const Range& range, const Body& body);

range: 定义了迭代空间。通常使用 tbb::blocked_range<IndexType>(begin, end, grainsize)。
- begin: 循环起始索引（包含）。
- end: 循环结束索引（不包含）。
- grainsize (可选): 建议的任务粒度。TBB 调度器会尝试将 range 划分成大小至少为 grainsize 的子任务块。选择合适的 grainsize 对性能至关重要。如果省略，TBB 会自动选择。
body: 一个函数对象（或 Lambda 表达式），接收一个 Range 类型的参数，并处理该范围内的迭代。

示例：并行初始化数组

#include <iostream>
#include <vector>
#include <tbb/parallel_for.h>
#include <tbb/blocked_range.h>
#include <chrono> // 用于计时

int main() {
    const size_t N = 10000000; // 处理大量数据
    std::vector<double> data(N);

    std::cout << "Starting parallel initialization..." << std::endl;
    auto start_time = std::chrono::high_resolution_clock::now();

    // 使用 tbb::parallel_for 并行初始化
    tbb::parallel_for(tbb::blocked_range<size_t>(0, N), // 迭代范围 [0, N)
        [&](const tbb::blocked_range<size_t>& r) { // Lambda 作为 Body
            // r 代表当前线程负责处理的子范围
            for (size_t i = r.begin(); i != r.end(); ++i) {
                data[i] = static_cast<double>(i * i); // 独立的计算
            }
        }
    );

    auto end_time = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end_time - start_time);
    std::cout << "Parallel initialization finished in " << duration.count() << " ms." << std::endl;

    // (可选) 验证一两个值
    // std::cout << "data[10] = " << data[10] << std::endl;
    // std::cout << "data[N-1] = " << data[N-1] << std::endl;

    return 0;
}

编译与运行:

g++ parallel_init.cpp -o parallel_init -std=c++11 -ltbb
./parallel_init

在这个例子中，TBB 自动将 [0, N) 的范围划分为多个子范围，并将这些子范围分配给不同的线程并行执行 Lambda 函数体内的 for 循环。

2. `tbb::parallel_reduce`：并行规约

parallel_reduce 用于执行并行规约操作，即将一个范围内的元素通过某种二元操作（如求和、求积、找最大/最小值）合并成一个最终结果。这是 MapReduce 模式的一种体现。

接口概要:

#include <tbb/parallel_reduce.h>

template<typename Range, typename Value, typename RealBody, typename Reduction>
Value parallel_reduce(const Range& range, const Value& identity,
                      const RealBody& real_body, const Reduction& reduction);

range: 迭代空间，同 parallel_for。
identity: 规约操作的幺元（Identity Element）。例如，加法的幺元是 0，乘法的幺元是 1。
real_body: 一个函数对象，接收 Range 和一个初始值（通常是 identity 的副本），计算该范围内的部分结果并返回。
reduction: 一个二元函数对象，用于合并两个部分结果。

示例：并行计算数组元素之和

#include <iostream>
#include <vector>
#include <numeric> // for std::accumulate (sequential comparison)
#include <tbb/parallel_reduce.h>
#include <tbb/blocked_range.h>
#include <chrono>

int main() {
    const size_t N = 10000000;
    std::vector<double> data(N);
    // 先填充一些数据 (这里简单填充)
    for (size_t i = 0; i < N; ++i) {
        data[i] = 1.0;
    }

    std::cout << "Starting parallel reduction (sum)..." << std::endl;
    auto start_time = std::chrono::high_resolution_clock::now();

    // 使用 tbb::parallel_reduce 计算总和
    double parallel_sum = tbb::parallel_reduce(
        tbb::blocked_range<size_t>(0, N), // 范围
        0.0, // 初始值/幺元 (double)
        [&](const tbb::blocked_range<size_t>& r, double init) -> double {
            // 计算子范围的和
            double sub_sum = init;
            for (size_t i = r.begin(); i != r.end(); ++i) {
                sub_sum += data[i];
            }
            return sub_sum;
        },
        [](double x, double y) -> double {
            // 合并两个子范围的结果
            return x + y;
        }
    );

    auto end_time = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end_time - start_time);
    std::cout << "Parallel reduction finished in " << duration.count() << " ms." << std::endl;
    std::cout << "Parallel Sum: " << parallel_sum << std::endl;

    // (可选) 串行计算进行验证
    // double sequential_sum = std::accumulate(data.begin(), data.end(), 0.0);
    // std::cout << "Sequential Sum: " << sequential_sum << std::endl;

    return 0;
}

编译与运行:

g++ parallel_sum.cpp -o parallel_sum -std=c++11 -ltbb
./parallel_sum

在这个例子中，TBB 将范围划分，每个线程使用 real_body 计算子范围的部分和（从 identity 开始）。然后，TBB 使用 reduction 操作将这些部分和两两合并，直到得到最终的总和。

3. `tbb::parallel_invoke`：并行执行多个独立任务

当你需要同时执行少数几个（通常是 2 到 10 个）完全独立的函数或任务时，parallel_invoke 是一个简洁高效的选择。

接口概要:

#include <tbb/parallel_invoke.h>

template<typename Func1, typename Func2, ..., typename FuncN>
void parallel_invoke(const Func1& f1, const Func2& f2, ..., const FuncN& fN);

它接收 2 到 10 个可调用对象（函数指针、函数对象、Lambda 表达式）作为参数。
TBB 会尝试并行地执行这些任务。

示例：并行执行两个不同的计算函数

#include <iostream>
#include <vector>
#include <cmath> // for std::sin, std::cos
#include <tbb/parallel_invoke.h>
#include <chrono>
#include <thread> // for std::this_thread::sleep_for

// 模拟一个耗时计算任务 A
void compute_task_A(std::vector<double>& result) {
    std::cout << "Task A started on thread " << std::this_thread::get_id() << std::endl;
    // 模拟一些工作
    for (size_t i = 0; i < result.size(); ++i) {
        result[i] = std::sin(static_cast<double>(i) * 0.01);
    }
    std::this_thread::sleep_for(std::chrono::milliseconds(100)); // 模拟耗时
    std::cout << "Task A finished." << std::endl;
}

// 模拟另一个耗时计算任务 B
void compute_task_B(std::vector<double>& result) {
    std::cout << "Task B started on thread " << std::this_thread::get_id() << std::endl;
    // 模拟一些工作
    for (size_t i = 0; i < result.size(); ++i) {
        result[i] = std::cos(static_cast<double>(i) * 0.01);
    }
    std::this_thread::sleep_for(std::chrono::milliseconds(150)); // 模拟耗时
    std::cout << "Task B finished." << std::endl;
}


int main() {
    const size_t N = 500000;
    std::vector<double> resultA(N);
    std::vector<double> resultB(N);

    std::cout << "Starting parallel invoke..." << std::endl;
    auto start_time = std::chrono::high_resolution_clock::now();

    // 使用 tbb::parallel_invoke 并行执行两个任务
    tbb::parallel_invoke(
        [&] { compute_task_A(resultA); }, // 第一个任务 (Lambda 包装)
        [&] { compute_task_B(resultB); }  // 第二个任务 (Lambda 包装)
    );

    auto end_time = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end_time - start_time);
    std::cout << "Parallel invoke finished in " << duration.count() << " ms." << std::endl;
    // 总耗时约等于 max(100ms, 150ms)，而不是 100ms + 150ms

    return 0;
}

编译与运行:

g++ parallel_invoke_tasks.cpp -o parallel_invoke_tasks -std=c++11 -pthread -ltbb # 可能需要 -pthread
./parallel_invoke_tasks

你会观察到 Task A 和 Task B 很可能在不同的线程上并发执行，总执行时间接近于两者中较长的那个任务的执行时间。

4. 并发容器（Concurrent Containers）

在多线程环境中，访问标准库容器（如 std::vector, std::map）通常需要外部加锁来保证线程安全，这会引入复杂性和潜在的性能瓶颈。TBB 提供了一系列线程安全的并发容器，它们内部处理了同步，允许多个线程同时进行（某些）操作。

tbb::concurrent_vector<T>: 线程安全的动态数组。允许多个线程同时 push_back（或 grow_by/grow_to_at_least），读取操作也是线程安全的。它比使用互斥锁保护的 std::vector 通常有更好的伸缩性。
tbb::concurrent_queue<T>: 线程安全的无界队列。支持并发的 push 和 try_pop 操作。
tbb::concurrent_bounded_queue<T>: 线程安全的有界队列。当队列满时 push 会阻塞，队列空时 pop 会阻塞。
tbb::concurrent_hash_map<Key, T, HashCompare>: 线程安全的哈希表。允许多个线程并发地进行插入、查找、删除操作。

示例：使用 tbb::concurrent_vector 进行并行填充

#include <iostream>
#include <vector>
#include <tbb/concurrent_vector.h>
#include <tbb/parallel_for.h>
#include <tbb/blocked_range.h>

int main() {
    tbb::concurrent_vector<int> concurrent_vec;
    const size_t N = 10000;

    // 并行地向 concurrent_vector 添加元素
    // 注意：直接在 parallel_for 中 push_back 可能效率不高，
    // 因为每次 push_back 都可能涉及内存分配和同步。
    // 更高效的方式通常是预先知道大小或者使用 grow_by / grow_to_at_least
    // 或者每个线程填充局部 vector 再合并。
    // 这里为了演示 concurrent_vector 的线程安全 push_back，使用简单方式：
    std::cout << "Starting parallel push_back..." << std::endl;

    tbb::parallel_for(tbb::blocked_range<size_t>(0, N),
        [&](const tbb::blocked_range<size_t>& r) {
            for (size_t i = r.begin(); i != r.end(); ++i) {
                concurrent_vec.push_back(static_cast<int>(i)); // 线程安全的添加
            }
        }
    );

    std::cout << "Parallel push_back finished." << std::endl;
    std::cout << "Concurrent vector size: " << concurrent_vec.size() << std::endl;

    // 验证大小（理论上应该是 N，但由于并发 push_back 的复杂性，顺序不保证）
    if (concurrent_vec.size() == N) {
        std::cout << "Size matches N." << std::endl;
    } else {
        std::cout << "Size does NOT match N. (Size: " << concurrent_vec.size() << ")" << std::endl;
         // 注意：虽然 push_back 是线程安全的，但最终大小为 N 并不意味着元素就是 0 到 N-1 且无重复。
         // 如果需要精确控制插入，可能需要其他策略。这里的重点是展示并发插入的能力。
         // 更可靠的用法是用 grow_to_at_least 预分配，然后用 parallel_for 配合索引访问赋值。
    }

    // 示例：更推荐的用法（预分配空间 + 并行索引赋值）
    tbb::concurrent_vector<int> concurrent_vec_better;
    concurrent_vec_better.grow_to_at_least(N); // 线程安全地预分配空间

    tbb::parallel_for(tbb::blocked_range<size_t>(0, N),
        [&](const tbb::blocked_range<size_t>& r) {
            for (size_t i = r.begin(); i != r.end(); ++i) {
                concurrent_vec_better[i] = static_cast<int>(i * 2); // 线程安全地通过索引赋值
            }
        }
    );
     std::cout << "Concurrent vector (better approach) size: " << concurrent_vec_better.size() << std::endl;
     // std::cout << "Element [10]: " << concurrent_vec_better[10] << std::endl;


    return 0;
}

编译与运行:

g++ concurrent_vec_example.cpp -o concurrent_vec_example -std=c++11 -ltbb
./concurrent_vec_example

这个例子展示了 concurrent_vector 如何允许多个线程安全地添加元素。同时，也指出了直接并发 push_back 的潜在效率问题和更优的使用模式。

5. 其他重要组件

Synchronization Primitives: TBB 也提供了底层的同步原语，如 tbb::mutex, tbb::spin_mutex, tbb::queuing_mutex, 以及对应的 scoped_lock。但 TBB 的哲学是尽可能使用高级抽象（并行算法、并发容器）来避免显式锁。
tbb::task_group: 提供了比 parallel_invoke 更灵活的方式来管理一组动态生成的、可能相互依赖的任务。
tbb::flow_graph: 用于构建复杂的、基于依赖关系的数据流和任务图。适用于流水线、依赖驱动执行等更高级的并行模式。
tbb::task_arena: 允许更精细地控制任务调度，例如限制特定代码区域的并发度，或者将 TBB 任务与 GUI 线程等非 TBB 线程隔离。
tbb::global_control: 用于在程序启动时设置全局 TBB 参数，如默认的最大并发线程数。

性能考量与最佳实践

任务粒度 (Granularity): 这是 TBB 性能调优的关键。任务太小，调度开销会超过计算收益；任务太大，则无法充分利用所有核心，导致负载不均。blocked_range 的 grainsize 参数和 TBB 的自动划分机制是调整粒度的主要手段。需要通过实验和性能分析来找到最佳值。
避免不必要的共享和同步: TBB 的优势在于减少显式同步。优先使用并行算法和并发容器。如果必须共享数据，尽量减少共享范围和频率。注意伪共享（False Sharing）问题。
数据局部性: TBB 的工作窃取调度器倾向于让线程处理自己队列中的任务（LIFO），这有利于缓存局部性。设计任务时考虑数据访问模式。
异常安全: TBB 的并行算法通常能正确处理和传播异常。如果一个任务抛出异常，TBB 会尝试取消其他相关任务，并将捕获到的异常（通常是第一个）重新抛出给调用者。
调试与分析: 并行程序的调试比串行程序更困难。Intel 提供了 Inspector 工具来检测数据竞争和死锁，VTune Profiler 则用于性能分析和瓶颈定位。

总结

Intel Threading Building Blocks (TBB) 是一个功能强大且设计精良的 C++ 并行编程库。它通过高级的抽象（任务并行、并行算法、并发容器）和高效的运行时调度（工作窃取），显著简化了多核环境下的 C++ 程序开发。相比于直接操作线程和锁，TBB 不仅提高了开发效率，减少了出错的可能性，而且往往能带来更好的性能和伸缩性。

掌握 parallel_for, parallel_reduce, parallel_invoke 等核心算法，理解并发容器的使用场景，并关注任务粒度等性能因素，将使你能够更自信、更高效地开发出现代化的、能够充分利用多核处理能力的 C++ 应用程序。作为一名追求卓越的软件工程师，将 TBB 纳入你的技术栈，无疑是明智之举。

希望这篇详尽的文章能帮助你更好地理解和应用 TBB。并行编程的世界广阔而深邃，TBB 为我们提供了一张优秀的导航图。