詳解C++如何高效利用CPU緩存

更新時間：2024年02月25日 14:13:37 作者：Thomas_Lbw

高效利用CPU緩存是編寫高性能C++代碼的關鍵之一,所以這篇文章小編主要來和大家介紹一下C++如何實現(xiàn)高效利用CPU緩存,需要的可以參考一下

局部性原理(Locality Principle)

時間局部性(Time Locality)：利用最近使用的數(shù)據(jù)很可能會在不久的將來再次被使用。這意味著如果你在循環(huán)中使用了某個數(shù)據(jù)，它很可能會被緩存在CPU緩存中，從而提高訪問速度。

空間局部性(Spatial Locality)：在處理連續(xù)內(nèi)存塊時，相鄰的內(nèi)存單元很可能會被一起緩存。因此，訪問相鄰內(nèi)存單元的數(shù)據(jù)可以充分利用CPU緩存。

#include <iostream>
#include <vector>
 
int main() {
    // 創(chuàng)建一個大小為10000的整數(shù)向量
    std::vector<int> vec(10000);
 
    // 初始化向量
    for (int i = 0; i < 10000; ++i) {
        vec[i] = i;
    }
 
    // 計算向量中所有元素的和
    int sum = 0;
    for (int i = 0; i < 10000; ++i) {
        // 利用時間局部性：sum變量在循環(huán)中被反復使用，因此可能會被緩存在CPU緩存中
        sum += vec[i];
    }
 
    std::cout << "Sum: " << sum << std::endl;
 
    return 0;
}

詳細解析和注釋：

在這個示例中，我們首先創(chuàng)建了一個大小為10000的整數(shù)向量 vec，它會占據(jù)一塊連續(xù)的內(nèi)存空間。這符合空間局部性原則，相鄰的內(nèi)存單元很可能會被一起緩存。

然后，我們初始化向量中的每個元素，將其設置為與索引相等的值。這個過程并不涉及任何復雜的內(nèi)存訪問模式，因此利用了時間局部性原則，初始化過的數(shù)據(jù)可能會被緩存在CPU緩存中。

接下來，我們計算向量中所有元素的和。在循環(huán)中，我們對 sum 變量進行反復的累加操作。由于 sum 變量在循環(huán)中被頻繁使用，它可能會被緩存在CPU緩存中，從而利用了時間局部性原則。

最后，我們輸出計算得到的總和。

通過利用時間局部性和空間局部性原則，這段代碼可以更高效地利用CPU緩存，提高訪問速度。

#include <iostream>
#include <vector>
 
const int N = 1000;
 
// 矩陣相乘函數(shù)
void matrixMultiplication(const std::vector<std::vector<int>>& matrixA,
                          const std::vector<std::vector<int>>& matrixB,
                          std::vector<std::vector<int>>& result) {
    for (int i = 0; i < N; ++i) {
        for (int j = 0; j < N; ++j) {
            // 利用時間局部性：result[i][j] 在循環(huán)中被頻繁使用
            int sum = 0;
            for (int k = 0; k < N; ++k) {
                // 利用空間局部性：matrixA[i][k] 和 matrixB[k][j] 可能會被緩存在CPU緩存中
                sum += matrixA[i][k] * matrixB[k][j];
            }
            result[i][j] = sum;
        }
    }
}
 
int main() {
    // 創(chuàng)建并初始化矩陣
    std::vector<std::vector<int>> matrixA(N, std::vector<int>(N, 1));
    std::vector<std::vector<int>> matrixB(N, std::vector<int>(N, 2));
    std::vector<std::vector<int>> result(N, std::vector<int>(N));
 
    // 計算矩陣相乘
    matrixMultiplication(matrixA, matrixB, result);
 
    // 輸出結果
    std::cout << "Result:" << std::endl;
    for (int i = 0; i < N; ++i) {
        for (int j = 0; j < N; ++j) {
            std::cout << result[i][j] << " ";
        }
        std::cout << std::endl;
    }
 
    return 0;
}

這個例子中，我們計算了兩個大小為1000x1000的矩陣的乘積。在相乘的過程中，我們通過嵌套的三重循環(huán)遍歷了矩陣元素。在最內(nèi)層的循環(huán)中，我們對 matrixA[i][k] 和 matrixB[k][j] 進行訪問，利用了空間局部性。而在最外層的循環(huán)中，我們對 result[i][j] 進行更新，利用了時間局部性。

數(shù)據(jù)結構的布局

優(yōu)化數(shù)據(jù)結構的布局以最大程度地利用CPU緩存。例如，將緊密相關的數(shù)據(jù)放置在相鄰的內(nèi)存位置，以提高局部性。

避免不必要的內(nèi)存碎片，以確保數(shù)據(jù)在內(nèi)存中的連續(xù)性。

#include <iostream>
#include <vector>
 
// 定義一個結構體表示學生信息
struct Student {
    int id;
    char name[20];
    int age;
};
 
int main() {
    const int numStudents = 1000;
    std::vector<Student> students(numStudents);
 
    // 初始化學生信息
    for (int i = 0; i < numStudents; ++i) {
        students[i].id = i + 1;
        sprintf(students[i].name, "Student%d", i + 1);
        students[i].age = 20 + i % 5;
    }
 
    // 計算所有學生的平均年齡
    int totalAge = 0;
    for (int i = 0; i < numStudents; ++i) {
        // 利用局部性原理：緊密相關的數(shù)據(jù)(id, name, age)被連續(xù)地存儲在內(nèi)存中
        totalAge += students[i].age;
    }
    double averageAge = static_cast<double>(totalAge) / numStudents;
 
    std::cout << "Average Age: " << averageAge << std::endl;
 
    return 0;
}

詳細解析和注釋：

在這個示例中，我們定義了一個 Student 結構體，表示學生的基本信息，包括學生ID、姓名和年齡。

我們創(chuàng)建了一個大小為1000的 std::vector<Student> 容器，其中存儲了1000個學生的信息。在內(nèi)存中，這些 Student 結構體對象是連續(xù)存儲的，這樣就充分利用了空間局部性原理。

我們通過循環(huán)初始化了每個學生的信息，這里 sprintf 函數(shù)用于將學生姓名格式化為 "Student1"、"Student2" 這樣的字符串，以便于區(qū)分。

在計算所有學生的平均年齡時，我們再次利用了局部性原理。在循環(huán)中，我們依次訪問每個學生對象的 age 成員，由于緊密相關的數(shù)據(jù)被連續(xù)地存儲在內(nèi)存中，因此這些訪問操作可以更有效地利用CPU緩存。

緩存友好的算法

選擇算法時要考慮其對CPU緩存的利用程度。例如，遍歷數(shù)組時，盡量保證對數(shù)組元素的訪問是連續(xù)的，以利用空間局部性。

考慮使用分治法或動態(tài)規(guī)劃等算法來減少緩存未命中的次數(shù)。

#include <iostream>
#include <vector>
 
// 使用動態(tài)規(guī)劃計算斐波那契數(shù)列的第n項
int fibonacci(int n) {
    std::vector<int> fib(n + 1);
 
    // 初始化前兩個斐波那契數(shù)
    fib[0] = 0;
    fib[1] = 1;
 
    // 計算斐波那契數(shù)列的每一項
    for (int i = 2; i <= n; ++i) {
        // 利用空間局部性：fib[i-1] 和 fib[i-2] 可能會被緩存在CPU緩存中
        fib[i] = fib[i - 1] + fib[i - 2];
    }
 
    return fib[n];
}
 
int main() {
    int n = 10;
    int result = fibonacci(n);
    std::cout << "Fibonacci(" << n << ") = " << result << std::endl;
    return 0;
}

詳細解析和注釋：

在這個示例中，我們使用動態(tài)規(guī)劃算法計算斐波那契數(shù)列的第n項。

我們定義了一個 fib 向量，用于存儲計算過程中的中間結果。在循環(huán)中，我們會逐步填充這個向量。

在循環(huán)中，我們每次計算 fib[i] 時，都需要使用 fib[i-1] 和 fib[i-2] 的值。由于這些值在內(nèi)存中相鄰且緊密相關，因此它們有很大的可能性被緩存在CPU緩存中，利用了空間局部性。

通過使用動態(tài)規(guī)劃算法，我們可以有效地減少緩存未命中的次數(shù)，因為我們只需要一次遍歷來填充 fib 向量，而不需要重復計算已經(jīng)得到的中間結果。

緩存大小和關聯(lián)性

了解目標CPU的緩存大小和關聯(lián)性，以更好地優(yōu)化代碼。不同的CPU可能具有不同大小和類型的緩存，因此需要針對特定的硬件進行優(yōu)化。

#include <iostream>
#include <vector>
#include <chrono>
 
const int N = 1000; // 矩陣維度
 
// 矩陣相乘函數(shù)，使用分塊優(yōu)化
void matrixMultiplication(const std::vector<std::vector<int>>& matrixA,
                          const std::vector<std::vector<int>>& matrixB,
                          std::vector<std::vector<int>>& result) {
    const int blockSize = 32; // 分塊大小，根據(jù)CPU緩存大小和關聯(lián)性調(diào)整
 
    for (int i = 0; i < N; i += blockSize) {
        for (int j = 0; j < N; j += blockSize) {
            for (int k = 0; k < N; k += blockSize) {
                // 分塊計算
                for (int ii = i; ii < std::min(i + blockSize, N); ++ii) {
                    for (int jj = j; jj < std::min(j + blockSize, N); ++jj) {
                        int sum = 0;
                        for (int kk = k; kk < std::min(k + blockSize, N); ++kk) {
                            sum += matrixA[ii][kk] * matrixB[kk][jj];
                        }
                        result[ii][jj] += sum;
                    }
                }
            }
        }
    }
}
 
int main() {
    std::vector<std::vector<int>> matrixA(N, std::vector<int>(N, 1)); // 初始化矩陣A
    std::vector<std::vector<int>> matrixB(N, std::vector<int>(N, 2)); // 初始化矩陣B
    std::vector<std::vector<int>> result(N, std::vector<int>(N, 0)); // 結果矩陣
 
    auto start = std::chrono::steady_clock::now();
 
    // 計算矩陣相乘
    matrixMultiplication(matrixA, matrixB, result);
 
    auto end = std::chrono::steady_clock::now();
    std::chrono::duration<double> elapsed_seconds = end - start;
    std::cout << "Time taken: " << elapsed_seconds.count() << "s" << std::endl;
 
    return 0;
}

詳細解析和注釋：

在 matrixMultiplication 函數(shù)中，我們使用了分塊的方法來優(yōu)化矩陣相乘過程。分塊的大小 blockSize 是根據(jù)目標CPU的緩存大小和關聯(lián)性進行調(diào)整的，以盡可能利用CPU緩存。

在三重嵌套的循環(huán)中，我們將矩陣相乘的過程分成了若干個小塊，每個小塊的大小由 blockSize 決定。這樣做有助于利用CPU緩存的空間局部性，因為每次計算都集中在一個小塊中，避免了頻繁地訪問非相鄰的內(nèi)存單元。

在循環(huán)中，我們使用 std::min 函數(shù)來確保我們不會超出矩陣的邊界，這樣可以避免對不存在的數(shù)據(jù)進行訪問，提高了代碼的健壯性。

避免隨機訪問

盡量避免在內(nèi)存中進行隨機訪問，因為這可能導致緩存未命中。如果難以避免，可以嘗試通過重新組織數(shù)據(jù)或使用緩存友好的數(shù)據(jù)結構來減少隨機訪問的影響。

我們將展示一個遍歷二維數(shù)組的例子，并說明如何使用行優(yōu)先存儲順序來提高緩存命中率。代碼中包含詳細的解析和注釋。

#include <iostream>
#include <vector>
 
const int ROWS = 1000;
const int COLS = 1000;
 
// 使用行優(yōu)先存儲順序的二維數(shù)組遍歷函數(shù)
void traverseArray(std::vector<std::vector<int>>& array) {
    int sum = 0;
    // 外層循環(huán)遍歷行
    for (int i = 0; i < ROWS; ++i) {
        // 內(nèi)層循環(huán)遍歷列
        for (int j = 0; j < COLS; ++j) {
            // 利用局部性原理：按行連續(xù)訪問數(shù)組元素，提高緩存命中率
            sum += array[i][j];
        }
    }
    std::cout << "Sum: " << sum << std::endl;
}
 
int main() {
    // 創(chuàng)建一個二維數(shù)組并初始化
    std::vector<std::vector<int>> array(ROWS, std::vector<int>(COLS));
    for (int i = 0; i < ROWS; ++i) {
        for (int j = 0; j < COLS; ++j) {
            array[i][j] = i * COLS + j;
        }
    }
 
    // 調(diào)用遍歷數(shù)組的函數(shù)
    traverseArray(array);
 
    return 0;
}

詳細解析和注釋：

在這個示例中，我們定義了一個二維數(shù)組 array，其大小為 ROWS 行 COLS 列，并初始化了每個元素的值。

我們編寫了一個名為 traverseArray 的函數(shù)，用于遍歷二維數(shù)組并計算元素的總和。

在遍歷數(shù)組的過程中，我們使用了行優(yōu)先存儲順序。即外層循環(huán)遍歷行，內(nèi)層循環(huán)遍歷列。這樣做有助于提高緩存命中率，因為在內(nèi)存中按行連續(xù)訪問數(shù)組元素，充分利用了空間局部性原理。

使用緩存友好的數(shù)據(jù)結構

例如，使用數(shù)組而不是鏈表可以提高空間局部性，因為數(shù)組的元素在內(nèi)存中是連續(xù)存儲的。

#include <iostream>
#include <vector>
 
// 基于數(shù)組的棧實現(xiàn)
class ArrayStack {
private:
    std::vector<int> data; // 使用數(shù)組存儲棧元素
public:
    // 入棧操作
    void push(int val) {
        data.push_back(val); // 將元素添加到數(shù)組末尾
    }
 
    // 出棧操作
    int pop() {
        if (data.empty()) {
            std::cerr << "Error: Stack is empty!" << std::endl;
            return -1; // 出錯時返回-1
        }
        int topVal = data.back(); // 獲取棧頂元素
        data.pop_back(); // 刪除棧頂元素
        return topVal;
    }
 
    // 判斷棧是否為空
    bool isEmpty() {
        return data.empty();
    }
};
 
int main() {
    // 創(chuàng)建基于數(shù)組的棧對象
    ArrayStack stack;
 
    // 入棧操作
    stack.push(10);
    stack.push(20);
    stack.push(30);
 
    // 出棧操作
    std::cout << stack.pop() << std::endl; // 應輸出30
    std::cout << stack.pop() << std::endl; // 應輸出20
    std::cout << stack.pop() << std::endl; // 應輸出10
 
    // 嘗試從空棧中彈出元素
    std::cout << stack.pop() << std::endl; // 應輸出錯誤信息
 
    return 0;
}

詳細注釋解析：

在這個示例中，我們實現(xiàn)了一個基于數(shù)組的棧數(shù)據(jù)結構 ArrayStack。棧是一種后進先出（LIFO）的數(shù)據(jù)結構，所以我們使用 vector 來存儲棧元素，因為 vector 支持在末尾進行快速的插入和刪除操作。

push 方法用于將元素壓入棧中，它通過調(diào)用 vector 的 push_back 方法將元素添加到數(shù)組的末尾。

pop 方法用于從棧中彈出元素，它首先檢查棧是否為空，然后從數(shù)組的末尾刪除元素并返回棧頂元素。

isEmpty 方法用于判斷棧是否為空，它簡單地調(diào)用 vector 的 empty 方法。

總結

高效利用CPU緩存是優(yōu)化代碼以提高性能的重要方面。以下是一些關鍵點總結：

1.局部性原理：

時間局部性：利用最近使用的數(shù)據(jù)很可能會在不久的將來再次被使用。因此，頻繁訪問相同的數(shù)據(jù)可以提高緩存命中率。

空間局部性：在處理連續(xù)內(nèi)存塊時，相鄰的內(nèi)存單元很可能會被一起緩存。因此，訪問相鄰內(nèi)存單元的數(shù)據(jù)可以充分利用CPU緩存。

2.數(shù)據(jù)結構的布局：

優(yōu)化數(shù)據(jù)結構的布局以最大程度地利用CPU緩存。例如，將緊密相關的數(shù)據(jù)放置在相鄰的內(nèi)存位置，使用數(shù)組而不是鏈表可以提高空間局部性。

3.緩存友好的算法：

選擇算法時要考慮其對CPU緩存的利用程度。例如，避免隨機訪問，盡量保證對數(shù)據(jù)的訪問是連續(xù)的，使用分治法或動態(tài)規(guī)劃等算法來減少緩存未命中的次數(shù)。

4.了解目標CPU的緩存大小和關聯(lián)性：

不同的CPU可能具有不同大小和類型的緩存，了解目標CPU的緩存特性可以更好地優(yōu)化代碼。

5.避免假共享：

當多個線程在不同的CPU核心上訪問同一緩存行的不同部分時可能會發(fā)生假共享，這會降低性能。通過調(diào)整數(shù)據(jù)結構的布局或使用填充技術來減少假共享。
使用緩存友好的數(shù)據(jù)結構和布局：

6.避免過多的隨機訪問，盡量保證數(shù)據(jù)的連續(xù)性，使用數(shù)組等數(shù)據(jù)結構可以提高空間局部性。

綜上所述，高效利用CPU緩存需要綜合考慮局部性原理、數(shù)據(jù)結構的布局、算法選擇和了解目標CPU的緩存特性等因素，以最大程度地提高緩存命中率，從而提高程序的性能。

以上就是詳解C++如何高效利用CPU緩存的詳細內(nèi)容，更多關于C++ CPU緩存的資料請關注腳本之家其它相關文章！

您可能感興趣的文章:

c++ 數(shù)據(jù)結構map的使用詳解
這篇文章主要介紹了c++ 數(shù)據(jù)結構map的使用詳解，幫助大家更好的理解和學習使用c++，感興趣的朋友可以了解下
2021-04-04
visual studio 2019編譯c++17的方法
這篇文章主要介紹了visual studio 2019編譯c++17的方法，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-03-03
Qt實現(xiàn)小功能之復雜抽屜效果詳解
在Qt自帶的控件中，也存在抽屜控件：QToolBar。但是，該控件有個缺點：一次只能展開一個抽屜信息，無法實現(xiàn)多個展開。所以本文將自定義實現(xiàn)復雜抽屜效果，需要的可以參考一下
2022-10-10
C++實現(xiàn)LeetCode(76.最小窗口子串)
這篇文章主要介紹了C++實現(xiàn)LeetCode(76.最小窗口子串),本篇文章通過簡要的案例,講解了該項技術的了解與使用,以下就是詳細內(nèi)容,需要的朋友可以參考下
2021-07-07
深入剖析C語言中qsort函數(shù)的實現(xiàn)原理
這篇文章主要介紹了C語言中qsort函數(shù)的實現(xiàn)原理,本文將從回調(diào)函數(shù),qsort函數(shù)的應用,qsort函數(shù)的實現(xiàn)原理三個方面進行講解,并通過代碼示例講解的非常詳細,需要的朋友可以參考下
2024-03-03
快速解決boost庫鏈接出錯的問題(分享)
下面小編就為大家?guī)硪黄焖俳鉀Qboost庫鏈接出錯的問題(分享)。小編覺得挺不錯的，現(xiàn)在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-05-05
C++?typedef常見用法詳解
這篇文章主要介紹了C++?typedef用法詳解，本文通過實例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
2023-03-03
深入分析父子線程、進程終止順序不同產(chǎn)生的結果
本篇文章是對父子線程、進程終止順序不同產(chǎn)生的結果進行了詳細的分析介紹，需要的朋友參考下
2013-05-05
C++命令行解析包gflags的使用教程
這篇文章主要給大家介紹了關于C++命令行解析包gflags的使用教程，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-11-11
C語言實現(xiàn)宿舍管理系統(tǒng)
這篇文章主要為大家詳細介紹了C語言實現(xiàn)宿舍管理系統(tǒng)，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2022-06-06