2019/10/23

OpenMPを使用した並列化

背景


OpenMPを利用して並列化を行い、処理を高速化する必要が出てきたため、OpenMPで並列化処理を記述する方法について記述する

記事の目的


OpenMPで並列化処理を行う際のテンプレートを作成する

OpenMP


ここでは、OpenMPを利用したCプログラムの記述方法について記載する。

OpenMPとは

OpenMP
OpenMPは、OpenMP ARBが提供する並列コンピューティング環境において共有メモリのマルチスレッド処理をサポートするために開発されたAPIである。

利点

  • マルチスレッド並列なプログラムをディレクティブを挿入するだけで実現できる
  • gccなどで標準サポートされており、導入が容易である

テンプレート

OpenMPを利用して並列処理を行うテンプレートを記載する。


// CMakeLists.txt に追記
# For OpenMP
find_package(OpenMP REQUIRED)
if(OpenMP_FOUND)
    message(STATUS "Use OpenMP")
    set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${OpenMP_C_FLAGS}")
    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${OpenMP_CXX_FLAGS}")
endif()

// openmp_sample_code.cpp
#include <iostream>
#ifdef _OPENMP
// ヘッダーファイルをインクルード
#include <omp.h>
#endif
int main()
{
#ifdef _OPENMP
    // スレッド数を設定(今回は4スレッド)
    omp_set_num_threads(4);
#endif
#ifdef _OPENMP
    // スレッド数取得
    std::cout << "The number of processors is "<< omp_get_num_procs() << std::endl;
#endif
#ifdef _OPENMP
    // ここから並列処理を行う
    // 【注】カッコ内の処理は、スレッド数回実行される
    #pragma omp parallel
#endif
    {
        int a = 0, b= 0;
#ifdef _OPENMP
        // section毎に並列処理を行う
        #pragma omp sections
#endif
        {
#ifdef _OPENMP
            #pragma omp section
#endif
            {
                // 並列化される処理 1
                a ++; 
            }
#ifdef _OPENMP
            #pragma omp section
#endif 
            {
                // 並列化される処理 2
                b ++; 
            }
        }
#ifdef _OPENMP
        // ここまでの並列処理が完了するまで待機
        #pragma omp barrier
        // シングルスレッド処理
        // 【注】マルチスレッド処理内におけるプライベート変数は引き継がれない場合がある
        //  このコードでは、aまたはbのどちらかが0になる
        #pragma omp single
#endif
        {
            std::cout << "a=" << a << std::endl;
            std::cout << "b=" << b << std::endl;
        }
    }
    size_t i;
    int c = 0;
    int sum = 0;
#ifdef _OPENMP
    // forループを並列化
    // 【注】 #pragma omp parallel内で#pragma omp parallel forすると、2重に並列化するため注意
    //     上記の場合、#pragma omp parallel forを#pragma omp forとする
    // iを各スレッドのプライベート変数に指定
    // 並列化した際にスレッドをを静的(static)に割り当て、チャンクサイズを2に指定
    //        (この場合、i=0,1,4,5,...とi=2,3,6,7,...でスレッドが作られる)
    //        (動的に割り当てる場合はdynamicとする。ただし、スレッド生成コストが増大する)
    // sumは、i*iの処理が並列で行われた後、+=の処理がまとめて行われる
    // orderedは、forループ内にorderedセクションがあることを示す
    #pragma omp parallel for private(i) schedule(static, 2) reduction(+, sum) ordered
#endif 
    for(i = 0; i < 10; ++i)
    {
       sum += i*i;
#ifdef _OPENMP
        // criticalセクション内は、最大で1つのスレッドしか実行されない
        // ただし、スレッド待ちの処理コストが発生する
        #pragma omp critical
#endif
        {
            c += i*i;
            std::cout << "c=" << c << std::endl;
        }
#ifdef _OPENMP
        // orderedセクション内は、順番に実行される
        #pragma omp ordered
#endif
        {
            std::cout << "i=" << i << std::endl;
        }
        std::cout << "sum=" << sum << std::endl;
    }
}

まとめ


  • OpenMPでプログラミングをする際のテンプレートを調査、記載した

参考文献



変更履歴


  1. 2019/10/23: 新規作成
  2. 2019/12/15: コード修正

0 件のコメント:

コメントを投稿

MQTTの導入

背景 IoTデバイスの接続環境構築のため、MQTT(mosquitto)の導入を行った。 記事の目的 MQTT(mosquitto)をUbuntuに導入する mosquitto ここではmosquittoについて記載する。 MQTT MQTT(Message Qu...