C/C++のmemcpyは十分に最適化されており、forループする大抵のコードよりは速くなるように出来ています。しかし測り方を間違えると十分な効果を期待できません。例えばLinuxで以下のコードでは正しく測定できません。なぜだか分かりますか?
#include <chrono>
#include <iostream>
#include <cstring>
using namespace std;
using namespace std::chrono;
typedef size_t target_t;
int main(int argc, char* argv[]) {
constexpr size_t N = 1024 * 1024 * 1024; // 1GiB
auto src = new target_t[N/sizeof(target_t)];
auto dst = new target_t[N/sizeof(target_t)];
auto begin = high_resolution_clock::now();
memcpy(dst, src, N);
auto end = high_resolution_clock::now();
cout << N << "bytes copy: " << N / 1024. / 1024. / duration_cast<nanoseconds>(end - begin).count() * 1000000000 << "[MiB/s]" << endl;
return 0;
}
プログラムは正しく動きます。
$ g++ -g -O0 hoge.cpp -o hoge
$ ./hoge
1073741824bytes copy: 1560.47[MiB/s]
$
何が正しく測定できてないのでしょう?