swook · March 30, 2015 16:26
diff --git a/hpc-gemm.cpp b/hpc-gemm.cpp
 #include <iostream>
 #include <cassert>
 #include <cmath>
 #include <algorithm>
 #include <boost/chrono.hpp>
 #include <openblas/cblas.h>
 #include <nmmintrin.h>
 #include <omp.h>

 #include "../lib/ArgumentParser.h"
 #include "../lib/matrix.hpp"

 typedef double                                      value_t;
 typedef hpcse::matrix<value_t, hpcse::column_major> cmatrix_t;
 typedef hpcse::matrix<value_t, hpcse::row_major>    rmatrix_t;
 typedef boost::chrono::high_resolution_clock        myclock_t;

 /**
 * Matrix dimensions
 *     a(M*N), b(N*K), c(M*K)
 */
 unsigned int M, N, K;

 // Assign memory to matrices
 rmatrix_t a; // Should access row-by-row
 cmatrix_t b; // Should access col-by-col
 rmatrix_t c; // Should access row-by-row
 rmatrix_t c_ref;


 // This function does a naive matrix multiplication c = a*b
 // We assume column_major ordering
 void naive() {
 	for (size_t j = 0; j < M; j++)
 	for (size_t k = 0; k < K; k++) {
 		double sum = 0.;
 		for (size_t i = 0; i < N; i++)
 			sum += a(j,i) * b(i,k);
 		c(j,k) = sum;
 	}
 }

 void naive_simd() {
 	double* _a = a.data();
 	double* _b = b.data();
 	double* _c = c.data();
 	double* __restrict__ __a;
 	double* __restrict__ __b;
 	double sum;

 	for (size_t j = 0; j < M; j++)
 	for (size_t k = 0; k < K; k++) {
 		sum = 0.;
 		__a = &_a[0] + j*N;
 		__b = &_b[0] + k*K;
 		for (size_t i = 0; i < N; i++)
 			sum += __a[i] * __b[i];
 		_c[j*K+k] = sum;
 	}
 }

 void naive_simd_omp() {
 	double* _a = a.data();
 	double* _b = b.data();
 	double* _c = c.data();
 	double* __restrict__ __a;
 	double* __restrict__ __b;

 #pragma omp parallel for schedule(static)
 	for (size_t j = 0; j < M; j++)
 	for (size_t k = 0; k < K; k++) {
 		double sum = 0.;
 		__a = &_a[0] + j*N;
 		__b = &_b[0] + k*K;
 		for (size_t i = 0; i < N; i++)
 			sum += __a[i] * __b[i];
 		_c[j*K+k] = sum;
 	}
 }

 void naive_omp() {
 #pragma omp parallel for schedule(static)
 	for (size_t j = 0; j < M; j++)
 	for (size_t k = 0; k < K; k++) {
 		double sum = 0.;
 		c(j,k) = 0.;
 		for (size_t i = 0; i < N; i++)
 			sum += a(j,i) * b(i,k);
 		c(j,k) = sum;
 	}
 }

 // Blocked version of naive gemm
 // Calculate result cell values in c in blocks
 size_t blksize;
 inline void blocked_kernel(double* __restrict__ a, double* __restrict__ b, double* c) {
 	double* __restrict__ _a;
 	double* __restrict__ _b;

 	for (size_t j = 0; j < blksize; j++)
 	for (size_t k = 0; k < blksize; k++) {
 		_a = a + j*N;
 		_b = b + k*K;

 		double sum = 0.;
 		for (size_t i = 0; i < blksize; i++)
 			sum += _a[i] * _b[i];

 		c[j*K+k] += sum;
 	}
 }

 void blocked_simd() {
 	assert(M % blksize == 0);
 	assert(N % blksize == 0);
 	assert(K % blksize == 0);

 	size_t bM = M / blksize,
 	       bN = N / blksize,
 	       bK = K / blksize,
 	       _j, _i, _k;

 	double* _a = a.data();
 	double* _b = b.data();
 	double* _c = c.data();

 	for (size_t bj = 0; bj < bM; bj++)
 	for (size_t bi = 0; bi < bN; bi++)
 	for (size_t bk = 0; bk < bK; bk++) {
 		_j = bj*blksize;
 		_i = bi*blksize;
 		_k = bk*blksize;
 		blocked_kernel(
 			_a + _j*N + _i,
 			_b + _k*N + _i,
 			_c + _j*K + _k
 		);
 	}
 }

 void blocked_simd_omp() {
 	assert(M % blksize == 0);
 	assert(N % blksize == 0);
 	assert(K % blksize == 0);

 	size_t bM = M / blksize,
 	       bN = N / blksize,
 	       bK = K / blksize,
 	       _j, _i, _k;

 	double* _a = a.data();
 	double* _b = b.data();
 	double* _c = c.data();

 #pragma omp parallel for schedule(static) private(_j,_i,_k)
 	for (size_t bj = 0; bj < bM; bj++)
 	for (size_t bi = 0; bi < bN; bi++)
 	for (size_t bk = 0; bk < bK; bk++) {
 		_j = bj*blksize;
 		_i = bi*blksize;
 		_k = bk*blksize;
 		blocked_kernel(
 			_a + _j*N + _i,
 			_b + _k*N + _i,
 			_c + _j*K + _k
 		);
 	}
 }

 const double CblasZero = 0.,
             CblasOne  = 1.;

 void blas_gemvs() {
 	// OpenBLAS bug: cannot have more than 44 threads
 	size_t maxT = omp_get_max_threads() > 44 ? 44 : omp_get_max_threads();
 #pragma omp parallel for num_threads(maxT)
 	for (size_t i = 0; i < N; i++)
 		cblas_dgemv(CblasRowMajor, CblasNoTrans, M, N, CblasOne,
 			a.data(), M, b.data()+i*N, CblasOne, CblasZero,
 			c.data()+i, N);
 }

 void blas_ddots() {
 	// OpenBLAS bug: cannot have more than 44 threads
 	size_t maxT = omp_get_max_threads() > 44 ? 44 : omp_get_max_threads();
 #pragma omp parallel for num_threads(maxT)
 	for (size_t j = 0; j < M; j++)
 	for (size_t k = 0; k < K; k++)
 		c(j,k) = cblas_ddot(N, a.data()+j*N, CblasOne, b.data()+k*N,
 				CblasOne);
 }

 /**
 * Utility methods to use when running different methods
 */
 bool equal_double(const double& a, const double& b) {
 	return a == b  || std::abs((a-b)/a) < 1e-10;
 }
 class timer {
 	private:
 		boost::chrono::time_point<myclock_t> start;
 		std::string                          name;
 	public:
 	timer(std::string name) : name(name) {
 		// Initialise (reset) matrix c to allow first-touch policy
 		c = rmatrix_t(M, K);
 		start = myclock_t::now(); // Cache time
 	}
 	~timer() {
 		// Calculate time taken
 		boost::chrono::time_point<myclock_t> end = myclock_t::now();
 		double elapsed = boost::chrono::duration<double>(end-start).count();
 		std::cout << name << ":\t" << elapsed << std::endl;

 		// Validate result in matrix c
 		if (!std::equal(c.data(), c.data() + M*K, c_ref.data(), equal_double))
 			throw std::runtime_error("Incorrect GEMM result attained. Check code.");
 	}
 };


 int main(int argc, char* argv[]) {
 	ArgumentParser parser(argc, argv);
 	M = N = K = parser("-N").asInt(1600);
 	blksize = parser("-blksize").asInt(4);

 	const size_t NT = parser("-NT").asInt(1);
 	omp_set_dynamic(0);
 	omp_set_num_threads(NT);
 	openblas_set_num_threads(NT);

 	// Assign matrix dimensions
 	a = rmatrix_t(M, N);
 	b = cmatrix_t(N, K);
 	c = rmatrix_t(M, K);
 	c_ref = rmatrix_t(M, K);

 	// Fill matrices a and b with some values
 	std::generate_n(a.data(), M*N, std::rand);
 	std::generate_n(b.data(), N*K, std::rand);


 	/**
 	 * Calculate reference solution
 	 *
 	 * void cblas_dgemm(const enum CBLAS_ORDER Order,
 	 *                  const enum CBLAS_TRANSPOSE TransA,
 	 *                  const enum CBLAS_TRANSPOSE TransB, const int M,
 	 *                  const int N, const int K, const double alpha,
 	 *                  const double *A, const int lda, const double *B,
 	 *                  const int ldb, const double beta, double *C,
 	 *                  const int ldc);
 	 */
 	cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasTrans, M, N, K, CblasOne,
 			a.data(), M, b.data(), K, CblasZero, c_ref.data(), M);

 #ifdef SEQ
 	{
 		timer t = timer("naive (seq)");
 		naive();
 	}{
 		timer t = timer("naive (SIMD)");
 		naive_simd();
 	}{
 		timer t = timer("blocked (SIMD)");
 		blocked_simd();
 	}
 #else
 	{
 		timer t = timer("GEMM (blas)");
 		cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasTrans, M, N, K, CblasOne,
 				a.data(), M, b.data(), K, CblasZero, c.data(), M);
 	}{
 		timer t = timer("GEMVs (blas)");
 		blas_gemvs();
 	}{
 		timer t = timer("DDOTs (blas)");
 		blas_ddots();
 	}{
 		timer t = timer("naive (OMP)");
 		naive_omp();
 	}{
 		timer t = timer("naive (SIMD+OMP)");
 		naive_simd_omp();
 	}{
 		timer t = timer("blocked (SIMD+OMP)");
 		blocked_simd_omp();
 	}
 #endif

 	return 0;
 }
	#include <iostream>
	#include <cassert>
	#include <cmath>
	#include <algorithm>
	#include <boost/chrono.hpp>
	#include <openblas/cblas.h>
	#include <nmmintrin.h>
	#include <omp.h>

	#include "../lib/ArgumentParser.h"
	#include "../lib/matrix.hpp"

	typedef double value_t;
	typedef hpcse::matrix<value_t, hpcse::column_major> cmatrix_t;
	typedef hpcse::matrix<value_t, hpcse::row_major> rmatrix_t;
	typedef boost::chrono::high_resolution_clock myclock_t;

	/**
	* Matrix dimensions
	* a(MN), b(NK), c(M*K)
	*/
	unsigned int M, N, K;

	// Assign memory to matrices
	rmatrix_t a; // Should access row-by-row
	cmatrix_t b; // Should access col-by-col
	rmatrix_t c; // Should access row-by-row
	rmatrix_t c_ref;


	// This function does a naive matrix multiplication c = a*b
	// We assume column_major ordering
	void naive() {
	for (size_t j = 0; j < M; j++)
	for (size_t k = 0; k < K; k++) {
	double sum = 0.;
	for (size_t i = 0; i < N; i++)
	sum += a(j,i) * b(i,k);
	c(j,k) = sum;
	}
	}

	void naive_simd() {
	double* _a = a.data();
	double* _b = b.data();
	double* _c = c.data();
	double* __restrict__ __a;
	double* __restrict__ __b;
	double sum;

	for (size_t j = 0; j < M; j++)
	for (size_t k = 0; k < K; k++) {
	sum = 0.;
	__a = &_a[0] + j*N;
	__b = &_b[0] + k*K;
	for (size_t i = 0; i < N; i++)
	sum += __a[i] * __b[i];
	_c[j*K+k] = sum;
	}
	}

	void naive_simd_omp() {
	double* _a = a.data();
	double* _b = b.data();
	double* _c = c.data();
	double* __restrict__ __a;
	double* __restrict__ __b;

	#pragma omp parallel for schedule(static)
	for (size_t j = 0; j < M; j++)
	for (size_t k = 0; k < K; k++) {
	double sum = 0.;
	__a = &_a[0] + j*N;
	__b = &_b[0] + k*K;
	for (size_t i = 0; i < N; i++)
	sum += __a[i] * __b[i];
	_c[j*K+k] = sum;
	}
	}

	void naive_omp() {
	#pragma omp parallel for schedule(static)
	for (size_t j = 0; j < M; j++)
	for (size_t k = 0; k < K; k++) {
	double sum = 0.;
	c(j,k) = 0.;
	for (size_t i = 0; i < N; i++)
	sum += a(j,i) * b(i,k);
	c(j,k) = sum;
	}
	}

	// Blocked version of naive gemm
	// Calculate result cell values in c in blocks
	size_t blksize;
	inline void blocked_kernel(double* __restrict__ a, double* __restrict__ b, double* c) {
	double* __restrict__ _a;
	double* __restrict__ _b;

	for (size_t j = 0; j < blksize; j++)
	for (size_t k = 0; k < blksize; k++) {
	_a = a + j*N;
	_b = b + k*K;

	double sum = 0.;
	for (size_t i = 0; i < blksize; i++)
	sum += _a[i] * _b[i];

	c[j*K+k] += sum;
	}
	}

	void blocked_simd() {
	assert(M % blksize == 0);
	assert(N % blksize == 0);
	assert(K % blksize == 0);

	size_t bM = M / blksize,
	bN = N / blksize,
	bK = K / blksize,
	_j, _i, _k;

	double* _a = a.data();
	double* _b = b.data();
	double* _c = c.data();

	for (size_t bj = 0; bj < bM; bj++)
	for (size_t bi = 0; bi < bN; bi++)
	for (size_t bk = 0; bk < bK; bk++) {
	_j = bj*blksize;
	_i = bi*blksize;
	_k = bk*blksize;
	blocked_kernel(
	_a + _j*N + _i,
	_b + _k*N + _i,
	_c + _j*K + _k
	);
	}
	}

	void blocked_simd_omp() {
	assert(M % blksize == 0);
	assert(N % blksize == 0);
	assert(K % blksize == 0);

	size_t bM = M / blksize,
	bN = N / blksize,
	bK = K / blksize,
	_j, _i, _k;

	double* _a = a.data();
	double* _b = b.data();
	double* _c = c.data();

	#pragma omp parallel for schedule(static) private(_j,_i,_k)
	for (size_t bj = 0; bj < bM; bj++)
	for (size_t bi = 0; bi < bN; bi++)
	for (size_t bk = 0; bk < bK; bk++) {
	_j = bj*blksize;
	_i = bi*blksize;
	_k = bk*blksize;
	blocked_kernel(
	_a + _j*N + _i,
	_b + _k*N + _i,
	_c + _j*K + _k
	);
	}
	}

	const double CblasZero = 0.,
	CblasOne = 1.;

	void blas_gemvs() {
	// OpenBLAS bug: cannot have more than 44 threads
	size_t maxT = omp_get_max_threads() > 44 ? 44 : omp_get_max_threads();
	#pragma omp parallel for num_threads(maxT)
	for (size_t i = 0; i < N; i++)
	cblas_dgemv(CblasRowMajor, CblasNoTrans, M, N, CblasOne,
	a.data(), M, b.data()+i*N, CblasOne, CblasZero,
	c.data()+i, N);
	}

	void blas_ddots() {
	// OpenBLAS bug: cannot have more than 44 threads
	size_t maxT = omp_get_max_threads() > 44 ? 44 : omp_get_max_threads();
	#pragma omp parallel for num_threads(maxT)
	for (size_t j = 0; j < M; j++)
	for (size_t k = 0; k < K; k++)
	c(j,k) = cblas_ddot(N, a.data()+jN, CblasOne, b.data()+kN,
	CblasOne);
	}

	/**
	* Utility methods to use when running different methods
	*/
	bool equal_double(const double& a, const double& b) {
	return a == b \|\| std::abs((a-b)/a) < 1e-10;
	}
	class timer {
	private:
	boost::chrono::time_point<myclock_t> start;
	std::string name;
	public:
	timer(std::string name) : name(name) {
	// Initialise (reset) matrix c to allow first-touch policy
	c = rmatrix_t(M, K);
	start = myclock_t::now(); // Cache time
	}
	~timer() {
	// Calculate time taken
	boost::chrono::time_point<myclock_t> end = myclock_t::now();
	double elapsed = boost::chrono::duration<double>(end-start).count();
	std::cout << name << ":\t" << elapsed << std::endl;

	// Validate result in matrix c
	if (!std::equal(c.data(), c.data() + M*K, c_ref.data(), equal_double))
	throw std::runtime_error("Incorrect GEMM result attained. Check code.");
	}
	};


	int main(int argc, char* argv[]) {
	ArgumentParser parser(argc, argv);
	M = N = K = parser("-N").asInt(1600);
	blksize = parser("-blksize").asInt(4);

	const size_t NT = parser("-NT").asInt(1);
	omp_set_dynamic(0);
	omp_set_num_threads(NT);
	openblas_set_num_threads(NT);

	// Assign matrix dimensions
	a = rmatrix_t(M, N);
	b = cmatrix_t(N, K);
	c = rmatrix_t(M, K);
	c_ref = rmatrix_t(M, K);

	// Fill matrices a and b with some values
	std::generate_n(a.data(), M*N, std::rand);
	std::generate_n(b.data(), N*K, std::rand);


	/**
	* Calculate reference solution
	*
	* void cblas_dgemm(const enum CBLAS_ORDER Order,
	* const enum CBLAS_TRANSPOSE TransA,
	* const enum CBLAS_TRANSPOSE TransB, const int M,
	* const int N, const int K, const double alpha,
	* const double A, const int lda, const double B,
	* const int ldb, const double beta, double *C,
	* const int ldc);
	*/
	cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasTrans, M, N, K, CblasOne,
	a.data(), M, b.data(), K, CblasZero, c_ref.data(), M);

	#ifdef SEQ
	{
	timer t = timer("naive (seq)");
	naive();
	}{
	timer t = timer("naive (SIMD)");
	naive_simd();
	}{
	timer t = timer("blocked (SIMD)");
	blocked_simd();
	}
	#else
	{
	timer t = timer("GEMM (blas)");
	cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasTrans, M, N, K, CblasOne,
	a.data(), M, b.data(), K, CblasZero, c.data(), M);
	}{
	timer t = timer("GEMVs (blas)");
	blas_gemvs();
	}{
	timer t = timer("DDOTs (blas)");
	blas_ddots();
	}{
	timer t = timer("naive (OMP)");
	naive_omp();
	}{
	timer t = timer("naive (SIMD+OMP)");
	naive_simd_omp();
	}{
	timer t = timer("blocked (SIMD+OMP)");
	blocked_simd_omp();
	}
	#endif

	return 0;
	}