(KR) - thread, call, loop을 이용한 CPU performance 측정

Total Articles 494

Join
Login

thread, call, loop을 이용한 CPU performance 측정

gilgil

http://www.gilgil.net/?document_srl=7150

2011.06.02 00:49:52 (*.4.203.182)

118939

다음과 같은 코드가 있습니다. 그냥 for문 돌려서 CPU를 소모하게 하는 코드입니다.

테스트 코드 1

void foo(int loopCnt) // 2000000000

{
  int cnt = loopCnt;
  for (int i = 0; i < cnt; i++);
}

loopCnt의 값이 무지막지하게 큰 값(20억) 을 주고 상기 코드를 돌리면 CPU를 100% 먹게 됩니다. 물론 CPU가 4개라면 25%를 먹게 되죠. foo()를 실행하기 이전에 tick(시각)을 구하고 foo()를 실행하고 나서 tick을 구한 다음에 그 차이를 출력해 봅니다. 제 컴퓨터에서는 7.878초가 걸립니다. 대략 8초가 나왔다는 얘기입니다.

[thread 갯수 1개]
7878

자, 그럼 상기의 foo() 함수를 여러개의 thread를 이용해서 동시에 실행을 해 봅니다. 그러면 foo() 함수를 실행하는데 걸리는 시각은 다음과 같이 나옵니다.

테스트 결과 1

[thread 갯수 1개]
7878

[thread 갯수 2개]
8689
8689

[thread 갯수 3개]
8799
8830
8815

[thread 갯수 4개]
9095
9282
9345
9314

thread 2개를 돌리면 약 8.6초, thread 3개를 돌리며 약 8.8초 정도 걸리는군요. 즉 foo 함수 내부의 코드는 다른 thread와 자원과 공유하는 부분이 없어서, 각각의 thread 수행에 지장을 주지 않기 때문에 thread의 완료 시점은 thread의 갯수와는 별 상관이 없이 비슷하게 나오는 것으로 판단할 수 있습니다.

자, 이제는 다른 테스트를 해 보겠습니다.

테스트 코드 2

for (int i = 0; i < callCnt; i++) // 1000000000
{
  foo(loopCnt); // 1
}

loopCnt값은 아주 작은 값(1)을 주고, callCnt에는 아주 큰 값(10억)을 주어 실행을 합니다. 물론 상기 코드도 thread를 동시에 여러개 수행하여 경과 시간을 측정을 해 봅니다.

테스트 결과 2

[thread 갯수 1개]
9080

[thread 갯수 2개]
12184
12215

[thread 갯수 3개]
16115
17129
17254

[thread 갯수 4개]
24555
24898
25132
25304

테스트 결과 1 과 테스트 결과 2를 비교해 보면 조금 다르게 나옵니다. 결과 1은 thread가 늘어 나도 수행 완료 시간에는 별 영향을 주지 않는 반면에, 결과 2는 thread의 갯수와 수행 완료 시간은 상관 관계에 있다는 것으로 결과가 나옵니다.

테스트 코드 2를 보면 각 thread간의 간섭 현상(자원을 공유한다든지 하는)이 없음에도 불구하고 thread가 늘어 남에 따라 수행 시간이 늘어 나는 것은 이해가 되지 않습니다. 원인을 도통 알 수가 없네요.

실행 환경

CPU : Intel(R) Core(TM) i5 CPU U 470 @ 1.33GHz
Memory : 3GB
OS : Windows 7 32bit
Microsoft Visual Studio 2005 / Release Mode / Optimization Disabled(/Od)

소스 및 실행 파일 첨부합니다. call_loop_thread_test.zip (for windows only) multi_platform_call_loop_thread_test.zip (for windows, linux and boost)

#include <conio.h>
#include <list>
#include <stdio.h>
#include <windows.h>

typedef struct _Param
{
  int callCnt;
  int loopCnt;
  int threadCnt;
} Param;

void foo(int loopCnt)
{
  int cnt = loopCnt;
  for (int i = 0; i < cnt; i++);
}

DWORD __stdcall threadProc(LPVOID p)
{
  Param* param = (Param*)p;

  int callCnt = param->callCnt;
  int loopCnt = param->loopCnt;

  DWORD begTick = GetTickCount();
  
  for (int i = 0; i < callCnt; i++)
  {
    foo(loopCnt);
  }
  
  DWORD endTick = GetTickCount();

  printf("%d\n", endTick - begTick);
  return 0;
}

void usage()
{
  printf("call_loop_thread_test <call count> <loop count> <thread count>\n");
  printf("example : call_loop_thread_test 100 100 2\n");
}

int main(int argc, char* argv[])
{
  if (argc != 4)
  {
    usage();
    return 0;
  }

  Param param;

  param.callCnt   = atoi(argv[1]);
  param.loopCnt   = atoi(argv[2]);
  param.threadCnt = atoi(argv[3]);

  std::list<HANDLE> threadList;

  for (int i = 0; i < param.threadCnt; i++)
  {
    DWORD threadID;
    HANDLE threadHandle = 
      CreateThread(
        NULL,
        0,
        &threadProc,
        &param,
        0,
        &threadID);
    threadList.push_back(threadHandle);
  }

  for (std::list<HANDLE>::iterator it = threadList.begin(); it != threadList.end(); it++)
  {
    HANDLE threadHandle = *it;
    WaitForSingleObject(threadHandle, INFINITE);
  }

  threadList.clear();
  return 0;
}

도대체 원인이 뭘까요? 정말 모르겠습니다. -_-;

You would..

List

2011.06.02 14:09:38 (*.206.98.111)

godway

아닐 수도 있는데요.

혹시나 해서 적어봅니다.

쓰레드가 사용하는 Call stack 이 존재하는 메모리 부분이 프로세스에 할당된 메모리 자원을 공유해서 사용한다면 그렇게 되지 않을까요?

그냥 추측 입니다.

틀릴 가능성 90% 이상이긴 하지만 가설 정도라고 보시면 될듯. 증명은 실력이 없어서 못하겠네요.

2011.06.02 14:39:33 (*.4.203.182)

gilgil

네, 아마도 메모리(stack) 접근의 일종의 bottle neck으로 보여 집니다. 저도 정확한 것은 아닙니다. ^^

2011.06.02 14:56:15 (*.4.203.182)

gilgil

만약 메모리 접근에 의한 bottle neck이 원인라고 한다면 테스트 결과 1에서 thread가 2개인 경우와 thread가 3개인 경우의 경과 시간이 거의 일치하는 것은 어떻게 설명할 수 있을 까요? 아래는 C 코드를 Assembly로 변환된 코드입니다.

; 16   :   for (int i = 0; i < cnt; i++);

	mov	DWORD PTR _i$74131[ebp], 0
	jmp	SHORT $LN3@foo
$LN2@foo:
	mov	ecx, DWORD PTR _i$74131[ebp]  // 메모리 건드림. bottle neck
	add	ecx, 1                        // ECX 레지스터 연산만 함.
	mov	DWORD PTR _i$74131[ebp], ecx  // 메모리 건드림. bottle neck
$LN3@foo:
	mov	edx, DWORD PTR _i$74131[ebp]  // 메모리 건드림. bottle neck
	cmp	edx, DWORD PTR _cnt$[ebp]     // 메모리 건드림. bottle neck
	jge	SHORT $LN4@foo                // Flag 레지스터만 검드림.
	jmp	SHORT $LN2@foo                // Flag 레지스터만 건드림. 

$LN4@foo:

오른쪽에 주석을 단 부분이 cnt 값에 따른 반복이 되는 부분입니다. Assembly code를 보면 bottle neck을 야기할 수 있는 코드가 많습니다(Memory의 접근이 bottle neck을 야기시킨다는 가정하에서). 그렇다면, 상기 테스트 결과 1에서 thread 2개와 thread 3개의 실행 결과가 거의 비슷하게 일치되어 나오는 부분은 설명이 되지 않습니다(실행 결과 차이가 확실히 나야 한다는 얘기임).

2011.06.02 14:59:09 (*.4.203.182)

gilgil

음... L2 Cache Memory와 관련이 있는 것일까요? Cache라고 한다면 테스트1과 테스트2 모두 큰 메모리를 차지하지 않기 때문에(하나의 Cache Page에 Memroy Access 영역이 작기 때문에 Cache Hit률이 떨어질 가능성은 적음) 똑같은 결과가 나와야 하지 않을까요?

2011.06.02 15:02:43 (*.4.203.182)

gilgil

그리고 Memory Access bottle neck이 생긴다고 가정하면

4 CPU 환경에서

thread가 하나일 때 25%,

thread가 2개일 때 50%,

thread가 3개일 때 75%

thread가 4개일 때 100%

CPU를 차지하는 현상은 어떻게 설명할 수 있을까요?

bottle neck이 생긴다면, CPU 점유율은 떨어 져야 하지 않을까요?

2011.06.02 15:13:42 (*.4.203.182)

gilgil

페북에서 영훈군이 댓글을 단 내용

제가 오랫동안 이쪽 세상을 떠나 있어서 그냥 상상이지만. 메모리 L1/L2/L3 Cache Hit Ratio는 계산해보셨나요? 웬지 느낌상 2번 코드는 웬지 캐쉬히트가 떨어질것 처럼 보이는데요 ^^

코드

for (int i = 0; i < callCnt; i++)
{
  foo(loopCnt);
}

(1) i, callCnt 모두 auto variable. stack에 쌓임.

(2) foo()함수 내부에서 i와 cnt 모두 auto variable. stack에 쌓임.

(1), (2) 모두 근접한 메모리(Stack)에 위치하게 됨.

foo() 함수를 호출하는 과정에서 caller(threadProc)와 callee(foo)가 멀러 떨어질 확률도 거의 없음(코드상으로 아 아래로 붙어 있으니).

결론적으로 코드에 의해서 Cache Hit가 떨어질 확률은 낮다고 보여 짐(code 영역뿐 아니라 stack 영역도).

허니, 이는 길길이의 예상이고 정확한 답안은 아님. ^^

2011.06.02 15:37:09 (*.4.203.182)

gilgil

이 뭥미.

변수 앞에 register 예약어를 붙여도 변수가 stack에서 생겨 버리네. ㅠㅠ

2011.06.02 15:43:00 (*.4.203.182)

gilgil

아, 기초가 부족한 것이 절실히 느껴 지네. ㅠㅠ

2011.06.02 15:51:03 (*.4.203.182)

gilgil

영훈군이 알려 준 정보.

내 CPU는 CPU 2개, Hyper Thread 2개씩임.

Hyper Threading이 깨지는 경우는 cache-miss, branch 예측 실패, 데이타 준비 실패.

2011.07.17 22:12:01 (*.4.203.182)

gilgil

테스트 관련 동영상입니다. 하나의 thread가 실행될 때 여러개의 CPU에서 실행이 되는 것을 확인할 수 있습니다.

1_thread_2_cpu.wmv (6.58MB)(81)

2011.07.18 01:18:52 (*.177.122.42)

Lyn

대충봐선 false sharing 인듯...

그리고 register 키워드는 현재 사용하는 컴파일러에선 무효화된 키워드. VC던 BCB던 ICC던 다 무시합니다.

2011.07.18 16:10:29 (*.4.203.182)

gilgil

응, register keyword는 이제 안 먹히는 듯...

false sharing은 뭐야?

No.	Subject		Author	Views	Votes	Date
Notice	컴퓨터 공부를 시작하는 분들을 위하여 19		gilgil	1821093	1	Oct 25, 2009
Notice	프리웨어 라이브러리 사용할 때의 예의에 대해서 5		gilgil	1370720		Feb 06, 2012
434	http://try.oovoo.com/webim/20111106170805874756		gilgil	121504		Nov 07, 2011
434	http://try.oovoo.com-/webim/2011110617080-5874756
433	취약점 공개에 대한 단상 2		gilgil	121431		Dec 02, 2009
433	뭐, 일이 바쁜 와중에 할일 없이 이런 글을 적고 있는 것도 어찌 보면 한심하게 보일 수도 있다는 생각까지 드네요. ^^ 아무래도 이런 얘기는 아무리 해 봤다 그 결론도 없고, 사람들마다 생각하는 차이가 다르다는 것 십분...
432		클라이언트 해킹툴	gilgil	120793		Apr 24, 2010
432		사이버 수사대가 아직도 이런 한심한 짓을 하고 있다니 안타깝기만 하군요. http://1004lucifer.t-istory.com/363 각설하고 어떻게 해서 사이버 수사대가 학생이 올렸다고 하는 글을 보게 되었을까 혹시나 하고 "클라이언트 해킹툴"로...
431	회사 솔루션의 소스 리뷰를 시작했다. 6		gilgil	120250		Jun 24, 2010
431	회사 나간지 이틀만에. ㅠㅠ 디~다. 소스를 구현한 전체 로직은 내가 생각했던 전체 프레임워크와 크게 다르지 않아서 이해하는데 큰 어려움은 없었으나 확실히 Linux 기반의 C 코드는 그리 익숙하지 않은데다가, 월드컵때문에 ...
430	C++에 대한 오해 1		gilgil	120010		Dec 05, 2009
430	http://oreilly.com/n-ews/graphics/prog_la-ng_poster.pdf 프로그래밍의 역사는 깊습니다. 많은 연예인들과 운동선수들이 TV에 한번도 나와 보지도 못하고 사라지듯이 우리가 보통 접하게 되는 언어는 프로그래밍 언어는 무수히 많이 ...
429	WIPI, WIFI, 게임 그리고 아이폰		gilgil	119419		Dec 25, 2009
429	아이폰과 WIPIWIPI는 국내 휴대폰 관련 SW 개발 업체들에게 공통된 플랫폼을 제공하여 같은 어플리케이션을 2중, 3중으로 개발하는 수고를 덜어 줄 수 있도록 해서 나온 공동 플랫폼입니다. 하지만 시간이 지나면서 WIPI 플...
428	[amr] Audio Modulation Reverter 관련 URL		gilgil	119153		Feb 04, 2016
428	[예민의 아에이오우] https://www.youtube.-com/watch?v=52KnHpjCtDE [구글에서 "포먼트 분석" 검색 결과] 포만트 주파수를 이용한 한국어 음성인식 시스템 dspace.inha.ac.kr/pd-fupload/19279.pdf 복합음과 대학생이 발음한 모음 포먼트...
427		구글 코드잼 예선전 후기 6	gilgil	119056		May 09, 2010
427		[프롤로그]온라인으로 치루어 지는 google codejam 예선전에 처음으로 참가해 보게 되었습니다. 하루동안 대회를 접해 보면서 나름대로 재미있는 경험이 되었구요, 대회를 접해 보지 않은 상태에서 나중에 저와 똑같은 실수를 범...
426	Java 기반의 HTTP decoder 6		gilgil	119037		Mar 22, 2010
426	재미있는 코드가 있어서 소개를 할까 합니다. Java 기반의 HTTP decoder입니다. 출처 : http://xeraph.com/52-26932 주석 달아 봤습니다. C 언어와 같은 imperative programming에 익숙한 사람에게 유익할 듯 싶습니다. public c...
425		비밀번호 대·소문자 섞어 쓰라더니… 싸이월드 시스템 구분 못한다 1	gilgil	118948		Aug 15, 2011
425		연일 SK컴즈를 때리는 기사들이 나오고 있군요. 비밀번호 대·소문자 섞어 쓰라더니… 싸이월드 시스템 구분 못한다 여기 저기에서 개발자 탓하는 글들이 보이는데요, 이유는 바로 Caps Lock 때문입니다. 웹뿐만 아니라 메신저들...
424		ReplayPcap 12	gilgil	118946		Nov 21, 2011
424		흥미로운 툴 하나를 발견하여 소개합니다. 일반적인 packet generating tool의 일종으로 보시면 됩니다. http://certteamfast.-blogspot.com/2011/11-/tool-replaypcap.html 재미있는 것이 IPv4 packet을 IPv6 packet으로 변환하는 기능이...
423	“IT 개발자 절대 가면 안 되는 곳” 농협정보시스템		gilgil	118945		Jul 22, 2013
423	http://www.pressbypl-e.com/news/articleVi-ew.html?idxno=23006 흡혈 경제 보고서 - IT 노동자 실태 현장조사 http://www.youtube.c-om/watch?v=qUod1Y2lv64
422	한국 = 단체 사회, 유럽 = 영웅 사회 4		Linux-H4cker	118944		Jun 17, 2010
422	무엇이 더 좋다고는 단정지을 수 없습니다. 위와 같은 것이 그 나라의 국민성을 결정짓기도 하는 중요한 수단이 되기도 합니다. 이것은 이번 월드컵의 국기를 보면서도 알 수 있는데요 ... 유럽의 강력한 국가들은 ... 모...
421	빠른 한국인, 느린 미국인 생산성의 반도 안되는 이유		gilgil	118944		Jan 12, 2010
421	한번 읽어 보시길. http://ko.usmlelibra-ry.com/259
420	즐길 수 없으면 피하라( from : Matt Oh )		gilgil	118943		Jun 23, 2011
420	https://www.facebook-.com/ohjeongwook/pos-ts/10150287291881757-
419	해킹 시연을 끝내고 7		gilgil	118942		Jul 07, 2011
419	태어 나서 이처럼 허탈하고 부끄럽게 안타까운 발표를 한 적은 없었던 것 같습니다. 이에 대해 얘기를 한번 해 보고자 합니다. 준비 과정 지인을 통해서 해킹 시연 의뢰가 들어 왔습니다. 높으신 분들도 참석하는 자리에서 사...
		thread, call, loop을 이용한 CPU performance 측정 12	gilgil	118939		Jun 02, 2011
		다음과 같은 코드가 있습니다. 그냥 for문 돌려서 CPU를 소모하게 하는 코드입니다. 테스트 코드 1void foo(int loopCnt) // 2000000000{ int cnt = loopCnt; for (int i = 0; i < cnt; i++); } loopCnt의 값이 무지...
417	국내 네트워크 패킷 분석과 관련된 블로그		gilgil	118932		Aug 08, 2011
417	http://www.packetins-ide.com/ http://zpacket.blogs-pot.com/
416	구글 코드잼 2010 예선전 통과 국가별 통계를 보고 느낀점 3		Linux-H4cker	118698		Jun 14, 2010
416	인도, 중국 ... Core System Software로는 미국보다 실제 기술력이 더 뛰어난 나라들입니다. 인도의 경우 한국의 수학과 4학년때 배우는 것을 고등학교 3학년때 모두 끝마치죠 ㅡ_ㅡ;;;ㅎ 가령 위상 수학(Topology), 복소 해...
415		SSL Proxy 운영을 위한 Root 인증서 및 Site 인증서 만들기 2	gilgil	118621		Feb 26, 2014
415		SSL Proxy를 운영하기 위해서는 Root CA로부터 받은 하나의 Site 인증서만으로는 구동되지 않고, SSL Proxy 자체적으로 Root 인증서를 가지고 있으면서 실시간으로 Site 인증서를 만들어야 합니다. SSL Proxy 프로그램을...

List

Write

First Page 1 2 3 4 5 6 7 8 9 10 Last Page

thread, call, loop을 이용한 CPU performance 측정

Home

Downloads

Communities

Communities(KR)

Test