DataBaser.Net: 집계부하분산

http://www.sqler.com/?document_srl=505251&mid=bSQLQA&comment_srl=505567&rnd=505567#comment_505567

문제점

사용자에게 10~20초안에 결과를 보여주고 싶은데

10분~20분정도 소요됨

(데이터가 일별 2500만건정도 있음)

(전체 데이터 225억건)




스키마

날짜 varchar(8)

매장 varchar(10)

매출번호 bigint

금액 int




인덱스 - 클러스터드 유닉크  날짜, 매장, 매출번호




SELECT 

  매장

, COUNT(*) AS 개수

, SUM(금액) AS 합계금액 

FROM 매출 (클러스터드 인텍스)

WHERE 날짜 = '20110724' 

GROUP BY 매장 -- select 되는 건 2500만건




사전내용

1.인덱스

2.서버 스팩은 바꿀 수 없음. 

3.MS-SQL SERVER 2005 사용




해본 내용

1. (매출테이블을) 미리 계산하여 생성한 테이블(집계테이블) 사용 

 - 매출테이블의 데이터가 바뀌면(삽입, 수정, 삭제) 데이터가 틀어짐

 - 집계하는 과정에서는 서버의 많은 자원을 사용




2. 테이블 불리

 - 효과는 있으나, 기존 데이터를 사용자에게 보여주기 어려움

 

서버를 바꿀 수도 없고... 바꾼다고 해도 나중에 더 많은 데이터가 들어오면...

소용 없을꺼 같고요... 쿼리로는 최적화가 더 없는거 같은데요...




좋은 개념이나 방법이 없을까요?

나의 답변은..

'집계할 때'는 이미 부하집중입니다.

집계 테이블의 소스는 매출 테이블입니다.

변화는 매출 테이블이 겪습니다. 당연히 매출 테이블에 종속성이 있는 집계 테이블도 변경되어야 합니다.

집계 테이블은 매출 테이블의 스냅샷이라고 볼 수 있습니다.

그러므로 집계 이후의 변경분을 스냅샷에 적용시켜주려면 재집계 하던가 변경된 부분만을 갱신해야겠지요.

이런 경우의 부하분산 솔루션은 단순합니다.

매출 테이블이 변경될 때 집계 테이블도 변경하면 되겠습니다. (distinct count 같은게 없으니..)

간단히 예를 들면,

--입력할 때
begin tran

update 매출집계
set 금액 = 금액 + 1000
where 일자 = '20120101'
and 매장 = 'A매장'

if @@rowcount = 0
insert 매출집계 values('20120101', 'A매장', 1000)

insert 매출 values('20120101', 'A매장', 1000)
commit

--갱신할 때
begin tran
update 매출
set 금액 = 금액 - 5000
where 일자 = '20120101'
and 매장 = 'A매장'

update 매출집계
set 매출 = 매출 - 5000
where 일자 = '20120101'
and 매장 = 'A매장'
commit

--삭제할 때
begin tran

declare @amt int

select @amt = sum(금액)
from 매출
where 일자 = '20120101'
and 매장 = 'A매장'

delete from 매출
where 일자 = '20120101'
and 매장 = 'A매장'

update 매출집계
set 매출 = 매출 - @amt
where 일자 = '20120101'
and 매장 = 'A매장'
commit

문법이 맞나 모르겠네요.

저장 프로시저를 사용하던지, 트리거를 사용하던지 방법이야 여러가지겠지요.

'분할' 이나 '분산'의 글자가 들어가면 필연적으로 복잡해집니다.

복잡성은 돌고돌아 비용상승의 결과를 가져다줍니다.

웬만하면 잘 설득해서 서버자원을 늘리시는게 누이 좋고 매부 좋을 것 같습니다.

사람은 복불복이지만 하드웨어는 거짓말을 안하거든요.