본문 바로가기
홈리포트.
다섯 질문 ②③ · 표본과 분포

평균이 거짓말을 할 때

‘이 단지 평균 8억대’ 같은 한 줄은 편하지만, 평균만큼 사람을 속이기 쉬운 숫자도 드뭅니다. 평균이 언제 거짓말을 하는지, 그리고 같은 데이터에서 진짜 대표값을 어떻게 건져 올리는지 — 산수로 따져 보겠습니다.

글·데이터 분석 김도현 · 부동산 데이터 리포트마지막 업데이트 2026-06-28읽는 시간 약 6산출 방법

연재 실거래가가 말해주지 않는 것 의 한 편입니다.

실거래가는 시장을 보는 가장 정직한 창입니다. 하지만 그 정직한 숫자들을 ‘평균’이라는 한 칸에 욱여넣는 순간, 데이터는 슬그머니 거짓말을 시작합니다. 이 글은 시세를 구하는 실전 절차가 아니라(그건 실거래가 읽는 법에 단계별로 정리해 뒀습니다), 그 숫자를 의심하며 읽는 통계의 기초에 관한 이야기예요. 부동산 데이터를 매일 들여다보는 사람으로서, 저는 ‘평균 얼마’라는 문장 앞에서 가장 자주 멈춰 섭니다.

평균·중위·최빈은 서로 다른 질문에 답한다

세 단어를 같은 뜻으로 쓰는 사람이 많지만, 셋은 전혀 다른 질문에 답합니다. 평균(mean)은 ‘모든 값을 더해 똑같이 나눠 가지면 얼마인가’예요. 그래서 아주 크거나 작은 값 하나에도 민감하게 반응합니다. 중위값(median)은 ‘거래를 금액순으로 줄 세웠을 때 정확히 한가운데에 선 거래는 얼마인가’입니다. 양 끝의 극단값이 아무리 튀어도 가운데 사람은 잘 바뀌지 않아요. 최빈값(mode)은 ‘가장 자주 나온 값(구간)은 어디인가’, 즉 ‘제일 흔한 거래대’를 가리킵니다.

부동산처럼 값이 한쪽으로 길게 늘어지는 데이터에서는 이 셋이 꽤 벌어집니다. 그래서 ‘대표값’으로는 보통 중위값이 평균보다 안전해요. 이 사이트가 지역·단지 시세를 평균이 아니라 중위로 보여 주는 것도 같은 이유입니다. 평균 한 줄을 봤다면, 가장 먼저 물어야 할 건 ‘이건 평균인가 중위인가’입니다.

분포가 기울면 평균이 끌려간다

거래 금액을 낮은 쪽부터 높은 쪽까지 늘어놓은 모양을 분포라고 합니다. 집값 분포는 대개 오른쪽으로 긴 꼬리를 가져요. 싼 거래에는 바닥이 있지만(0원 아래로는 안 갑니다), 비싼 거래는 로열층·올수리·대형 평형으로 위쪽으로 길게 뻗을 수 있거든요. 이렇게 한쪽으로 기운 분포에서는 평균이 꼬리 쪽(비싼 쪽)으로 끌려갑니다. 결과적으로 평균은 ‘가운데’보다 높게 잡혀요.

현실의 예를 들면 이렇습니다. 같은 평형 거래 대부분이 8억대 초중반에 몰려 있는데, 펜트하우스 한 채가 13억에 팔렸다고 합시다. 평균을 내면 그 13억이 모두에게 골고루 ‘나눠 섞여’ 평균을 끌어올립니다. 정작 이 단지에서 실제로 만날 매물의 가격대는 8억대인데, 평균만 보면 ‘9억쯤 하나 보다’ 하고 오해하게 되는 거죠. 분포가 기울어 있을 때 평균을 대표값으로 쓰면 안 되는 이유입니다.

한 건이 평균을 흔드는 산수

말보다 숫자가 빠릅니다. 아래는 설명을 위해 만든 가정 예시예요(특정 단지와 무관합니다). 같은 평형 정상 거래 5건이 있고, 거기에 특이 거래(예: 특수관계 직거래) 한 건이 끼었을 때 평균과 중위값이 각각 어떻게 움직이는지 보겠습니다.

특이 거래 한 건이 평균·중위값에 미치는 영향 (가정 예시)

표를 좌우로 넘겨 보세요 →

구성거래 금액(억 원)평균중위값
정상 거래 5건8.2 · 8.4 · 8.5 · 8.6 · 8.88.58.5
+ 특이 거래 1건위 5건 + 11.0약 8.928.55

단위: 억 원. 설명용 가정 수치이며 특정 단지와 무관합니다. 특이값 한 건이 들어오자 평균은 약 4천만 원 뛰었지만 중위값은 5백만 원만 움직였습니다. 같은 데이터, 다른 결론.

평균은 특이값 하나에 4천만 원이나 끌려갔지만, 중위값은 거의 제자리였습니다. 만약 이 단지의 ‘시세’를 평균(8.92억)으로 받아들이면, 실제 시세대(8억대 중반)보다 한참 높은 값을 기준으로 협상하게 됩니다. 부동산에서 ‘얼마 전 신고가가 나왔다’는 말이 위험한 것도 이 산수 때문이에요. 높은 한 건은 평균과 ‘분위기’를 동시에 끌어올립니다.

표본이 적다는 건 ‘모른다’에 가깝다

동전을 두 번 던져 둘 다 앞면이 나왔다고 ‘이 동전은 항상 앞면’이라고 말할 수는 없습니다. 표본이 적으면 우연이 사실처럼 보이기 때문이에요. 거래가 1년에 서너 건뿐인 나홀로 아파트나 비인기 평형에서 ‘중위값’을 구한들, 그건 ‘세 건 중 가운데 한 건’일 뿐 단지의 진짜 시세를 대표한다고 보기 어렵습니다. 적은 표본의 평균·중위는 ‘안다’가 아니라 ‘아직 잘 모른다’의 다른 말입니다.

그래서 거래가 드문 단지를 볼 때 저는 숫자 하나로 단정하지 않고, ① 거래 건수를 먼저 확인하고 ② 개별 거래의 맥락(층·향·거래 유형)을 직접 들여다보며 ③ 인근의 비슷한 연식·평형 단지 흐름을 보조선으로 함께 봅니다. 거래가 드물다는 사실 자체가 나중에 되팔 때의 환금성 위험 신호이기도 하고요. 거래 건수는 실거래가 화면에서, 동네 전반의 거래 분위기는 지역 정보시세 스코어카드에서 묶어 보면 감이 잡힙니다.

보이지 않는 표본: 거래된 집만 보인다

가장 놓치기 쉬운 함정은 화면에 ‘보이는’ 데이터가 아니라 보이지 않는 데이터에 있습니다. 실거래가는 말 그대로 ‘거래가 일어난 집’만 기록해요. 팔리지 않아 매물로 남아 있는 집, 아예 시장에 안 나온 집, 호가만 높게 걸려 거래로 이어지지 않은 집은 통계에 단 한 줄도 남기지 않습니다. 통계학에서 말하는 선택편향(selection bias)이에요. ‘거래된 집’의 평균은 ‘그 단지 모든 집’의 평균과 다를 수 있습니다.

예를 들어 어떤 시기에 한 단지에서 저층·소형 위주로만 거래가 성사됐다면, 그 시기 중위가는 단지 전체가 아니라 ‘싸게라도 팔린 집들’을 대표합니다. 반대로 대형·로열층만 거래된 시기의 숫자는 단지를 실제보다 비싸 보이게 만들어요. 같은 단지의 중위가가 시기마다 출렁이는 데는 시장 변동뿐 아니라, 그달에 ‘어떤 집이 거래됐는가’라는 표본 구성의 차이도 섞여 있습니다.

전세가율을 읽을 때 이 선택편향은 한층 더 고약해집니다. 매매로 잡힌 표본과 전세로 잡힌 표본이 서로 다른 집들일 수 있거든요. 그 이야기는 시리즈의 다음 편 전세가율이 숨기는 것에서 따로 다룹니다.

그래서, 평균 한 줄을 어떻게 읽나

정리하면 이렇습니다. 시세 한 줄을 만났을 때 저는 늘 네 가지를 차례로 물어요. (1) 평균인가 중위인가 — 기울어진 분포에서는 중위가 안전합니다. (2) 몇 건으로 만든 값인가 — 건수가 적으면 결론을 보류합니다. (3) 분포가 어떻게 생겼나 — 최저·최고·가운데를 함께 보고, 홀로 튀는 값은 일단 빼 둡니다. (4) 누가 빠졌나 — 그달 거래된 집들이 단지를 대표하는지 의심합니다.

이 네 질문을 통과한 숫자라야 비로소 ‘협상의 기준선’으로 쓸 만합니다. 제시받은 호가가 그 기준선 안쪽인지 빠르게 견줘 보려면 매물 가격 체크로 최근 실거래 분포와 직접 비교해 보세요. 그리고 같은 평형이라도 옆 단지와 왜 가격이 갈리는지는 옆 단지와 가격차 분해에서, 분포 안에서 ‘진짜 싼 값’을 가려내는 법은 진짜 급매를 가려내는 신호에서 이어 볼 수 있습니다. 숫자는 의심할수록 정확해집니다.

실거래가·아파트 시세 관련 뉴스

언론사 RSS

한국경제·파이낸셜뉴스 부동산 기사 헤드라인입니다. 제목을 누르면 해당 언론사 원문으로 이동합니다.

자주 묻는 질문

왜 평균보다 중위값을 더 믿어야 하나요?+

집값 분포는 보통 비싼 쪽으로 긴 꼬리를 가져, 고가 거래 몇 건이 평균을 위로 끌어올립니다. 평균은 이 극단값에 민감하지만 중위값(줄 세웠을 때 한가운데 값)은 잘 흔들리지 않아 ‘보통 거래’를 더 잘 대표합니다. 다만 중위값도 표본이 적으면 신뢰도가 떨어지니, 거래 건수를 함께 봐야 합니다.

거래가 몇 건이면 시세를 믿어도 되나요?+

딱 떨어지는 기준은 없지만, 거래가 적을수록 한 건의 영향력이 커진다는 원리는 분명합니다. 서너 건뿐이라면 대표값 하나로 단정하지 말고 개별 거래의 층·향·거래 유형을 직접 보고, 인근 비슷한 단지의 흐름을 보조선으로 함께 보세요. 건수가 함께 표시되지 않은 시세는 절반만 믿는 편이 안전합니다.

‘신고가가 나왔다’는 말은 얼마나 믿어야 하나요?+

한 건의 최고가는 평균과 시장 분위기를 동시에 끌어올리기 때문에 협상에서 가장 흔히 쓰이는 카드입니다. 그 한 건이 직거래·특수관계 거래는 아닌지, 나중에 해제(취소)되지는 않았는지부터 확인하세요. 나머지 거래들과 홀로 크게 떨어져 튀는 값이라면 시세의 근거가 아니라 예외로 두는 편이 안전합니다.

선택편향이 부동산 시세에서 왜 문제가 되나요?+

실거래가는 ‘거래된 집’만 기록하고 안 팔린 집·안 내놓은 집은 빠뜨립니다. 특정 시기에 저층·소형만, 또는 대형·로열층만 거래되면 그달 중위가가 단지 전체를 대표하지 못합니다. 같은 단지 시세가 달마다 출렁이는 데는 시장 변동뿐 아니라 ‘그달 어떤 집이 거래됐는가’라는 표본 구성의 차이도 섞여 있습니다.

참고한 공식 자료

본문의 제도·통계 개념은 아래 공식 출처를 바탕으로 정리했습니다. 본문의 수치 예시는 설명을 위한 가정값이며 특정 단지·시점과 무관합니다. 제도와 기준은 자주 바뀌므로 적용 시점에 원문을 다시 확인하세요.

안내
여기 표시되는 대표가·전세가율·평형별 시세와 가격·전세위험 점검 결과는 국토교통부 실거래가 등 공개 데이터를 단순화해 산출한 참고용 추정치입니다. 실거래 신고는 계약 뒤 수십 일에 걸쳐 들어오고 정정·취소되기도 해서 화면의 값이 지금 시장과 어긋날 수 있으며, 같은 단지라도 동·층·향이나 등기부상 근저당·임차권 같은 개별 매물의 권리관계는 이 수치에 담기지 않습니다. 실제 매수·전세 계약과 보증금·대출·세금 판단은 등기부등본을 떼어 확인하고 공인중개사·세무 전문가와 함께 검토하세요.

이 시리즈의 다른 글

도구로 확인하기

글에서 다룬 의심을 본인 매물의 숫자로 직접 따져 볼 수 있는 도구입니다.

함께 보면 좋은 가이드