📊 2주만 기록하면 보인다: 습관 데이터의 힘 (Pearson 상관 기초)
"운동을 한 날은 수면 점수가 좋다", "카페인을 마신 날은 집중 시간이 짧다" 같은 체감은 누구나 가지고 있습니다. 문제는 이 체감이 객관적인지, 진짜 인과관계인지, 아니면 단순한 우연인지 알기 어렵다는 점입니다. 2주간의 기록이 이 물음에 대한 첫 번째 단서를 제공합니다. 이번 글에서는 Pearson 상관계수의 의미, 인과관계와 상관관계의 차이, 다중 회귀(R²)의 기초, 그리고 습관 피라미드가 자동으로 계산해주는 것을 정리합니다.
1. 왜 2주인가
통계학에서 2주(14일) 데이터는 두 가지 의미를 가집니다. 첫째, 일상 리듬의 한 주기(working week + weekend)를 한 번 이상 포함해 주중/주말 패턴을 비교할 수 있습니다. 둘째, 행동과학 연구에서 자기보고 기반 단기 추적의 최소 단위로 자주 사용됩니다. Lally 2010의 참가자도 평균 2주 단위로 자동성 점수를 점검했습니다.
2주 데이터는 방향성 추정의 첫 신호를 제공합니다. 정확하지는 않지만, "이 방향으로 더 데이터를 모으면 알 수 있을 것 같다"는 가설을 세울 수 있습니다. 1주(7일) 데이터는 너무 일과 편중된 단일 패턴에 가깝고, 4주(28일) 데이터는 행동 변화에 따라 신뢰도가 올라가지만 모이는데 4주가 걸립니다. 2주는 속도와 신뢰도의 균형점입니다.
2. Pearson 상관계수: -1에서 +1까지
영국 수학자 Karl Pearson이 1895년 Philosophical Transactions of the Royal Society에 발표한 Notes on regression and inheritance에서 도입한 상관계수는 두 변수 사이의 선형 관계를 -1에서 +1 사이 숫자로 요약합니다.
- r = +1.0: 완벽한 양의 상관. 한 변수가 올라가면 다른 변수도 정확히 같은 비율로 올라감
- r = 0.0: 선형 상관 없음. 두 변수는 통계적으로 독립
- r = -1.0: 완벽한 음의 상관. 한 변수가 올라가면 다른 변수는 정확히 같은 비율로 내려감
실제 데이터에서 r = 1.0이 나오는 경우는 거의 없고, 보통 r = ±0.3 이상이면 "약한 상관", ±0.5 이상이면 "중간 상관", ±0.7 이상이면 "강한 상관"으로 해석합니다. 통계학자 Jacob Cohen(1988, Statistical Power Analysis for the Behavioral Sciences)은 이 기준을 학계 표준으로 자리잡게 했습니다.
3. 2주 데이터에서 자주 보이는 패턴
14일간 일상 습관을 기록하면 자주 나타나는 패턴 다섯 가지를 소개합니다. 모두 가상의 데이터이지만, 실전에서 흔히 관측되는 방향성입니다.
패턴 1: 운동 ↔ 수면 (보통 양의 상관)
실제로 30분 이상 운동을 한 날의 수면 점수가 평균 0.6점 높게 나오는 경우가 많습니다. r 값은 보통 +0.4~+0.6 사이. 이는 운동이 수면을 개선한다는 일관된 메타 분석 결과와 일치합니다 (Kredlow et al., 2015, Journal of Behavioral Medicine).
패턴 2: 카페인 ↔ 수면 (보통 음의 상관)
오후 3시 이후 카페인 섭취가 있는 날, 수면 점수가 평균 0.8점 낮게 나오고 r은 보통 -0.5~-0.7입니다. 이는 카페인 반감기(4~6시간)와 일치합니다.
패턴 3: 명상 ↔ 스트레스 자기평가 (보통 양의 상관, 약함)
5분 명상을 한 날의 자기보고 스트레스가 낮게 나오는 패턴은 r = +0.2~+0.4 정도로 약하게 관측됩니다. 효과가 작지만 일관되면 의미가 있습니다.
패턴 4: 스크린타임 ↔ 집중 시간 (보통 음의 상관)
취침 전 1시간 스크린 사용 시간과 다음 날 아침 집중 시간 사이에는 r = -0.3~-0.5 정도의 음의 상관이 자주 보고됩니다.
패턴 5: 물 섭취 ↔ 두통 (보통 음의 상관)
하루 물 1.5리터 미만인 날 두통 점수가 0.3점 정도 높게 나오는 패턴이 자주 보이며, r = -0.2~-0.4 사이입니다.
4. 인과관계 vs 상관관계: 가장 큰 오해
Pearson 상관계수가 보여주는 것은 "함께 움직이는 정도"일 뿐, "A가 B를 일으킨다"는 인과관계를 증명하지 않습니다. 이 차이를 잘못 이해하면 잘못된 결론을 내리기 쉽습니다.
- ice-cream 예시: 아이스크림 판매량과 익사 사고율이 양의 상관(r = +0.8)이다. → "아이스크림이 익사를 일으킨다"는 잘못된 결론. 실제로는 두 변수의 공통 원인인 여름 더위가 두 변수를 모두 증가시킨 것입니다.
- 조는 학생 예시: 수업 중 조는 학생과 시험 점수가 음의 상관(r = -0.6)이다. → "졸음이 시험 점수를 떨어뜨린다" 또는 "낮은 시험 점수가 졸음을 유발한다" 어느 쪽도 가능. 인과 방향을 알기 위해선 추가 설계(실험군·대조군 비교)가 필요합니다.
습관 데이터에서도 같은 함정이 발생합니다. "운동한 날 수면 점수가 좋다"는 패턴은 ① 운동이 수면을 개선한다 ② 잘 잔 날 운동한다 ③ 둘 다 좋은 날이 있다의 세 가지 방향 모두 가능합니다. 2주 데이터는 이 중 어느 쪽인지 확정하지 못합니다. 하지만 "이 방향으로 데이터를 더 모으면 알 수 있다"는 첫 단서를 줍니다.
5. 2주 데이터에서 인과 방향을 추정하는 3가지 단서
2주 데이터만으로 인과관계를 단정할 수는 없지만, 다음 세 가지 단서를 함께 보면 방향성 추정의 정확도를 높일 수 있습니다.
- 시간 순서(temporal precedence): A가 먼저, B가 나중에 일어나는가? 운동은 보통 낮에, 수면은 밤에 발생합니다. 시간 순서가 명확하면 "운동 → 수면" 방향이 더 자연스럽습니다.
- 생물학적 개연성(mechanism): 인과 메커니즘이 알려진 이론과 일치하는가? 운동 후 체온 상승과 코르티솔 패턴 변화는 수면에 영향을 줄 수 있다는 메커니즘이 존재합니다.
- 일관성(consistency): 다른 연구·메타 분석과 같은 방향인가? 운동-수면 관계는 적어도 10개 이상의 메타 분석에서 같은 방향을 보고합니다.
이 세 단서를 모두 만족하면 "아마 이 방향이 맞을 것이다"는 가설 수준의 결론을 내릴 수 있습니다. 1~2개만 만족하면 "흥미로운 단서, 더 데이터가 필요함" 정도로 다루는 것이 안전합니다.
6. 다중 회귀(R²): 습관이 여러 개일 때
실제 생활에서는 한 결과에 여러 습관이 영향을 줍니다. "내 기분 점수"는 수면, 운동, 명상, 카페인 섭취, 스크린타임 등 5가지 습관의 영향을 동시에 받을 수 있습니다. 이때 사용하는 통계가 다중 회귀(multiple regression)입니다.
다중 회귀의 핵심 출력은 R² (결정계수)입니다. R²은 "목표 변동이 모델로 얼마나 설명되는가"를 0에서 1 사이로 나타냅니다.
- R² = 0.20: 내 기분 점수 변동의 20%가 수면·운동·명상·카페인·스크린타임의 조합으로 설명됨. 즉 80%는 다른 요인(날씨, 사람 관계, 업무 스트레스 등).
- R² = 0.50: 변동의 50% 설명. 꽤 강한 예측 모델.
- R² = 0.80: 변동의 80% 설명. 매우 강한 모델이지만, 일반 생활 습관 데이터에서는 거의 나타나지 않음.
습관 피라미드는 사용자가 5개 이하 습관을 추적할 때 자동으로 R²을 계산해 "이 5개 습관의 조합이 내 컨디션 변동의 몇 %를 설명하는가"를 인사이트로 제공합니다. R² = 0.20~0.30 정도가 일반적이며, R² = 0.40 이상이면 그 습관 조합이 자기 컨디션에 의미 있는 영향을 준다고 해석할 수 있습니다.
7. 2주 vs 4주 vs 12주: 데이터 길이별 차이
같은 습관을 다른 길이로 기록하면 분석 결과의 신뢰도가 달라집니다. 일반적인 가이드라인은 다음과 같습니다.
- 2주(14일): 방향성 탐색 단계. "이 패턴이 존재할 수도 있다"는 첫 단서. r 값은 ±0.2 정도의 노이즈가 섞여 있어 단정하면 안 됨.
- 4주(28일): 가설 검증 단계. 4주 동안 같은 패턴이 반복되면 r 값의 노이즈가 줄고 ±0.1 정도로 안정됨. 4주 데이터를 모으면 "이 패턴이 실제 관계일 가능성이 높다"고 말할 수 있음.
- 12주(84일): 행동 변화 추적 단계. Lally 2010 연구와 같은 길이. 12주 동안 패턴이 일관되면 인과 방향까지 추정 가능.
따라서 2주 데이터로 시작해 4주까지 모은 다음, "이 패턴이 진짜인가?"를 가설 수준으로 점검하고, 12주까지 일관되면 그때 행동 변화에 활용하는 것이 효율적인 흐름입니다.
8. 습관 피라미드가 자동으로 계산해주는 것
습관 피라미드는 5개 습관까지 무료로 추적할 수 있는 PWA입니다. 데이터는 기기 내 IndexedDB에 저장되며 서버로 전송되지 않습니다. 2주(14일) 이상의 데이터가 쌓이면 다음 다섯 가지 인사이트를 자동으로 계산해 제공합니다.
- 습관 ↔ 컨디션 상관: 각 습관 점수와 컨디션 점수 사이의 Pearson r 값 (0~+1, -1~0 표시)
- 습관 ↔ 습관 상관: 습관 A와 습관 B 사이의 r 값. 예: 운동 ↔ 수면 r = +0.55
- 설명력(R²): 모든 습관의 조합이 컨디션 변동을 얼마나 설명하는지
- 상위 3개 영향 습관: R²에 가장 많이 기여하는 습관 3개 (절대값 기준)
- 요일별 평균: 월~일 각 요일의 습관 평균 점수. 주중/주말 패턴이 다른지 확인 가능
이 인사이트는 모두 기기에서 계산되므로 서버 비용이 0원이고, 데이터가 외부로 전송되지 않습니다. 또한 통계 용어를 모르더라도 "운동한 날 컨디션이 평균 0.6점 더 좋았어요"처럼 자연어로 표시됩니다.
9. 데이터 해석 시 흔한 오해 5가지
자기 데이터를 해석할 때 자주 빠지는 오해 다섯 가지를 짚어봅니다.
- "r = 0.7이면 인과관계다." — r은 선형 관계의 강도일 뿐 인과 방향을 알려주지 않습니다.
- "2주 데이터로 확신해도 된다." — 2주 데이터는 첫 단서일 뿐입니다. 같은 패턴이 4주 이상 반복될 때 가설 수준으로 다룰 수 있습니다.
- "R² = 0.80이면 완벽한 모델이다." — R² = 0.80은 모델이 데이터를 잘 설명한다는 의미지, 인과 메커니즘이 입증되었다는 의미가 아닙니다.
- "r = 0이면 아무 관계도 없다." — r은 선형 상관만 측정합니다. U자형·역U자형 같은 비선형 관계는 r = 0으로 나옵니다.
- "양의 상관이 있으면 무조건 좋다." — 강박 행동(예: SNS 사용과 불안 증가)도 양의 상관으로 나타납니다. 양의 상관 자체가 좋고 나쁨의 기준은 아닙니다.
10. 자기 객관화의 첫 단계로서의 기록
2주간의 기록이 가장 큰 가치가 있는 지점은 "체감이 데이터로 바뀌는 순간"입니다. "운동을 해야 할 것 같아"는 막연한 신념이 "내 데이터에서 운동 후 수면 점수가 평균 0.6점 더 높았다"는 구체적 사실로 바뀌면, 행동 변화의 동기 부여가 훨씬 강해집니다. 반대로 "나는 명상이 잘 안 맞는 사람 같아"는 생각이 "내 데이터에서 명상 일수와 스트레스 점수 사이 r = +0.1로 거의 무관했다"는 사실로 바뀌면, 불필요한 자기 비난을 멈출 수 있습니다.
습관 피라미드의 인사이트는 자기 객관화의 도구입니다. 잘한 점을 확인하고, 효과가 없는 습관은 과감히 줄이는 데 사용하세요. 데이터는 의지력보다 안정적인 자기객관화 도구이며, 2주라는 짧은 시간에도 충분히 의미 있는 첫 신호를 줄 수 있습니다.
11. 자주 묻는 질문
이 주제에 대해 자주 받는 질문 세 가지를 짧게 답하면서 마무리하겠습니다. 첫째, "데이터가 적으면 어떻게 하나요?" — 5일 미만의 데이터는 분석하지 않고 "데이터 부족"으로 표시됩니다. 14일 이상이 되면 첫 인사이트가 나옵니다. 둘째, "잠을 못 잔 날이 운동에도 영향을 주나요?" — 네, 이런 효과를 혼동 변수(confounder)라고 부릅니다. 수면이 운동과 컨디션 양쪽에 모두 영향을 줄 수 있으므로, 단순 r 값만으로 인과 방향을 단정하면 안 됩니다. 셋째, "하루만 빼고 매일 기록한 데이터도 분석 가능한가요?" — 결손치 처리는 단순 평균 대체보다 인접일 보간이 통계적으로 더 안정적입니다. 습관 피라미드는 결손치를 인접일 평균으로 보간해 분석합니다.
출처 (1차 자료)
- Pearson, K. (1895). Notes on regression and inheritance in the case of two parents. Proceedings of the Royal Society of London, 58, 240–242. https://doi.org/10.1098/rspl.1895.0041
- Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum. https://doi.org/10.4324/9780203771587
- Kredlow, M. A., et al. (2015). The effects of physical activity on sleep: A meta-analytic review. Journal of Behavioral Medicine, 38(3), 427–449. https://doi.org/10.1007/s10865-015-9617-6
- Lally, P., et al. (2010). How are habits formed. European Journal of Social Psychology, 40(6), 998–1009.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5th ed.). SAGE. (인과관계와 상관관계 구분, R² 해석의 표준 교재)
본 글의 통계 해석은 일반 가이드이며 의료·임상 통계 조언이 아닙니다. 건강 상태 평가나 치료 효과 판정은 의사·임상심리전문가와 상의하세요. 본 앱은 자기계발 보조 도구이며 의료 도구가 아닙니다. 응급 상황 시 119, 자살예방상담전화 1393, 정신건강위기상담전화 1577-0199로 연락하시기 바랍니다.
광고