전체 글 32

파이썬으로하는 교차분석(Chisquare)

1. 교차분석¶ 교차분석은 두 범주 변인 간 관계가 상호 독립 관계인지 아니면 상호 연관성을 맺고 있는지를 검증하는 방법 적합도 검정, 독립성 검정, 동일성 검정에 사용된다. 카이제곱 검정 통계량을 이용 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expected frequency) 간에 얼마만큼의 차이가 있는지를 카이제곱 분포(chi-squared distribution)를 참조해 통계적으로 검증하는 통계 기법이다. 여기서 기대빈도는 모집단의 빈도 모수(parameter)와 일치하는 값이다. 2. 적합도 검정¶ k개의 범주 (혹은 계급)을 가지는 한 개의 요인(factor)에 대해서 어떤 이론적 분포를 따..

Statistics 2021.08.03

파이썬으로하는 이원배치 분산분석 (Two-way ANOVA)

1. 이원배치 분산분석 (Two-way ANOVA)¶ 독립변인의 수가 두 개 이상일 때 집단 간 차이가 유의한지를 검증하는 데 사용 상호작용효과(Interaction effect), 한 변수의 변화가 결과에 미치는 영향이 다른 변수의 수준에 따라 달라지는지를 확인하기 위해 사용 2. Example¶ 태아의 머리 둘레 측정 데이터. 4명의 관측자가 3명의 태아를 대상으로 측정. 이를 통해서 초음파로 태아의 머리 둘레측정 데이터가 재현성이 있는지를 조사 In [1]: import pandas as pd import numpy as np import urllib import matplotlib.pyplot as plt inFile = 'altman_12_6.txt' url_base = 'https://raw...

Statistics 2021.08.03

파이썬으로하는 일원배치 분산분석 (one-way ANOVA)

1. 일원배치 분산분석 (one-way ANOVA)¶ 분산분석은 두 개이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 데이터 분석방법 : 여러 그룹간의 평균의 차이가 통계적으로 유의미 한지를 판단하기 위한 시험법 일원배치 분산분석은 반응값에 대해 하나의 범주형 변수의 영향을 알아보기 위해 사용되는 검증방법 : 한가지 변수의 변화가 결과 변수에 미치는 영향을 보기 위해 사용 F 검정 통계량을 이용 각 집단의 측정치는 서로 독립적이며 정규분포를 따른다.(정규성 가정) / 각 집단 측정치의 분산은 같다. (등분산 가정) 2. Example 1¶ 22명의 심장 수술을 받은 환자를 3가지 그룹으로 나누고 적혈구의 엽산 수치를 24시간 이후에 측정하였음. In [1]: import numpy..

Statistics 2021.08.03

파이썬으로하는 T 검정(T-test)

1. T - 검정¶ 1.1 일표본 t-검정 (one sample t-test)¶ 단일모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교하고자할 때 일표본t검정에서는 모집단의 구성요소들이 정규분포를 이룬다는 가정하에 검정통계량 값을 계산/ 종속변수는 연속형 변수여야 하며 검증하고자 하는 기준값이 있어야 한다. 단일 모집단에서 알고자하는 값이 종속변수가 되며, 설정한 기준값과 종속변수의 평균값 사이의 차이가 통계적으로 유의하다면 두 값이 다르다고 결론을 내릴 수 있음 Example¶ A과수원에서 생산된 사과의 평균무게는 200g으로 알려져있다. 실제로도 그러한지 알아보기 위해 과수원에서 생산되는 사과15개를 임의로 뽑아서 무게를 측정. 해당 데이터를 가지고 A과수원에서 생산되는 전체사과 무게의..

Statistics 2021.08.03

백준 2468번 : 안전 영역(python)

https://www.acmicpc.net/problem/2468 2468번: 안전 영역 재난방재청에서는 많은 비가 내리는 장마철에 대비해서 다음과 같은 일을 계획하고 있다. 먼저 어떤 지역의 높이 정보를 파악한다. 그 다음에 그 지역에 많은 비가 내렸을 때 물에 잠기지 않는 www.acmicpc.net n = int(input()) data = [list(map(int,input().split())) for _ in range(n)] max_value = max(max(data)) temp = [[0]*n for _ in range(n)] dx = [-1,1,0,0] dy = [0,0,-1,1] def dfs(x,y,temp): q = [(x,y)] temp[x][y] = 0 while q: x,y =..

알고리즘 2021.07.26

백준 10026번 : 적록색약(python)

https://www.acmicpc.net/problem/10026 10026번: 적록색약 적록색약은 빨간색과 초록색의 차이를 거의 느끼지 못한다. 따라서, 적록색약인 사람이 보는 그림은 아닌 사람이 보는 그림과는 좀 다를 수 있다. 크기가 N×N인 그리드의 각 칸에 R(빨강), G(초록) www.acmicpc.net import copy n = int(input()) data = [list(input()) for _ in range(n)] red_green = copy.deepcopy(data) for i in range(n): for j in range(n): if red_green[i][j] == 'G': red_green[i][j] = 'R' dx = [0,1,0,-1] dy = [1,0,-1,0..

알고리즘 2021.07.26

백준 2583번 : 영역 구하기(python)

https://www.acmicpc.net/problem/2583 2583번: 영역 구하기 첫째 줄에 M과 N, 그리고 K가 빈칸을 사이에 두고 차례로 주어진다. M, N, K는 모두 100 이하의 자연수이다. 둘째 줄부터 K개의 줄에는 한 줄에 하나씩 직사각형의 왼쪽 아래 꼭짓점의 x, y좌표값과 오 www.acmicpc.net m,n,k = map(int,input().split()) data = [[0]*n for _ in range(m)] dx = [-1,1,0,0] dy = [0,0,-1,1] for _ in range(k): a1,a2,b1,b2 = map(int,input().split()) for j in range(a1,b1): for k in range(a2,b2): data[k][j]..

알고리즘 2021.07.26

백준 2667번 : 단지번호붙이기(python)

https://www.acmicpc.net/problem/2667 2667번: 단지번호붙이기 과 같이 정사각형 모양의 지도가 있다. 1은 집이 있는 곳을, 0은 집이 없는 곳을 나타낸다. 철수는 이 지도를 가지고 연결된 집의 모임인 단지를 정의하고, 단지에 번호를 붙이려 한다. 여 www.acmicpc.net n = int(input()) data = [list(map(int, input())) for _ in range(n)] dx = [-1, 1, 0, 0] dy = [0, 0, -1, 1] def dfs(x, y): count = 1 data[x][y] = 0 q = [(x, y)] while q: x, y = q.pop() for i in range(4): nx, ny = x + dx[i], y ..

알고리즘 2021.07.26

백준 7576번 : 토마토(python)

https://www.acmicpc.net/problem/7576 7576번: 토마토 첫 줄에는 상자의 크기를 나타내는 두 정수 M,N이 주어진다. M은 상자의 가로 칸의 수, N은 상자의 세로 칸의 수를 나타낸다. 단, 2 ≤ M,N ≤ 1,000 이다. 둘째 줄부터는 하나의 상자에 저장된 토마토 www.acmicpc.net from collections import deque m,n = map(int,input().split()) box = [list(map(int,input().split())) for _ in range(n)] ripe = deque() for i in range(n): for j in range(m): if box[i][j] == 1: ripe.append((i,j)) dx = ..

알고리즘 2021.07.26

결정트리 작동원리, 시각화/graphviz 에러 해결

# tree모양 시각화를 하면 에러가 많이 납니다... graphviz의 경로 문제 때문인것 같은데 Graphviz 실행 파일을 pip install graphviz로 설치하지 마시고 conda로 설치하면 저는 문제가 해결됐습니다.. conda install python-graphviz 1. Tree-Based Methods¶ 트리기반의 모델들은 설명변수의 공간을 다수의 영역으로 분할하는 것을 포함 주어진 관측치에 대한 예측을 하기 위해 보통 그 관측치가 속하는 영역의 훈련 관측치들의 평균 또는 최빈값을 사용 트리기반의 방법들은 해석하기 쉽고 유용 아래의 예시와 tree모형을 직접 보면서 트리기반의 모델들이 어떻게 학습하고 예측하는지 알아봅시다. 2. Iris 예제 사용¶ In [29]: from skl..

MachineLearning 2021.06.26