이지훈님의 블로그
Decision Tree + C4.5알고리즘 c4.5 특징1. 수치형 자료를 처리한다.2. 불완전한 데이터를 처리한다.3; 가지치기로 과적합을 해결한다. GainRatio Information Gain의 문제점은 많은 측정값을 가진 속성으로 편향된다는 것이다. ID_CODE와 Outlook의 Information Gain을 구해보자. Gain(Outlook) = E(Play) - E(Play, OutLook) = 0.94 - 0.69Gain(ID_CODE) = E(Play) - E(Play, ID_CODE) = 0.94 - 0 ID_CODE Outlook Play? 1 sunny No 2 sunny No 3 overcast Yes 4 rain Yes 5 rain Yes 6 rain N..
Decision Tree(결정트리) 어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로써 결정 트리를 사용한다. 장점 1. 결과를 해석하고 이해하기 쉽다.간략한 설명만으로 결정 트리를 이해하는 것이 가능하다.2. 자료를 가공할 필요가 거의 없다.다른 기법들의 경우 자료를 정규화하거나 임의의 변수를 생성하거나 값이 없는 변수를 제거해야 하는 경우가 있다.3. 수치 자료와 범주 자료 모두에 적용할 수 있다.4. 대규모 데이터 세트도 잘 동작한다. 한계 1. 휴리스틱 기법을 기반하기 때문에 최적 결정트리라고 보장할 수 없다.2. 너무 복잡한 결정트리를 만들 수 있다.3. 약간의 차이에 따라 (레코드의 개수의 약간의 차이) 트리의 모양이 많이 달라질 수 있다. 두 변수가 비슷한 수준의 정보력을 갖는다고..
주성분분석 (PCA) 고차원의 데이터를 저차원의 데이터로 환원시키는 기법이다. 새로운 변수를 원 변수의 선형결합으로 만들어 변수를 축약한다. 장점 : 고차원의 데이터를 큰 정보손실없이 변환해 준다.시각화 편리 -> 변수를 줄임 -> 학습집합의 크기를 줄여줌 -> 학습 시 빠름 한계 : 특징벡터의 Label을 고려하지 않음. 결과값이 특징구분을 좋게한다는 보장은 없음. PCA분석을 이해하기 위해서는 공분산, 고유벡터와 고유값에 대한 개념이 필요하다. 공분산 2개의 확률변수의 상관정도를 나타내는 값이다. cov(x, y) > 0 이면 x가 증가할 때 y도 증가 cov(x, y) < 0 이면 x가 증가할 때 y는 감소 cov(x, y) = 0 이면 상관관계가 없음 다른 차원과의 공분산을 모두 구하고 행렬에 넣..