본문 바로가기

동아리

(23)
앙상블 여러개의 알고리즘을 사용, 그 예측을 결합해 보다 정확한 예측을 도출하는 기법. 단일의 강한 알고리즘보다 복수의 약한 알고리즘이 더 뛰어날 수 있다는 생각에 기반 보팅 / 배깅 / 부스팅 세 가지의 유형으로 나눌 수 있음 보팅 여러 모델에서 구해진 예측값들을 투표를 통해 결정 서로 다른 알고리즘을 여러 개 결합해 사용 하드보팅 다수의 분류기가 예측한 결과값을 최종 결과로 선정 (다수결 원칙과 유사) 소프트 보팅 각 알고리즘이 예측한 레이블 값 결정 확률을 예측해서. 이것의 평균을 구한 뒤 가장 확률이 높은 레이블 값을 최종 결과로 선정. 1일 확률 = (0.7 + 0.2 + 0.8 + 0.9) / 4 = 0.65 2일 확률 = (0.3 + 0.8 + 0.2 + 0.1) / 4 = 0.35 1일 확률 > ..
자바 3차시 객체 지향 프로그래밍 (Object Oriented Programming; OOP) 좀 더 나은 프로그램을 만들기 위한 프로그래밍 패러다임, 로직을 상태(state) , 행위 (behave)로 이루어진 객체를 만드는 것 -> 객체 지향 프로그래밍은 객체를 만드는 것. 부품화 프로그램은 실체가 없고, 무한, 유연함이 장점. 이러한 특성은 오해나 모순 등의 문제점을 유발 -> 소프트웨어도 문제점을 그대로 상속, 따라서 부품화로 해결 현재는 부품화를 제거하는 추세 -> 기술의 경량화, 컴퓨터가 더 작아짐, 그 결과 부품화 하는 것이 반감됨. 객체 지향과 부품하는 동일하지는 않음, 소프트웨어의 큰 흐름은 객체 지향이 만들어지는데 공헌. 예) 자바의 메소드 목적 - 연관되어 있는 로직들을 결합해 메소드라는 완제품..
로지스틱 회귀 종속 변수와 독립 변수 간의 관계를 구체적으로 나타냄 -> 향후 예측 모델에 사용 연속된 값을 예측하지 않고 종속 변수가 범주형 데이터일 때 사용 -> 결과 특정 카테고리로 분류됨 회귀를 사용하여 범주에 속할 확률 예측 -> 가능성이 더 높은 범주로 분류하는 머신러닝 지도 학습 알고리즘 로지스틱 함수를 이용하여 분류 이항 로지스틱 회귀 종속 변수가 2개인 binary 형태 -> 날씨 (hot, cold) 다항 로지스틱 회귀 종속 변수가 3개 이상인 multi 형태일 때 -> 날씨 (rainy, sunny, cloudly) 시그모이드 함수 Y값 범위의 제한 다양한 변형 가능 실제 존재 하는 경우의 함수 모든 X값에 대응 증가함수 사후확률 변환 인지가 쉬움 인공 뉴런의 활성화 함수로 사용 로지스틱 함수 0 ..
나이브 베이즈 조합 순서를 상관하지 않고 뽑는 것. 예) OO, AA, BB 중 두 명을 뽑아서 청소를 시킨다. 순열 순서를 고려하고 뽑는 것. 예) 두명을 뽑아서 청소를 시킨다, 하지만 먼저 지원하면 대걸레랑 쓸기 중 고를 수 있기 때문에 순서가 중요. P(A) (A 사건이 일어날 확률) P(A) = n(A) / n(S) (A 경우) / (전체 경우) 1일 경우 무조건 사건이 일어나지만, 0일 경우 절대로 일어나지 않는다. 조건부 확률 P(B|A) = P(A∩B) / P(A) (단, P(A) > 0) 사건 A가 일어났다고 가정할때, 사건 B가 일어날 확률 확률의 곱셈 정리 P(A∩B) = P(A)P(B|A) = P(B)P(A|B) (단, P(A) > 0 && P(B) > 0) P(B | A) = P(A∩B) / P(..
SVM 알고리즘 SVM (Support Vector Machine) 알고리즘 특징 - 2개의 범주를 분류하는 이진 분류기이다. ※이진 분류 : 그렇다 / 아니다 2개로 분류하는 것. 계산 결과가 엄청 적다. 사용처 어느 카테고리에 속할 것인지 판단하는 비확률적 이진 선형 분류 모델을 만들게 된다.ex) 텍스트, 이미지 분류 커널 트릭 고차원 특징 공간으로 사상하는 작업을 해줌. 2차원 -> 3차원 장점 비선형 분리 데이터를 커널트릭을 사용하여 분류 모델링 가능. 예측 변수가 많은 경우, 고차원 공간에서 원할하게 작동. 텍스트, 이미지 분류에 효과적이다. 단점 대용량 데이터셋 처리에는 많은 시간이 소요. 확률 추정치를 직접적으로 반환하지 않는다.
랜덤 포레스트 랜덤 포레스트? 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종. ※앙상블 : 여러개의 결정 트리를 결합해, 하나의 결정 트리보다 더 좋은 성능을 내는 머신러닝 기법. 랜덤 포레스트의 포레스트는 숲(Forest)이고, 결정 트리는 나무(Tree) 즉, 나무가 모여 숲을 이룬다 -> 결정 트리가 모여 랜덤 포레스트를 구성한다. 결정 트리의 단점 훈련 데이터에 오버피팅이 되는 경향이 있다 -> 여러 개의 결정 트리를 통해 랜덤 포레스트를 만들어 단점을 해결. ※오버피팅 -> 너무 세밀하게 학습 데이터 하나하나를 다 설명하려고 해, 정작 중요한 패턴을 설명할 수 없게되는 것. 모델링을 잘 하기 위해선? 1. 의사 결정 나무를 많이 만들어야 한다. 2. 각각의 트리는 타겟 예측을 잘 해야 한다. 3. ..
자바 2차시 if문 C언어와 형태가 같다. public class Emotion{ public static void main(string[] args){ int height = 191; if (height >= 190) System.out.printIn("OO보다 키가 크네요."); else if (height >= 180) System.out.printIn("OO보다 키가 매우 조금 작네요."); else if (height >= 170) System.out.printIn("OO보다 키가 조금 작네요."); else System.out.printIn("OO보다 키가 많이 작네요"); } } //결과 - OO보다 키가 크네요 출력 switch문 public class Emotion{ public static void..
의사 결정 트리 의사 결정 트리란? 매우 직관적인 방법 중 하나. 다른 모델들과는 다르게 결과물이 시각적으로 읽히는 것이 장점이다. 불순도란? 1번과 3번 항아리는 파란 공, 빨간 공으로만 채워져 있지만, 2번 항아리는 빨간 공과 파란 공이 정확히 반반 섞여있다. 1번과 3번 항아리를 순도 100%라 할 수 있지만, 2번 항아리는 불순도가 높은 상태라고 할 수 있다. 불순도를 수치화한 지표로 엔트로피(Entropy), 지니계수(Gini Index)등이 있는데, 엔트로피로 계산한 알고리즘은 ID3 지니계수로 계산한 알고리즘이 CART 알고리즘이다. ID3 알고리즘 특징 트리의 각 노드에서 정보 획득을 최대 + 엔트로피를 최소화해서 하나의 속성을 테스트, 그후 결과를 사용해 개체 집합을 분할. 독립 변수가 모두 범주형일 때..