BROKER SEGUR - Rio Ulla 7 , Madrid

r 서포트벡터머신 예제

이 지원 벡터 분류기에서는 관측값의 80%가 올바르게 분류되어 플롯에서 보는 것과 일치합니다. 분류자를 보다 엄격하게 테스트하려면 데이터를 교육 및 테스트 집합으로 분할한 다음 모델을 구성하는 데 사용되지 않는 관찰을 사용하여 SVC가 어떻게 수행되었는지 확인할 수 있습니다. 이 자습서의 후반부에서는 이 학습 테스트 방법을 사용하여 SVM의 유효성을 검사합니다. 요약하자면, 지원 벡터 컴퓨터는 두 개 이상의 그룹으로 기능 공간을 분할하려고 시도하는 감독된 분류기의 하위 클래스입니다. 알려진 클래스 레이블을 기반으로 이러한 그룹을 분리하는 최적의 방법을 찾아서 이를 달성합니다. 두 종류의 값만 있고 그림에서와 같이 이를 나타낼 수 있다고 가정해 봅시다: 빅 데이터 집합에서 작업하려면 일부 기계 학습 패키지를 직접 사용할 수 있습니다. R 프로그래밍 언어의 개발자 커뮤니티는 작업을 더 쉽게 할 수있는 몇 가지 훌륭한 패키지를 구축했습니다. 이러한 패키지의 장점은 최적화되어 있고 작업을 단순화하기 위해 최대 예외를 처리 할 수 있다는 것입니다. 배율 조정할 변수를 나타내는 논리 벡터입니다. 배율이 길이 1이면 값은 필요한 횟수만큼 재활용됩니다.

기본적으로 데이터는 내부적으로(x 및 y 변수 모두) 평균 및 단위 분산으로 배율이 조정됩니다. 중심 및 축척 값이 반환되고 이후 예측에 사용됩니다. 이제 데이터의 데이터 프레임을 만들어 y를 요인 변수로 전환합니다. 그런 다음 y를 응답 변수 및 기타 변수를 예측 변수로 사용하여 이 데이터 프레임에서 svm을 호출합니다. 데이터 프레임은 x1 및 x2라는 2개의 열로 행렬 x의 압축을 풀것입니다. SVM에 커널이 선형이고, 조정 매개 변수 비용이 10이고 배율이 false임을 알려줍니다. 이 예제에서는 변수를 표준화하지 않도록 요청합니다. 학습 샘플에 사용할 사례를 지정하는 인덱스 벡터입니다. (참고: 주어진 경우 이 인수의 이름을 지정해야 합니다.) 짧은 대답은, 예가있다.

이를 위한 한 가지 방법은 여백을 최대화하는 경계선, 즉 분리 경계와 가장 가까운 점 사이의 거리를 선택하는 것입니다. 이러한 최적 경계는 그림 3의 검정 색 중괄호에 의해 예시됩니다. 이 기준의 정말 멋진 점은 분리 경계의 위치는 가장 가까운 점에만 의존한다는 것입니다. 즉, 다른 분류 방법과 달리 분류기는 데이터 집합의 다른 점에 의존하지 않습니다. 경계와 양쪽의 가장 가까운 점 사이의 지시선을 지지 벡터라고 합니다(그림 3의 단색 검정선). 이 것의 직접적인 의미는 지원 벡터가 적을수록 경계의 일반화성이 향상된다는 것입니다. SVM 분류자(지원 벡터 시스템) 알고리즘의 원리는 다른 클래스에 대한 데이터를 분리하는 하이퍼플레인을 구축하는 것입니다. 이 초평면 구축 절차는 다양하며 SVM 분류기의 주요 작업입니다.

초평면을 그리는 동안 주요 초점은 초평면에서 두 클래스의 가장 가까운 데이터 점까지의 거리를 최대화하는 것입니다. 이러한 가장 가까운 데이터 포인트를 지원 벡터라고 합니다. […] 1 년 전, 나는 데이터 과학 R 시리즈에 대한 나의 부드러운 소개의 일환으로 지원 벡터 머신에 조각을 썼다.