자, 이제, 이 자리에서, 이 자리에서, 이 자리에서, 이 자리에서.

저자:작은 꿈, 2016-11-01 11:51:41, 업데이트: 2016-11-01 11:53:28

자, 이제, 이 자리에서, 이 자리에서, 이 자리에서, 이 자리에서.

여러분, 여러분, 여러분의 베팅을 하세요. 오늘 우리는 금융계에서 가장 무서운 적 중 하나로 여겨지는 오랑고를 이길 수 있도록 최선을 다할 것입니다. 우리는 외환 거래 종목의 내일을 예측하려고 노력합니다. 나는 당신에게 보장합니다: 심지어 무작위 베팅을 이길 수 있는 오랑고를 50%의 확률로 이길 수 있는 것은 어려운 일입니다. 우리는 직결된 기계 학습 알고리즘을 사용할 것입니다. 그것은 벡터 분류기를 지원합니다. SVM 벡터 기계는 회귀와 분류 작업을 해결하는 믿을 수 없을 정도로 강력한 방법입니다.

  • SVM가 벡터 기계를 지원합니다

SVM 벡터 기계는 다음과 같은 아이디어에 기반하고 있습니다. 우리는 초평면과 p차원 특성 공간을 사용하여 분류할 수 있습니다. SVM 벡터 기계 알고리즘은 초평면과 해독 마진을 사용하여 분류 결정 경계를 만들 수 있습니다.

img

가장 간단한 경우, 선형 분류가 가능합니다. 알고리즘은 결정 경계를 선택하여 클래스 사이의 거리를 최대화합니다.

대부분의 금융 시간 계열에서 간단한, 선형 분할 가능한 집합은 거의 볼 수 없고, 분할할 수 없는 집합은 자주 볼 수 있다. SVM 벡터 기계는 소프트 마진 메소드 (soft margin method) 라고 불리는 방법을 구현하여 이 문제를 해결했다.

이 경우 일부 오류 분류가 허용되지만 C (비용 또는 예산의 오류가 허용될 수 있는 경우) 와의 대칭 인수와 오류의 경계까지의 거리를 최소화하기 위해 스스로 함수를 수행한다.

img

기본적으로, 기계는 C가 가중된 처벌 항목을 최대한 줄이는 동시에 분류 사이의 간격을 최대한 높일 것입니다.

SVM 분류기의 멋진 특징은 분류결정 경계의 위치와 크기가 결정된 데이터의 일부, 즉 결정결정 경계에서 가장 가까운 부분의 데이터에 의해서만 결정된다는 것이다. 이 알고리즘의 특성으로 인해, 이 알고리즘은 멀리 떨어져 있는 간격의 비정상적인 값의 간섭에 대항할 수 있다. 예를 들어, 위의 그림에서, 가장 오른쪽의 파란색 점, 결정결정 경계에는 작은 영향이 있다.

이 모든 것이 너무 복잡하지 않습니까?

다음 상황을 고려하십시오 (붉은 점과 다른 색상의 점을 분리하십시오):

img

인간의 관점에서 분류하는 것은 매우 간단하다 (오리프라인도 가능하지만 기계에서는 그렇지 않다). 분명히, 직선으로 만들 수 없다 (직선으로는 빨간 점들을 분리할 수 없다). 여기서 우리는 커널 트릭을 시도할 수 있다.

핵 기술이란 매우 똑똑한 수학 기술인데, 그것은 우리에게 고차원 공간에서 직선적 분류 문제를 풀 수 있게 해줍니다. 이제 그것이 어떻게 이루어지는지 보겠습니다.

우리는 2차원 특징 공간을 3차원으로 변환하여 2차원으로 되돌릴 것입니다.

이 그림은 각자의 위상 지도와 분류가 완료된 후의 그림입니다.

img

일반적으로 d 입자가 있는 경우, d 입자 공간에서 p 입자 특성 공간으로의 지도를 사용할 수 있다. 위의 최소화 알고리즘을 실행하면 생성되는 솔루션을 실행하고, 그 다음 원래 입자 공간의 p 입자 초평면으로 다시 지도를 만들 수 있다.

위의 수학적 해결책의 중요한 전제는 특징 공간에서 좋은 점 샘플 세트를 생성하는 방법에 달려 있다.

이 점 샘플 세트는 경계 최적화를 수행하기 위해 필요한 것뿐이며, 지도는 명확할 필요가 없으며, 입력 공간의 고차원 특성 공간의 점들은 핵 함수 ((와 점적 머서 정리의 도움으로) 로 안전하게 계산될 수 있다.

예를 들어, 당신은 매우 큰 특징 공간에서 당신의 분류 문제를 풀고 싶고, 100,000 차원이라고 가정합니다. 당신은 당신이 필요로하는 계산 능력을 상상할 수 있습니까? 나는 당신이 그것을 할 수 있는지에 대해 매우 의심합니다. 좋습니다, 핵은 이제 당신이 이러한 점 샘플을 계산 할 수 있습니다. 따라서 이 가장자리는 당신의 낮은 밀도에서 편안한 입력 공간에서 왔습니다.

  • 도전과 고래

이제 우리는 제프의 예측 능력을 이길 수 있는 도전을 준비하고 있습니다.

제프 (Jeff) 는 외환 시장 전문가로 추산의 50%의 정확성을 얻을 수 있는 무작위 베팅을 통해 다음 거래일의 수익률을 예측하는 신호를 제공합니다.

우리는 현금 가격 시간 순서와 함께 다양한 기본 시간 순서를 사용할 것입니다. 각 시간 순서에는 최대 10lags의 수익이 있으며 총 55개의 기능이 있습니다.

우리가 만들 예정인 SVM 벡터 기계는 3도 핵을 사용한다. 당신은 적절한 핵을 선택하는 것이 또 다른 매우 어려운 작업이라고 생각할 수 있습니다. C와 Γ 파라미터를 캘리브레이션하기 위해, 가능한 파라미터 조합의 격자 위에 3배의 크로스 검증이 실행되며 가장 좋은 그룹이 선택됩니다.

이 글은 이보다 더 큰 영향을 미치고 있습니다.

img

우리는 선형 회귀와 SVM 벡터 모두 제프를 이길 수 있음을 볼 수 있습니다. 결과는 낙관적이지 않지만 데이터에서 정보를 얻을 수 있습니다.

크로스 검증 후, 데이터 세트는 훈련되고 테스트됩니다. 우리는 훈련된 SVM의 예측 능력을 기록했습니다. 안정적인 성능을 얻기 위해 우리는 각 화폐를 1000 번 무작위로 분할했습니다.

img

따라서, 어떤 경우에 SVM은 단순한 선형 회귀보다 우수하지만, 성능의 차이는 약간 높습니다. 예를 들어, 달러와 예나에서, 우리는 평균적으로 예측할 수 있는 신호가 전체의 54%를 차지합니다. 이것은 꽤 좋은 결과입니다. 하지만 좀 더 자세히 살펴 보겠습니다!

테드는 제프의 사촌이고, 물론 고래이기도 하지만, 제프보다 더 똑똑하다. 테드는 무작위 베팅보다는 훈련 샘플 세트에 주목한다. 그는 항상 훈련 세트의 가장 일반적인 출력에서 신호를 제공합니다. 이제 똑똑한 테드를 기준으로 보겠습니다:

img

우리가 보았듯이, 대부분의 SVM의 성능은 단지 하나의 사실에서 비롯됩니다: 기계 학습에 의해 분류는 이전보다 거의 같지 않습니다. 사실, 선형 회귀는 특징 공간에서 어떤 정보도 얻을 수 없지만, 회귀에서 절단 (intercept) 은 의미가 있으며, 절단과 절단으로 특정 분류가 더 잘 수행된다는 사실과 관련이 있습니다.

조금 더 좋은 소식은 SVM 벡터들이 데이터에서 추가적인 비선형 정보를 얻을 수 있다는 것입니다. 이는 우리가 예측의 정확도를 2%로 줄일 수 있게 해줍니다.

불행히도, 우리는 이것이 어떤 정보가 될 수 있는지 아직 알지 못하며, SVM 벡터 기계가 자체적으로 중요한 단점을 가지고있는 것처럼, 우리는 명확하게 설명 할 수 없습니다.

저자: P. López, 퀀트데어에서 발표 위키백과 공개자료에서img


더 많은

골든9966강인함