실용적인 빅데이터

发明者量化-小小梦

집중하다 사신

집중하다

1345

수행원

실용적인 빅데이터

만든 날짜: 2018-01-26 12:11:58, 업데이트 날짜: 2019-07-31 18:03:38

2206

실제 대용량 데이터. 양적 전략의 원시 데이터 테스트의 필요성

실용적인 빅데이터

#### NO：01

어린 시절부터 어른이 되고, 어른이 되어서 노인이 되는 동안, 실수는 계속되고, 또 수정되고, 또 실수하는 과정입니다. 거의 모든 사람이 예외가 될 수 없습니다. 어쩌면 많은 실수를 저지른 적이 있을지도 모릅니다. 현재는 매우 낮은 수준으로 보일 수도 있습니다. 아니면 많은 기회를 놓친 것일 수도 있습니다. 예를 들어, 부동산, 인터넷, 디지털 화폐 등과 같은 것들이요.

그리고 사람들은 종종 이렇게 말합니다. “나는 원래 안 그랬어야 했어”… “만약 내가”…

저는 이 문제를 오랫동안 품고 있었고, 그 문제를 풀지 못하고 있었습니다. 그리고 나서야 깨달았습니다. 사실, 이것은 두려워할만한 것이 아니었습니다. 왜냐하면 그 당시의 모든 선택, 옳고 그름에 상관없이, 우리를 미리 정해진 결과로부터 멀리하고, 미지의 곳으로 데려가기 때문입니다. 그리고 우리의 성찰은, 단지 역사적 자료를 넘어, 신의 시야를 열었습니다.

#### NO：02

나는 많은 거래 시스템을 보았는데, 재검토 할 때 성공률이 50% 이상에 달할 수 있다. 이렇게 높은 승률을 전제로 할 때, 1:1 이상의 이익 손실 비율도 있을 수 있다. 그러나, 예외는 없다. 이러한 시스템은 일단 실盘에 들어가면, 기본적으로 모두 손실이다. 손실을 초래하는 이유는 많으며, 그 중 일부는 재검토 할 때, 우연히, 오른쪽에서 왼쪽으로 보고, 신의 시야를 열었다.

실용적인 빅데이터

그러나 거래는 그런 얽매여있는 일이고, 뒤돌아보면 훨씬 명확하지만, 우리가 신의 관점을 가지고 있지 않으면, 다시 시작하면, 여전히 어지럽습니다. 이것은 수치의 근본적인 문제와 역사적 데이터의 한계에 부딪히고 있습니다.

#### NO：03

하지만 제한된 데이터의 경우, 어떻게 가능한 한 제한된 데이터를 사용하여 거래 전략에 대한 전체적인 검사를 할 수 있습니까? 일반적으로 두 가지 방법이 있습니다.

순차적 검사의 기본 원칙: 이전보다 긴 역사 데이터를 사용하여 모델을 훈련시키고, 그 다음보다 비교적 짧은 데이터를 사용하여 모델을 검증한 다음, 데이터를 얻는 창을 계속 뒤로 이동하여 훈련과 검증의 단계를 반복한다.

실용적인 빅데이터

1 훈련 데이터:2000~2001년, 테스트 데이터:2002년; 2, 훈련 데이터: 2001년에서 2002년, 테스트 데이터: 2003년; 3, 훈련 데이터: 2002년에서 2003년, 테스트 데이터: 2004년; 4. 훈련 데이터: 2003~2004년, 테스트 데이터: 2005년; 5. 훈련 데이터: 2004~2005년, 테스트 데이터: 2006년;

그리고…

마지막으로, 전략의 성과를 종합적으로 평가하기 위해 [2002년, 2003년, 2004년, 2005년, 2006년…]의 테스트 결과를 통계적으로 분석합니다.

다음 그림과 같이, 직관적으로 설명할 수 있는 역설적 검사의 원리:

실용적인 빅데이터

위 그림은 각각 2가지의 추론 검사를 보여준다.

첫 번째: 매번 테스트 할 때, 테스트 데이터가 짧고 테스트 횟수가 많습니다. 두 번째 유형: 각 검사시, 테스트 데이터가 더 길고, 테스트 횟수가 더 적다.

실제 응용에서는 테스트 데이터의 길이를 변경하여 여러 번 테스트를 수행하여 모델이 비 평평한 데이터에 대한 안정성을 판단 할 수 있습니다.

#### NO：04

교차 검사의 기본 원칙: 모든 데이터를 N 부분으로 나누고, N-1 부분을 훈련하고, 나머지 부분을 검사한다.

실용적인 빅데이터

2000년에서 2003년까지의 해별로 나누어 4개의 부분으로 나누었다. 그 교차 검증의 동작 과정은 다음과 같다: 1 훈련 데이터: 2001-2003, 테스트 데이터: 2000; 2, 훈련 데이터:2000-2002, 테스트 데이터:2003; 3, 훈련 데이터:2000, 2001, 2003, 테스트 데이터:2002; 4 훈련 데이터:2000, 2002, 2003, 테스트 데이터:2001;

실용적인 빅데이터

위 그림에서 볼 수 있듯이: 크로스 테스트의 가장 큰 장점은 제한된 데이터를 충분히 활용하는 것이며, 각 훈련 데이터 역시 테스트 데이터이다. 그러나 크로스 테스트를 전략 모델의 테스트에 적용할 때 명백한 단점도 존재한다:

가격 데이터가 평탄하지 않을 때, 모델의 테스트 결과는 신뢰할 수 없습니다. 예를 들어, 2008 년 데이터를 사용하여 훈련하고 2005 년 데이터를 사용하여 테스트합니다. 2005 년과 비교하여 2008 년 시장 환경이 많이 변했을 가능성이 높으므로 모델 테스트 결과는 신뢰할 수 없습니다.

2, 제 1항과 마찬가지로, 크로스 테스트에서 최신 데이터 트레이닝 모델을 사용하여 오래된 데이터 테스트 모델을 사용하는 것은 그 자체로 논리적으로 맞지 않습니다.

#### NO：05

또한, 대칭적 전략 모형을 검사할 때, 역설적 검사와 교차적 검사 모두 데이터 중복 문제가 발생한다.

실용적인 빅데이터

거래 전략 모델을 개발할 때, 대부분의 기술 지표는 일정 길이의 역사적 데이터를 기반으로 한다. 예를 들어, 트렌드 지표를 사용하여 지난 50 일간의 역사적 데이터를 계산하고, 다음 거래 날에는 거래 날보다 50 일 전의 데이터를 계산하면 두 지표의 데이터가 49 일 동안 동일하게 계산되며, 이는 인접한 2 일마다 지표의 변화가 눈에 띄지 않는다.

실용적인 빅데이터

데이터 중복은 다음과 같은 결과를 초래합니다.

모델이 예측한 결과가 느리게 변하면 지주도도 느리게 변하게 됩니다. 이것이 우리가 흔히 말하는 지표의 지연성입니다.
모델 결과 검사에 대한 일부 통계 값은 사용할 수 없으며, 반복된 데이터로 인한 시퀀스 관련성이 있기 때문에 일부 통계 검사 결과가 신뢰할 수 없습니다.

#### NO：06

우수한 거래 전략은 미래에 수익성이 있어야 한다. 표본 테스트는 거래 전략을 객관적으로 검출할 수 있는 것 외에도 효율적으로 시간을 절약할 수 있다.

대부분의 경우, 모든 샘플의 최적의 변수를 직접 적용하는 것은 매우 위험합니다.

매개 변수 최적화 시점 이전의 모든 역사 데이터를 구분하여 샘플 내 데이터와 샘플 외부 데이터로 나누고, 먼저 샘플 내 데이터를 사용하여 매개 변수 최적화를 하고, 이후 샘플 외부 데이터를 사용하여 샘플 외부 테스트를 한다면, 이러한 오류를 정렬할 수 있으며, 동시에 최적화 후의 전략이 미래 시장에 적용되는지 확인할 수 있다.

#### NO：07

거래와 마찬가지로, 우리는 시간을 가로질러 스스로에게 조금도 잘못되지 않은 올바른 결정을 내릴 수 없습니다. 만약 신의 손이나 미래를 가로질러 돌아오는 능력이 있다면, 테스트를 거치지 않고, 직접 온라인 실리콘 거래도 할 수 있습니다. 그리고 나는 역사적인 데이터에서 우리의 전략을 검사해야합니다.

그러나, 거대한 데이터의 역사를 가지고 있더라도, 무한하고 예측할 수없는 미래에 직면하면 역사는 극도로 부족합니다. 그래서 역사에서 아래에서 위로 밀어내는 거래 시스템은 결국 시간이 지남에 따라 가라앉습니다. 역사는 미래를 끝낼 수 없기 때문에. 따라서 완전한 긍정적인 거래 시스템은 내부 원칙 / 논리에 의해 뒷받침되어야합니다.

실용적인 빅데이터

#### NO：08

우리는 (창안자 양성 양성 거래 플랫폼) 현재 양성 서클이 건조하고, 통신이 폐쇄되고, 사기꾼이 떠돌고있는 현 상황을 바꾸어 더 순수한 양성 서클을 만들기 위해 노력하고 있습니다. 이 세계는 아무도 지식과 이론을 만들지 않았습니다. 그들은 단지 우리가 발견할 때까지 기다리고 있습니다.

실용적인 빅데이터

나눔은 태도로, 지혜로 가득합니다.

온라인 客 작가 Hukybo

Forums

PINE Language FAQ Summary MyLanguage Web3 About Us

Product

Robot Strategy Node Platforms Tickets

API

Syntax guide User guide Trading api Blockchain Indicator