Stratégie de négociation à haute fréquence basée sur l'apprentissage automatique

Auteur:Le petit rêve, Créé: 2016-11-16 16:52:38, Mis à jour: 2016-11-16 16:55:18

Stratégie de négociation à haute fréquence basée sur l'apprentissage automatique

  • Le théorème

    Les mécanismes de négociation du marché des valeurs mobilières peuvent être divisés en deux catégories: les marchés proposés et les marchés ordonnés, les premiers dépendant de la liquidité fournie par les négociants, les derniers fournissant de la liquidité par le biais de quotas, les transactions étant formées par des offres d'achat et de vente d'investisseurs. Le marché des valeurs mobilières chinois appartient aux marchés ordonnés, y compris le marché des actions et le marché des contrats à terme.

    imgGraphique 1 Diagramme du marché qui est alimenté par les commandes

    • (I) Liste de prix limitée

      La théorie de la structure microscopique du marché tire ses idées de la théorie des prix et de la théorie des fournisseurs dans l'économie microscopique, et utilise diverses théories et méthodes pour analyser les processus et les causes de la transaction d'actifs financiers et de la formation de leurs prix.

      En ce qui concerne les progrès de la recherche à l'étranger, le domaine de la microstructure du marché est représenté par O Hara, où la plupart des théories sont basées sur des marchés de marché (c'est-à-dire des marchés axés sur les offres), tels que les modèles d'inventaire et les modèles d'information.

      Les marchés de valeurs mobilières et les marchés à terme sont tous deux des marchés orientés par les ordres. Le graphique ci-dessous est une capture d'écran du carnet d'ordres de l'industrie de niveau 1 de l'IF1312. Il n'y a pas beaucoup d'informations obtenues directement, les informations de base incluent un prix d'achat, un prix de vente, un volume d'achat et un volume de vente. Dans certains articles académiques à l'étranger, il existe également des carnets d'informations correspondant aux carnets d'ordres, y compris les données les plus détaillées sur le recueil des ordres, y compris le volume d'ordres, les prix passés, les types d'ordres de chaque ordre.

      imgFigure 2 Compte de commandes des contrats à terme de premier niveau indiciels

    • (B) Les progrès de la recherche sur les transactions à haute fréquence dans les carnets de commandes

      La modélisation dynamique des carnets d'ordres est principalement de deux types, une méthode classique d'économie de mesure et une autre méthode d'apprentissage automatique. La méthode d'économie de mesure est une méthode classique de recherche dominante, comme la décomposition MRR pour l'analyse des différences de prix, la décomposition Huang et Stoll, le modèle ACD pour la durée des commandes et le modèle logistique pour la prévision des prix.

      La recherche académique sur l'apprentissage automatique dans le domaine financier est également très active, comme le cas de la recherche de 2012 sur les tendances de haute fréquence KOSPI200 index data using learning classifiers. La recherche est une idée courante qui utilise des indicateurs d'analyse technique courants (MA, EMA, RSI, etc.) pour introduire des méthodes de classification de l'apprentissage automatique pour faire des prédictions de marché.

  • Deuxièmement, les applications de l'apprentissage automatique dans les transactions à haute fréquence dans les carnets de commandes

    • a) L'architecture du système

      La figure ci-dessous est une architecture de système d'une stratégie de trading typique d'apprentissage automatique, comprenant des données de livre d'ordres, la découverte de caractéristiques, la construction et la validation de modèles et plusieurs modules principaux d'opportunités de trading. Il est à noter que le processus de trading est déclenché par un événement de marché, l'arrivée d'un marché tick étant l'un de ces événements.

      imgFigure 3: Architecture de système basée sur l'apprentissage automatique pour modéliser les carnets de commandes

    • (B) une présentation de la machine vectorielle

      Dans les années 1970, Vapnik et ses collègues ont commencé à construire un système théorique plus complet de la théorie de l'apprentissage statistique (SLT, Statistical Learning Theory), qui est utilisé pour étudier les lois statistiques et la nature des méthodes d'apprentissage dans des situations d'échantillons limités, qui a établi un bon cadre théorique pour les problèmes d'apprentissage automatique à échantillons limités et qui résolve mieux des problèmes pratiques tels que les petits échantillons, les non-linéaires, les nombres en haute dimension et les extrêmes locaux. En 1995, Vapnik et ses collègues ont clairement proposé une nouvelle méthode d'apprentissage universelle qui soutient la vectorialisation des machines (SVM, Support Vector Machine).

      Le SVM est issu d'un surplan classique optimal dans les cas de divisibilité linéaire. Pour les deux types de problèmes de classification, le jeu d'échantillons d'entraînement est défini comme ((xi,yi), i = 1,2...l, l est le nombre d'individus de l'échantillon d'entraînement, xi est l'échantillon d'entraînement, yi est le marqueur de classe de l'échantillon d'entrée xi (exit attendu). L'algorithme SVM part de la recherche d'un surplan classique optimal.

      Le surplan classique optimal est non seulement capable de séparer correctement tous les échantillons (la cote d'erreur de formation est 0), mais aussi de maximiser la marge entre les deux classes, définie comme la somme de la distance minimale entre le jeu de données de formation et ce surplan classique. Le surplan classique optimal signifie que l'erreur de classification moyenne des données de test est la plus faible.

      Si une superplanète existe dans un espace vectoriel en d dimensions:

      F ((x) = w*x+b=0

      Si l'on peut séparer ces deux types de données, on appelle ce superplan l'interface divisée.

      Si l'interface est divisée:

      w*x+b=0

      L'interface qui permet de maximiser la distance entre les deux échantillons les plus proches de l'interface est appelée l'interface la plus fine.

      imgGraphique 4 Diagramme de l'interface de la catégorie SVM

      Une homogénéisation de l'équation de l'interface optimale permet d'obtenir des distances entre les deux types d'échantillons

      img

      Donc pour n'importe quel échantillon,

      img

      Pour obtenir l'interface optimale, en plus de satisfaire à la formule ci-dessus, il faut minimiser.

      Le modèle mathématique du problème SVM est donc:img

      Le SVM est finalement devenu un problème de planification le plus optimisé, et les recherches du monde universitaire se concentrent principalement sur la résolution rapide, la diffusion dans les multiclasses, l'application de problèmes pratiques, etc.

      SVM a été initialement proposé pour les problèmes de bicatégorie et a été étendu aux problèmes de multiclasses en fonction des exigences actuelles de l'application pratique. Les algorithmes multiclasses existants comprennent des algorithmes de multiples, un à un, de correction d'erreurs, de DAG-SVM et de multiclasses SVM.

    • 3) extraction des indicateurs du carnet de commandes

      Par exemple, dans le marché des futures sur indices boursiers de niveau 1, le carnet d'ordres comprend principalement des indicateurs de base tels que le prix d'achat, le prix de vente, le volume d'achat et le volume de vente, et peut être dérivé de indicateurs tels que la profondeur, la pente, les écarts de prix relatifs, d'autres indicateurs tels que le volume d'opérations, le volume de transactions, le déficit, etc., pour un total de 17 indicateurs, comme indiqué dans le tableau ci-dessous.

      Tableau 1 Base d'indicateurs basée sur le registre des commandes de niveau

      img

    • (iv) Caractéristiques dynamiques du carnet de commandes et opportunités de transaction

      Du point de vue microscopique du marché, il existe deux méthodes pour mesurer la dynamique des prix à court terme, l'une étant la dynamique du prix intermédiaire et l'autre le croisement des différences de prix.

      img

      Selon la taille de la variation de la valeur moyenne ΔP dans le carnet de commandes Δt, la variation est divisée en trois catégories:

      Le graphique ci-dessous montre la distribution du mouvement du prix moyen des principaux contrats IF1311 le 29 octobre, avec 32 400 ticks par jour.

      Dans le cas où Δt = 1 tick, la variation absolue de la valeur absolue de l'intermédiaire 0.2 est d'environ 6000 fois, la variation absolue de 0.4 est d'environ 1500 fois, la variation absolue de 0.6 est d'environ 150 fois, la variation absolue de 0.8 est plus grande que 50 fois et la variation absolue de 1 est plus grande que 10 fois.

      Dans le cas où Δt = 2 tick, la variation absolue de la valeur absolue de l'intermédiaire 0.2 est d'environ 7000 fois, la variation absolue de 0.4 est d'environ 3000 fois, la variation absolue de 0.6 est d'environ 550 fois, la variation absolue de 0.8 est d'environ 205 fois, et la variation absolue est d'environ 10 fois supérieure ou égale à 1.

      Nous considérons que la variation absolue est une opportunité potentielle si elle est supérieure à 0.4. Dans le cas où Δt = 1 tick, il y a environ 1700 opportunités par jour; dans le cas où Δt = 2 tick, il y a environ 4000 opportunités par jour.

      img

      Figure 5 IF1311 Diagramme des variations du prix moyen le 29 octobre (Δt = 1 tick)

      img

      Figure 6 IF1311 Diagramme des variations du prix moyen le 29 octobre (Δt = 2 tick)

  • Troisièmement, une preuve stratégique.

    Étant donné que les modèles SVM ont une complexité de formation relativement élevée et un temps de formation plus long dans des cas de grand échantillonnage, nous avons choisi des données historiques de marché à une portée relativement courte, en utilisant les données de marché de niveau 1 du contrat IF1311 en octobre pour vérifier l'efficacité du modèle.

    • (a) Examen des effets du modèle

      Cycle de données: chiffres du marché des contrats IF1311 en octobre;

      Pour comparer l'effet du modèle, on utilise les valeurs 1 tick, 2 tick et 3 tick.

      Les indicateurs d'évaluation des modèles: précision des échantillons, précision des tests, temps de prévision.imgTableau 2 pour les effets de la prédiction de 1 tick avec les données de 1 tick

      imgTableau 3 avec les données de 1 tick pour prévoir l'effet de tick 2

      imgTableau 4 Les effets des 2 ticks sur les données de 2 ticks

      D'après les données des trois tableaux ci-dessus, nous pouvons tirer les conclusions suivantes: La plus haute précision est d'environ 70%, et la plus faible est de 60%, ce qui peut être traduit par une stratégie de trading.

    • 2) Les avantages stratégiques

      Prenons l'exemple du 31 Octobre, où nous effectuons une simulation de négociation, les frais de négociation des futures boursières d'une institution sont généralement de 0,26/10000, et nous supposons que le nombre de transactions n'est pas limité, supposons que le prix de la transaction soit de 0,2 points par glissement unilatérale et que le nombre de transactions soit de 1 main.

      Tableau 5 Stratégie de simulation des transactions au 31 octobreimg

      Le nombre de transactions effectuées pendant toute la journée est de 605 fois, y compris les procédures, 339 fois de bénéfices, 56% de gain, profit net de 11814.99 yuans.

      En théorie, le prix de glissement est de 14520 yuans, ce qui est la clé de la stratégie de la guerre, si les détails de l'ordre sont contrôlés avec plus de précision, il est possible de réduire le prix de glissement et d'augmenter les bénéfices nets. Si les détails de l'ordre sont mal contrôlés ou si les fluctuations du marché sont anormales, le prix de glissement sera plus grand, tandis que les bénéfices nets seront plus faibles.

      Graphique 7 Résultats des stratégies simulées le 31 octobreimg

Déclaration d'origine: Cette page est créée par l'auteur, veuillez indiquer la source.


Plus de

Je suis Evan1987Bonjour, Je suis en train d'apprendre à étudier les commandes en moins