Qu'est-ce que les ticks et pourquoi est-il si difficile de trouver des données de transactions fiables?

Auteur:Le petit rêve, Créé: 2016-11-02 19:33:56, mis à jour: 2016-11-02 19:48:20

  • Premièrement, qu'est-ce que le Tick Data?

Tick Data n'est pas un mystère en soi, car l'échange vous envoie des informations sur les ordres d'achat ou de vente de chaque action (ou options futures) dans le active order book (c'est-à-dire vos ordres existent sur l'échange, mais n'ont pas été synthétisés).

**举例说明:**
  某天的市场一开始的时候苹果股票的order book(委托挂单)清空(这里不进行auction period的探讨):
  1. 接着来了第一个卖家:1000@100 :
  这时候交易所会发给你一个message,告诉你是苹果股票有人想以100块钱卖出1000股,
  那么这个order就先挂在了order book上,成为卖一。

  卖:1000@100


  2. 第二个卖家来了,他想卖得更高: 1000@101:
  这时候交易所会发给你另一个message,告诉你是苹果股票有人卖的价格比你差,于是排序在更上面,卖二。

  卖:1000@101

  1000@100


  3. 刚才的第一个卖家后悔了,cancel了他的order:1000@100撤消了,那么交易所会有message告诉你,
  现在只剩一个1000@101(卖一)。但是你可能需要自己编程处理这种remove掉一个tick的情况。

  卖:1000@101


  4. 终于有买家来了... 500@90 , 这个价格是不会成交的,因为买家低于现在的最佳卖价:101,
  那么order book里面会继续存着这个order,同时会发送一个tick告诉市场上的其他人,有买单了:

  卖:1000@101

  买:500@90


  5. 继续,接着有一位买家以101块钱买入1000股,等于要把目前的bestoffer 1000@101给match - 撮合了,那么你是不会收到这个最新的bid: 101@1000 的,
  因为它会进入matching engine的瞬间跟对面的best offer 撮合了,tick table的一个规则: bid offer 永远不会cross,
  否则要么是数据商的bug,要么是交易所的bug。现在,你只会收到一个告诉你delete the best offer的message,那么tick table长这样:

  买:500@90

Les données Tick sont si simples que le marché répète le processus.Mais ce qui est encore plus difficile, c'est:

- 1. La plupart du temps, les ticks sont envoyés en UDP, imaginez que si les transactions sont très actives sur les marchés boursiers, la quantité de données est très importante, que les UDP sont perdus, comment les traiter.

- 2. comment traiter plus rapidement les données de tick en temps réel, sinon la quantité de données est si grande qu'une fois retardée, vous ne pourrez plus suivre le rythme des ticks en temps réel jusqu'à ce que votre programme s'éteigne.

- 3. Comment éviter certaines situations particulières causant un bug, une fois qu'une tique n'est pas vraie, la table de tiques derrière elle est fausse:)

** Il y a aussi un problème de compréhension du tick: il y a des ticks différents sur les différents marchés, comme dans les marchés boursiers des pays développés, qui sont diffusés en temps réel (il y a une nouvelle commande et dans le niveau d'envoi du tick, par exemple, l'échange de Tokyo n'envoie que 8 ticks, alors vous ne pouvez pas voir l'ensemble du tick, car il peut y avoir plus de 100 niveaux si beaucoup de gens négocient). Combien de milli-secondes d'échange de tiques interceptent un instantané (snapshot), le tick est 3 secondes et vous est envoyé, peut-être que le système de transaction interne est très ancien et ne suit pas l'évolution de l'informatique.

(Cet article a été rassemblé par le négociant quantitatif WeChat id:quantcity)

  • Deuxièmement, quels sont les détails de la capture d'écran et des données des bourses?

Pour les données de tick à haute fréquence à l'étranger, il existe un processus de données d'ordre complet, vous pouvez donc utiliser ces données d'ordre pour récupérer les données de snapshot.

Les deux plus grandes actions et les quatre plus grands contrats à terme sont en théorie des données instantanées. Par exemple, les champs de données typiques comprennent: Je ne sais pas. Prix d'ouverture Prix le plus élevé Prix le plus bas Prix le plus récent Taux de transaction Taux de transaction Je ne sais pas. Le prix le plus bas ici est le prix le plus bas depuis le début de la transaction jusqu'à présent, en supposant que vous ayez des détails détaillés sur chaque transaction, en fait, cette donnée peut être calculée en max (min), donc les ticks étrangers n'ont généralement pas ce champ. Je ne sais pas. Il existe trois types de transactions en temps réel proposées par les bourses et les bourses: les transactions instantanées et les transactions et mandats à la carte. Je ne sais pas. Les photos sont prises toutes les 3 secondes (deux heures du matin et quatre heures de l'après-midi) et les photos sont prises environ 3800 fois. En ce qui concerne les actions seules, la quantité de données prises sur le marché est supérieure à 2G par jour. Je ne sais pas. La transaction par pièce est une transaction par atome réel. Cependant, cette donnée est également envoyée en un lot de 3 secondes et non en temps réel. Par exemple, une transaction qui a eu lieu dans la seconde 1.5 n'a été envoyée que dans la troisième seconde. Je ne sais pas. Les données de l'annuaire de commande, au niveau 2, ne contiennent que les 50 premiers achats et les 50 premiers achats, pas tous les annuaires. (Cet article a été rassemblé par le négociant quantitatif WeChat id:quantcity)

**典型的有几类原因导致数据的差异**
- **1. 数据记录方式**

Par exemple, si l'échange publie un fichier dbf pour les données de niveau 1 sur les actions, il enregistre toutes les données actualisées sur les titres, et le fichier dbf se rafraîchit automatiquement. Le fournisseur de données ou la personne qui enregistre les données doit donc lire le fichier à intervalles réguliers, puis mettre toutes les données dans la base de données, mais comme la fréquence de mise à jour des données par l'échange n'est pas unique, le meilleur moyen de ne pas manquer les données est de lire plus souvent que de les mettre à jour. Comme il y a une telle règle, vous verrez que certaines valeurs non actives ont moins de données que les valeurs actives, que les futures à plus long terme ont moins de données que les futures récentes, que les délais ne sont pas synchronisés, etc.

- **2. 运维问题**

Personne ne peut garantir qu'il n'y aura pas de coupure de réseau. Si une coupure de réseau, une erreur de machine, une erreur de programme, etc. survient, vous manquerez la lecture des données de l'échange. Selon le mécanisme de données mentionné ci-dessus, il n'y a en fait aucune relation logique entre les moments T et T + 1 des données de niveau 1, en supposant que vous ne pouvez pas les trouver dans les données elles-mêmes, donc de nombreuses lacunes sont en fait causées par ces raisons et ne peuvent pas être compensées.

- **3. 程序导致的数据错误**

Certaines erreurs plus inhabituelles, telles que des prix anormaux, vides, etc. pour certains types de titres, peuvent être causées par une erreur dans le processus d'enregistrement des données. Pourquoi cela se produit-il? Il est donc en principe difficile d'avoir des données fiables à 100%, il est nécessaire de vérifier et de nettoyer les données, ce qui est ennuyeux, la mise en place des règles dépend également de l'expérience personnelle.


Plus de