Mengukur data: Apakah sebenarnya data Tick dan mengapa sukar untuk mencari data transaksi yang boleh dipercayai?

Penulis:Mimpi kecil, Dicipta: 2016-11-02 19:33:56, Dikemas kini: 2016-11-02 19:48:20

  • Pertama, apa itu Tick Data?

Tick Data sendiri tidak misteri, adalah pertukaran yang menghantar kepada anda keadaan pesanan membeli atau menjual setiap saham (atau opsyen hadapan) dalam buku pesanan aktif (iaitu, pesanan anda masih ada di bursa tetapi tidak disusun).

**举例说明:**
  某天的市场一开始的时候苹果股票的order book(委托挂单)清空(这里不进行auction period的探讨):
  1. 接着来了第一个卖家:1000@100 :
  这时候交易所会发给你一个message,告诉你是苹果股票有人想以100块钱卖出1000股,
  那么这个order就先挂在了order book上,成为卖一。

  卖:1000@100


  2. 第二个卖家来了,他想卖得更高: 1000@101:
  这时候交易所会发给你另一个message,告诉你是苹果股票有人卖的价格比你差,于是排序在更上面,卖二。

  卖:1000@101

  1000@100


  3. 刚才的第一个卖家后悔了,cancel了他的order:1000@100撤消了,那么交易所会有message告诉你,
  现在只剩一个1000@101(卖一)。但是你可能需要自己编程处理这种remove掉一个tick的情况。

  卖:1000@101


  4. 终于有买家来了... 500@90 , 这个价格是不会成交的,因为买家低于现在的最佳卖价:101,
  那么order book里面会继续存着这个order,同时会发送一个tick告诉市场上的其他人,有买单了:

  卖:1000@101

  买:500@90


  5. 继续,接着有一位买家以101块钱买入1000股,等于要把目前的bestoffer 1000@101给match - 撮合了,那么你是不会收到这个最新的bid: 101@1000 的,
  因为它会进入matching engine的瞬间跟对面的best offer 撮合了,tick table的一个规则: bid offer 永远不会cross,
  否则要么是数据商的bug,要么是交易所的bug。现在,你只会收到一个告诉你delete the best offer的message,那么tick table长这样:

  买:500@90

Tick data adalah begitu mudah, dan pasaran akan mengulangi proses ini.Tetapi yang lebih menyusahkan ialah:

- 1. banyak kali data tik akan dihantar dalam UDP, bayangkan jika perdagangan di pasaran saham sangat aktif, maka jumlah data yang sangat besar, UDP akan ada keadaan kehilangan, bagaimana untuk menangani.

- 2. bagaimana untuk memproses data tik masa nyata dengan lebih cepat, jika tidak, jumlah data yang begitu besar, sekali kelewatan, anda tidak akan dapat mengikuti kadar tik masa nyata sehingga program anda hang.

- 3. Bagaimana untuk mengelakkan beberapa keadaan khas menyebabkan bug, apabila satu tik tidak benar, maka semua jadual tik di belakangnya adalah salah:)

** Begitu juga, terdapat masalah pemahaman tentang tik: terdapat juga titik tik yang berbeza di pasaran yang berbeza, seperti pasaran saham di negara maju, yang didorong dalam keadaan nyata ((jika ada pesanan baru dan hanya 8 tahap tik yang dihantar di dalam tahap tik, seperti bursa Tokyo, maka anda tidak akan melihat keseluruhan tik, kerana mungkin terdapat lebih daripada 100 tahap, jika banyak orang berdagang)). Berapa banyak mili saat untuk memetik snapshot, 3 saat untuk menghantar kepada anda, mungkin sistem dagangan domestik sudah sangat tua dan tidak dapat mengikuti perkembangan IT. Jadi data tik ini tidak real time, anda hanya tahu ya!

(Artikel ini disusun secara komprehensif oleh pedagang kuantiti WeChat id:quantcity..)

  • Kedua, apa itu data snapshot dan beberapa butiran data bursa?

Untuk data tick frekuensi tinggi di luar negara, terdapat proses data pesanan yang lengkap, jadi anda boleh menggunakan data pesanan ini untuk memulihkan data snapshot.

Dua saham dan empat niaga hadapan terbesar di negara ini secara teori adalah data snapshot; contohnya, medan data khas termasuk: Pergilah. Harga pembukaan Harga tertinggi Harga terendah Harga terkini Jumlah transaksi Jumlah transaksi Pergilah. Harga terendah di sini adalah harga terendah yang pernah berlaku sejak permulaan perdagangan sehingga kini, dengan andaian anda mempunyai butiran terperinci mengenai setiap transaksi, sebenarnya data ini boleh disimpulkan dengan max (min), jadi data tik di luar negara biasanya tidak mempunyai medan ini. Pergilah. Perdagangan langsung yang ditawarkan oleh Bursa Saham dan Perdagangan Dalam Negeri mempunyai tiga jenis, iaitu transaksi dan penugasan dengan cepat dan secara berturut-turut. Pergilah. Potret adalah setiap 3 saat (dalam perdagangan, perdagangan adalah 5 saat) mengambil gambar pasaran, dan kemudian menghantar gambar pasaran seperti harga semasa, tertinggi, terendah, jumlah urus niaga, jumlah urus niaga. Oleh kerana gambar adalah setiap 3 saat, kita tidak tahu apa yang berlaku di pasaran selama 3 saat ini. Waktu tawaran berturut-turut setiap hari adalah 2 jam setiap petang. Pergilah. Transaksi per minit adalah setiap transaksi atom yang sebenar. Walau bagaimanapun, data ini juga dihantar dalam 3 saat dan tidak secara langsung. Sebagai contoh, satu transaksi yang berlaku pada saat 1.5 saat, hanya dihantar pada saat 3 saat. Pergilah. Data penyenaraian yang diamanahkan, hanya 50 teratas yang membeli dan menjual di Level 2, bukan semua penyenaraian. (Artikel ini disusun secara komprehensif oleh pedagang kuantiti WeChat id:quantcity)

**典型的有几类原因导致数据的差异**
- **1. 数据记录方式**

Sebagai contoh, mengambil data Level 1 saham, pertukaran mengeluarkan fail DBF yang merakam semua data status terkini sekuriti, fail DBF sentiasa disemak semula secara automatik. Jadi pembekal data atau orang yang merakam data perlu membaca fail ini setiap beberapa ketika dan kemudian memasukkan semua data ke dalam pangkalan data, tetapi kerana pertukaran tidak mengemas kini data secara berkala, maka cara terbaik untuk tidak ketinggalan adalah anda membaca lebih kerap daripada ia mengemas kini data. Masalah ini timbul kerana anda membaca banyak jika setiap kali data yang dirakam datang dengan jumlah yang besar, kedua dengan banyak pengulangan. Oleh kerana terdapat peraturan seperti itu, anda akan melihat beberapa data sekuriti yang tidak aktif diperdagangkan kurang daripada sekuriti yang aktif diperdagangkan, data niaga hadapan jangka panjang kurang daripada yang baru-baru ini, masalah ketidakselarasan waktu, dan sebagainya.

- **2. 运维问题**

Tiada siapa yang boleh menjamin tidak akan terputus; jika berlaku gangguan rangkaian, kesalahan mesin, kesalahan program, dll., Anda akan terlepas pemutaran data bursa. Menurut mekanisme data yang dinyatakan di atas, sebenarnya tidak ada hubungan logik untuk masa T dan T + 1 data Tahap 1, dengan anggapan bahawa kekurangan tidak mungkin anda dapati dari data itu sendiri, jadi banyak kekurangan sebenarnya disebabkan oleh semua ini dan tidak dapat diatasi!

- **3. 程序导致的数据错误**

Kesilapan yang lebih luar biasa, seperti harga saham jenis tertentu yang tidak biasa, kosong, dan lain-lain, mungkin disebabkan oleh kesilapan dalam prosedur yang mencatat data. Mengapa ia berlaku? Terdapat banyak sebab yang kita tahu akan berlaku. Sebahagian kecil adalah kerana masalah pertukaran, seperti pertukaran yang pernah membuat kesalahan harga pembukaan data Tahap 2. Oleh itu, pada prinsipnya sukar untuk mempunyai data yang boleh dipercayai 100%, pemeriksaan dan pembersihan data adalah perlu, dan juga perkara yang membosankan, penubuhan peraturan juga bergantung kepada pengalaman individu.


Lebih lanjut