avatar of 发明者量化-小小梦 发明者量化-小小梦
fokus pada mesej peribadi
4
fokus pada
1271
Pengikut

Kuantitatif mesti dibaca: Apakah sebenarnya data Tick? Mengapa sukar untuk mencari data dagangan yang boleh dipercayai?

Dicipta dalam: 2016-11-02 19:33:56, dikemas kini pada: 2016-11-02 19:48:20
comments   0
hits   12005
  • ### Pertama, apa itu Tic Data?

Tick Data sendiri tidak misteri, adalah bursa yang menghantar setiap saham (atau pilihan masa depan) buku pesanan aktif (iaitu, pesanan anda masih ada di bursa, tetapi tidak diambil dan disintesis).

**举例说明:**
  某天的市场一开始的时候苹果股票的order book(委托挂单)清空(这里不进行auction period的探讨):
  1. 接着来了第一个卖家:1000@100 :
  这时候交易所会发给你一个message,告诉你是苹果股票有人想以100块钱卖出1000股,
  那么这个order就先挂在了order book上,成为卖一。

  卖:1000@100


  2. 第二个卖家来了,他想卖得更高: 1000@101:
  这时候交易所会发给你另一个message,告诉你是苹果股票有人卖的价格比你差,于是排序在更上面,卖二。

  卖:1000@101

  1000@100


  3. 刚才的第一个卖家后悔了,cancel了他的order:1000@100撤消了,那么交易所会有message告诉你,
  现在只剩一个1000@101(卖一)。但是你可能需要自己编程处理这种remove掉一个tick的情况。

  卖:1000@101


  4. 终于有买家来了... 500@90 , 这个价格是不会成交的,因为买家低于现在的最佳卖价:101,
  那么order book里面会继续存着这个order,同时会发送一个tick告诉市场上的其他人,有买单了:

  卖:1000@101

  买:500@90


  5. 继续,接着有一位买家以101块钱买入1000股,等于要把目前的bestoffer 1000@101给match - 撮合了,那么你是不会收到这个最新的bid: 101@1000 的,
  因为它会进入matching engine的瞬间跟对面的best offer 撮合了,tick table的一个规则: bid offer 永远不会cross,
  否则要么是数据商的bug,要么是交易所的bug。现在,你只会收到一个告诉你delete the best offer的message,那么tick table长这样:

  买:500@90

  Data Tick adalah begitu mudah, pasaran akan mengulangi proses ini. Tetapi yang lebih menyusahkan ialah:

    1. Banyak kali tick data akan dihantar dengan UDP, bayangkan di pasaran saham jika perdagangan sangat aktif, maka jumlah data akan sangat besar, UDP akan ada kehilangan pakej, bagaimana untuk menangani. Pernah mengalami sangat gila tick update tetapi juga perlu kekal dalam mikro kedua update cache, mungkin perlu disusun (lihat protokol bursa), dan dihantar ke hadapan.
    1. Bagaimana untuk memproses lebih cepat data tick secara langsung, jika tidak, jumlah data yang begitu besar, sekali kelewatan, anda tidak akan dapat mengikuti tick secara langsung sehingga program anda terhenti.
    1. bagaimana untuk mengelakkan beberapa keadaan istimewa yang menyebabkan bug, jika satu tick tidak betul, maka tick table di belakang adalah salah:)

** Begitu juga, terdapat masalah pemahaman mengenai tick: tick di pasaran yang berbeza juga berbeza, di atas adalah pasaran saham negara maju, yang didorong dalam keadaan sebenar ((ada pesanan baru dan dalam tahap penghantaran tick, misalnya bursa tokyo hanya menghantar 8 tahap tick, maka anda tidak dapat melihat keseluruhan tick penuh, kerana mungkin ada lebih dari 100 tahap, jika banyak orang berdagang)) Berapa banyak masa pertukaran dalam negeri adalah beberapa millisecond mengambil gambar ringkas (snapshot), pertukaran atas pertukaran dalam 3 saat, kemudian dihantar kepada anda, mungkin sistem perdagangan dalam negeri sudah sangat tua, tidak dapat mengikuti perkembangan IT. . maka data tick ini bukan tick masa nyata, anda hanya tahu tick! dalam 100 millisecond pertama dan perubahan tick sekarang adalah seperti tick, mungkin telah bertukar ribuan tick di antara mereka.

(Artikel ini disusun oleh peniaga kuantitatif WeChat id:quantcity)

  • ### Kedua, apa itu data snapshot dan beberapa butiran mengenai data bursa.

   Untuk data tick frekuensi tinggi di luar negara, terdapat proses data order yang lengkap, jadi anda boleh menggunakan data order ini untuk memulihkan data snapshot.

Dua saham utama dan empat niaga hadapan utama di negara ini secara teori adalah data snapshot. Sebagai contoh, medan data biasa termasuk Harga pembukaan Harga tertinggi Harga terendah Harga terkini Jumlah transaksi Jumlah transaksi Di sini harga tertinggi (low) adalah harga tertinggi (low) yang berlaku dari permulaan perdagangan hingga sekarang, dengan andaian anda mempunyai butiran terperinci mengenai setiap transaksi, sebenarnya data ini dapat dijumpai dengan max (min), jadi data tick di luar negara biasanya tidak mempunyai bidang ini. Terdapat tiga jenis transaksi dalam masa nyata yang disediakan oleh bursa atas dan bursa bawah, iaitu transaksi dan penyerahan surat dan surat. Snapshot adalah setiap 3 saat ((pertukaran dalam, pertukaran atas adalah 5 saat) untuk mengambil gambar pasaran, dan kemudian menghantar foto keadaan seperti harga semasa, tertinggi, terendah, jumlah transaksi, jumlah transaksi dan sebagainya. Oleh kerana gambar adalah setiap 3 saat, kita tidak tahu apa yang berlaku di pasaran selama 3 saat. Per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per-per Data yang diletakkan di atas meja, Level 2 hanya mempunyai 50 orang teratas yang membeli dan menjual, bukan semua orang yang mendaftar. (Artikel ini disusun oleh peniaga kuantitatif WeChat id:quantcity)

Terdapat beberapa jenis sebab yang menyebabkan perbezaan dalam data.

  • 1. Cara Rekod Data Sebagai contoh, data Level 1 saham, bursa mengeluarkan fail dbf yang mencatat data status terkini semua sekuriti, fail dbf sentiasa diperbaharui secara automatik. Maka penyedia data atau orang yang merekodkan data yang perlu dilakukan adalah membaca fail ini setiap beberapa waktu, dan kemudian memasukkan semua data ke dalam pangkalan data, tetapi kerana frekuensi bursa mengemas kini data bukanlah satu-satunya nilai, jadi untuk tidak ketinggalan data, cara terbaik adalah anda membaca frekuensi yang lebih tinggi daripada frekuensi dia mengemas kini. Oleh kerana terdapat peraturan ini, anda akan melihat lebih sedikit data untuk sekuriti yang tidak aktif berbanding sekuriti yang aktif, lebih sedikit data untuk jangka masa panjang berbanding jangka masa terdekat, dan tidak seiring dengan waktu.

  • Masalah operasi Tiada siapa yang boleh menjamin tidak akan terputus rangkaian. Jika terputus rangkaian, kesilapan mesin, kesilapan program dan sebagainya, anda akan terlepas data bursa. Menurut mekanisme data yang dinyatakan di atas, sebenarnya tidak ada hubungan logik untuk data Level1 pada masa T dan T + 1, anda tidak dapat mengetahui dari data itu sendiri, oleh itu banyak kekurangan sebenarnya disebabkan oleh sebab-sebab ini, dan tidak dapat diperbaiki! Seperti rakaman video TV awal yang tidak jelas, tetapi masa lalu telah berlalu dan anda tidak dapat membaikinya.

  • 3. Kesalahan data yang disebabkan oleh program Sesetengah kesilapan yang lebih luar biasa, seperti mengatakan bahawa harga beberapa jenis saham tidak normal, kosong, dan sebagainya, mungkin disebabkan oleh kesilapan dalam prosedur pencatatan data. Mengapa ia berlaku? Oleh itu, data yang boleh dipercayai 100 peratus adalah sukar dalam prinsipnya, perlu diperiksa dan dibersihkan, dan ia adalah satu perkara yang membosankan, dan penubuhan peraturan bergantung kepada pengalaman individu.