avatar of 发明者量化-小小梦 发明者量化-小小梦
fokus pada Pesan pribadi
4
fokus pada
1271
Pengikut

Wajib baca kuantitatif: Apa sebenarnya data Tick? Mengapa begitu sulit menemukan data perdagangan yang dapat diandalkan?

Dibuat di: 2016-11-02 19:33:56, diperbarui pada: 2016-11-02 19:48:20
comments   0
hits   12005
  • ### Apa itu Tic Data?

Tick Data sendiri tidak misterius, yaitu bursa yang mengirim setiap saham (atau opsi masa depan) buku pesanan aktif (atau Anda masih berada di bursa, tetapi tidak diambil dan disintesis).

**举例说明:**
  某天的市场一开始的时候苹果股票的order book(委托挂单)清空(这里不进行auction period的探讨):
  1. 接着来了第一个卖家:1000@100 :
  这时候交易所会发给你一个message,告诉你是苹果股票有人想以100块钱卖出1000股,
  那么这个order就先挂在了order book上,成为卖一。

  卖:1000@100


  2. 第二个卖家来了,他想卖得更高: 1000@101:
  这时候交易所会发给你另一个message,告诉你是苹果股票有人卖的价格比你差,于是排序在更上面,卖二。

  卖:1000@101

  1000@100


  3. 刚才的第一个卖家后悔了,cancel了他的order:1000@100撤消了,那么交易所会有message告诉你,
  现在只剩一个1000@101(卖一)。但是你可能需要自己编程处理这种remove掉一个tick的情况。

  卖:1000@101


  4. 终于有买家来了... 500@90 , 这个价格是不会成交的,因为买家低于现在的最佳卖价:101,
  那么order book里面会继续存着这个order,同时会发送一个tick告诉市场上的其他人,有买单了:

  卖:1000@101

  买:500@90


  5. 继续,接着有一位买家以101块钱买入1000股,等于要把目前的bestoffer 1000@101给match - 撮合了,那么你是不会收到这个最新的bid: 101@1000 的,
  因为它会进入matching engine的瞬间跟对面的best offer 撮合了,tick table的一个规则: bid offer 永远不会cross,
  否则要么是数据商的bug,要么是交易所的bug。现在,你只会收到一个告诉你delete the best offer的message,那么tick table长这样:

  买:500@90

  Data Tick sangat sederhana, dan pasar akan mengulangi prosesnya. Tapi yang lebih menyedihkan adalah:

    1. Seringkali data tick akan dikirim dengan UDP, bayangkan jika perdagangan sangat aktif di pasar saham, maka jumlah data akan sangat besar, UDP akan ada kasus kehilangan paket, bagaimana cara mengatasinya. Pernah mengalami pembaruan tick yang sangat gila tetapi juga harus tetap dalam cache pembaruan detik mikro, mungkin harus diurutkan (lihat protokol bursa), dan dikirim ke front-end.
    1. Bagaimana cara mengolah data tick secara real time dengan lebih cepat, jika tidak, data akan sangat banyak, dan jika Anda menunda, Anda tidak akan bisa mengikuti tick secara real time lagi sampai program Anda mati.
    1. bagaimana menghindari beberapa situasi khusus yang menyebabkan bug, jika salah satu tick tidak benar, maka tick table di belakang semuanya salah:)

** Juga, ada masalah pemahaman tentang tick: tick di pasar yang berbeda juga berbeda, yang disebutkan di atas adalah pasar saham di negara maju, dengan kondisi real-time yang mendorong ((ada order baru dan dalam tingkat pengiriman tick, misalnya, bursa Tokyo hanya mengirimkan 8 tick level, maka Anda tidak dapat melihat seluruh full tick, karena mungkin ada lebih dari 100 level, jika banyak orang berdagang)) berapa milliseconds per bursa dalam negeri untuk mengambil snapshot, 3 detik per bursa dalam negeri, lalu dikirimkan ke Anda, mungkin sistem perdagangan dalam negeri sudah sangat tua, tidak bisa mengikuti perkembangan IT. Maka data tick ini bukan tick real time, Anda hanya tahu tick! 100 milliseconds sebelumnya dan perubahan tick saat ini adalah tick seperti itu, mungkin ada ribuan tick yang telah diperdagangkan di antara mereka.

(Artikel ini disusun oleh Quantitative Trader WeChat)

  • ### Kedua: Apa itu data snapshot dan beberapa detail dari data bursa

   Untuk data tick frekuensi tinggi di luar negeri, ada proses data order yang lengkap, sehingga Anda dapat menggunakan data order ini untuk memulihkan data snapshot.

Dua saham terbesar di negara ini dan empat saham terbesar di negara ini secara teoritis adalah data snapshot. Harga pembukaan harga tertinggi harga terendah harga terbaru volume transaksi volume transaksi Harga tertinggi (rendah) di sini adalah harga tertinggi (rendah) yang terjadi dari awal perdagangan hingga saat ini, dengan asumsi Anda memiliki rincian setiap transaksi, sebenarnya data ini dapat dihitung dengan max (min), sehingga data tick di luar negeri biasanya tidak memiliki bidang ini. Ada tiga jenis transaksi langsung yang disediakan oleh bursa saham dan bursa saham, yaitu transaksi dan penugasan. Snapshot adalah setiap 3 detik (dalam bursa, di bursa adalah 5 detik) untuk mengambil gambar pasar, dan kemudian mengirim foto situasi seperti harga saat ini, tertinggi, terendah, volume transaksi, dan jumlah transaksi. Karena foto adalah setiap 3 detik, jadi selama 3 detik pasar terjadi apa, kita tidak tahu. Transaksi per satuan adalah per satuan atom yang sebenarnya. Namun, data ini juga dikirim dalam 3 detik, dan bukan waktu nyata. Misalnya, transaksi yang terjadi pada 1,5 detik, hanya dikirim pada 3 detik. Hanya ada 50 orang teratas di Level 2 yang membeli satu-satu, tidak semua. (Artikel ini disusun oleh Quantitative Trader WeChat)

Ada beberapa kategori yang menyebabkan perbedaan dalam data.

  • 1. Metode Rekaman Sebagai contoh data Level 1 dari saham, sebuah bursa mengeluarkan sebuah dbf file yang mencatat data status terbaru dari semua sekuritas, dan dbf file selalu diperbarui secara otomatis. Maka penyedia data atau orang yang mencatat data yang perlu dilakukan adalah membaca file ini setiap beberapa waktu, lalu memasukkan semua data ke dalam database, tetapi karena frekuensi pembaruan data dari bursa bukanlah satu-satunya nilai, jadi untuk tidak kehilangan data, cara terbaik adalah Anda membaca frekuensi yang lebih tinggi dari frekuensi pembaruan data. Karena ada aturan seperti itu, Anda akan melihat lebih sedikit data dari sekuritas yang tidak aktif dibandingkan dengan sekuritas yang aktif, lebih sedikit data untuk jangka panjang dibandingkan dengan jangka pendek, dan waktu yang tidak selaras.

  • 2. Operasional Tidak ada yang bisa menjamin tidak akan terputus dari jaringan. Jika terjadi gangguan jaringan, kesalahan mesin, kesalahan program, dan lain-lain, maka akan terlewatkan pemutaran data bursa. Menurut mekanisme data yang disebutkan di atas, sebenarnya tidak ada hubungan logis untuk data Level 1 pada saat T dan T + 1, dengan asumsi bahwa Anda tidak dapat menemukan kekurangan dari data itu sendiri, sehingga banyak kekurangan sebenarnya disebabkan oleh alasan ini, dan tidak dapat diperbaiki! Seperti rekaman video televisi awal yang tidak jelas, tetapi masa lalu telah berlalu Anda tidak dapat memperbaikinya.

  • 3. Kesalahan data yang disebabkan oleh program Beberapa kesalahan yang lebih tidak biasa, seperti mengatakan bahwa harga beberapa jenis saham tidak normal, kosong, dan lain-lain, mungkin disebabkan oleh kesalahan dalam proses pencatatan data. Mengapa ini terjadi? Ada banyak alasan untuk itu, dan kita tahu bahwa itu akan terjadi. Oleh karena itu, pada prinsipnya sulit untuk memiliki 100% data yang dapat dipercaya, pemeriksaan dan pembersihan data diperlukan, dan merupakan hal yang membosankan, dan penentuan aturan tergantung pada pengalaman pribadi.