কোয়ালিফাইড আবশ্যকঃ টিক ডেটা কী এবং কেন নির্ভরযোগ্য লেনদেনের ডেটা পাওয়া এত কঠিন?

লেখক:ছোট্ট স্বপ্ন, তৈরিঃ ২০১৬-১১-০২ ১৯ঃ৩৩ঃ৫৬, আপডেটঃ ২০১৬-১১-০২ ১৯ঃ৪৮ঃ২০

  • প্রথমত, টিক ডেটা কি?

টিক ডেটা নিজেই কোনও রহস্য নয়, এক্সচেঞ্জটি আপনাকে প্রতিটি শেয়ারের (বা ফিউচার অপশনের) সক্রিয় অর্ডার বইয়ের (যেমন আপনার অর্ডারটি এখনও এক্সচেঞ্জে বিদ্যমান, তবে সংযুক্ত করা হয়নি) ক্রয় বা বিক্রয়ের আদেশের অবস্থা পাঠায়।

**举例说明:**
  某天的市场一开始的时候苹果股票的order book(委托挂单)清空(这里不进行auction period的探讨):
  1. 接着来了第一个卖家:1000@100 :
  这时候交易所会发给你一个message,告诉你是苹果股票有人想以100块钱卖出1000股,
  那么这个order就先挂在了order book上,成为卖一。

  卖:1000@100


  2. 第二个卖家来了,他想卖得更高: 1000@101:
  这时候交易所会发给你另一个message,告诉你是苹果股票有人卖的价格比你差,于是排序在更上面,卖二。

  卖:1000@101

  1000@100


  3. 刚才的第一个卖家后悔了,cancel了他的order:1000@100撤消了,那么交易所会有message告诉你,
  现在只剩一个1000@101(卖一)。但是你可能需要自己编程处理这种remove掉一个tick的情况。

  卖:1000@101


  4. 终于有买家来了... 500@90 , 这个价格是不会成交的,因为买家低于现在的最佳卖价:101,
  那么order book里面会继续存着这个order,同时会发送一个tick告诉市场上的其他人,有买单了:

  卖:1000@101

  买:500@90


  5. 继续,接着有一位买家以101块钱买入1000股,等于要把目前的bestoffer 1000@101给match - 撮合了,那么你是不会收到这个最新的bid: 101@1000 的,
  因为它会进入matching engine的瞬间跟对面的best offer 撮合了,tick table的一个规则: bid offer 永远不会cross,
  否则要么是数据商的bug,要么是交易所的bug。现在,你只会收到一个告诉你delete the best offer的message,那么tick table长这样:

  买:500@90

টিক ডেটা এত সহজ যে, মার্কেটপ্লেস এই প্রক্রিয়াটি পুনরাবৃত্তি করবে।কিন্তু সবচেয়ে বড় সমস্যা হলঃ

- ১. অনেক সময় টিকের ডেটা ইউডিপিতে পাঠানো হয়, মনে করুন স্টক মার্কেটে যদি খুব সক্রিয় লেনদেন হয়, তবে খুব বড় পরিমাণে ডেটা হবে, ইউডিপিতে প্যাকেজ হারাতে হবে, কীভাবে এটি মোকাবেলা করা যায়।

- ২. কিভাবে রিয়েল টাইম টিক ডেটা দ্রুত প্রক্রিয়াকরণ করা যায়, অন্যথায় ডেটা ভলিউম এত বড় যে একবার বিলম্বিত হলে আপনি আর রিয়েল টাইম টিকের গতি ধরে রাখতে পারবেন না যতক্ষণ না আপনার প্রোগ্রামটি ঝুলতে থাকে।

- ৩. কিভাবে কিছু বিশেষ পরিস্থিতিতে বাগ সৃষ্টি এড়ানো যায়, একবার একটি টিক সঠিক নয়, তাহলে পরবর্তী টিক টেবিল সব ভুল:)

** একইভাবে, টিক বোঝার সমস্যা রয়েছেঃ বিভিন্ন বাজারের টিকের পার্থক্য রয়েছে, উপরে উল্লিখিত উন্নত দেশগুলির স্টক মার্কেটগুলি রিয়েল-টাইমে প্রেরণ করা হয় ((নতুন অর্ডার রয়েছে এবং টিকের প্রেরণের স্তরের মধ্যে, যেমন টোকিও এক্সচেঞ্জটি কেবল 8 টি টিকের স্তর প্রেরণ করে, আপনি পুরো টিকটি দেখতে পাবেন না, কারণ যদি অনেক লোক ট্রেড করে তবে 100 টিরও বেশি স্তর থাকতে পারে)) । একটি স্ন্যাপশট (স্ন্যাপশট) ক্যাপচার করার জন্য কত মিলিসেকেন্ড সময় লাগে, এবং 3 সেকেন্ডের মধ্যে এটি আপনার কাছে প্রেরণ করা হয়, সম্ভবত দেশীয় লেনদেনের সিস্টেমটি খুব পুরানো এবং আইটি বিকাশের সাথে তাল মিলিয়ে রাখতে পারে না।

(এই নিবন্ধটি কোয়ান্টাম ট্রেডার WeChat id:quantcity দ্বারা সংগৃহীত।)

  • দ্বিতীয়ত, স্ন্যাপশট ডেটা এবং এক্সচেঞ্জ ডেটার কিছু বিবরণ কী?

বিদেশের উচ্চ-ফ্রিকোয়েন্সি টিক ডেটার জন্য, একটি সম্পূর্ণ অর্ডার ডেটা প্রক্রিয়া রয়েছে, তাই আপনি এই অর্ডার ডেটা ব্যবহার করে স্ন্যাপশট ডেটা পুনরুদ্ধার করতে পারেন।

দেশীয় দুটি বড় স্টক এবং চারটি বড় ফিউচার তত্ত্বগতভাবে স্ন্যাপশট ডেটা। উদাহরণস্বরূপ, সাধারণ ডেটা ক্ষেত্রগুলির মধ্যে রয়েছেঃ আমি জানি খোলার মূল্য সর্বোচ্চ মূল্য সর্বনিম্ন মূল্য সর্বশেষ মূল্য লেনদেনের পরিমাণ লেনদেনের পরিমাণ আমি জানি এখানে সর্বোচ্চ (নিম্ন) মূল্য হল শুরু থেকে এখন পর্যন্ত লেনদেনের সর্বোচ্চ (নিম্ন) মূল্য, যদি আপনি প্রতিটি লেনদেনের বিস্তারিত বিবরণ পান তবে এই তথ্যটি max (নিম্ন) দিয়ে অনুমান করা যেতে পারে, তাই বিদেশী টিক ডেটা সাধারণত এই ক্ষেত্রটি নেই। আমি জানি এক্সচেঞ্জ ও সেনচেঞ্জের দেওয়া রিয়েল-টাইম ট্রেডিংয়ের তিনটি ধরন রয়েছে, তাৎক্ষণিক এবং এক-এক করে লেনদেন ও অর্ডার। আমি জানি স্ন্যাপশট হচ্ছে প্রতি ৩ সেকেন্ডে একবার (গভীর লেনদেন, উন্মুক্ত লেনদেন ৫ সেকেন্ড) বাজারের ছবি তোলা এবং তারপরে বর্তমান মূল্য, সর্বোচ্চ, সর্বনিম্ন, লেনদেনের পরিমাণ, লেনদেনের পরিমাণ ইত্যাদির ছবি প্রেরণ করা। যেহেতু ছবিটি প্রতি ৩ সেকেন্ডে হয়, তাই এই ৩ সেকেন্ডের মধ্যে বাজারে কী ঘটে তা আমরা জানি না। প্রতিদিনের ধারাবাহিক বিডের সময়কাল সকালের দুপুরে মোট ৪ ঘন্টা। সুতরাং স্ন্যাপশটের সংখ্যা ১৪৪০০/3 প্রায় ৩৮০০ বার। কেবলমাত্র স্টকগুলির ক্ষেত্রে, প্রতিদিনের পুরো বাজারের স্ন্যাপশট ডেটা পরিমাণ ২ জি এরও বেশি। আমি জানি পয়েন্ট প্রতি লেনদেন হ'ল সত্যিকারের পরমাণু প্রতি লেনদেন। তবে এই তথ্যটিও 3 সেকেন্ডের একটি ব্যাচ প্রেরণ করা হয় এবং এটি বাস্তব সময়ে নয়। উদাহরণস্বরূপ, 1.5 সেকেন্ডের মধ্যে ঘটে যাওয়া একটি লেনদেন 3 সেকেন্ডের মধ্যে প্রেরণ করা হয়। আমি জানি লেভেল ২-তে শুধুমাত্র প্রথম ৫০টি ক্রয়-বিক্রয়ের তালিকা রয়েছে, সবগুলো নয়। (এই নিবন্ধটি কোয়ান্টাম ট্রেডার WeChat id:quantcity দ্বারা সংগৃহীত।)

**典型的有几类原因导致数据的差异**
- **1. 数据记录方式**

উদাহরণস্বরূপ, স্টকগুলির লেভেল 1 ডেটা, যেখানে এক্সচেঞ্জ একটি ডিবিএফ ফাইল প্রকাশ করে, যা সমস্ত সিকিউরিটির সর্বশেষ অবস্থা রেকর্ড করে, এবং ডিবিএফ ফাইলটি স্বয়ংক্রিয়ভাবে আপডেট হয়। সুতরাং ডেটা সরবরাহকারী বা ডেটা রেকর্ডিং ব্যক্তির যা করা দরকার তা হ'ল প্রতি কয়েক ঘন্টা পরে এই ফাইলটি পড়া এবং তারপরে সমস্ত ডেটা ডাটাবেসে রাখা, তবে এক্সচেঞ্জের ডেটা আপডেট করার ফ্রিকোয়েন্সি একটি অনন্য মান নয়, তাই ডেটা মিস না করার সর্বোত্তম উপায় হ'ল আপনি যে ফ্রিকোয়েন্সিতে পড়েন তা তার আপডেটের ফ্রিকোয়েন্সির চেয়ে বেশি। সমস্যাটি আসে কারণ আপনি অনেকগুলি পড়েন যদি প্রতিটি সময় ডেটা রেকর্ড করা হয় তবে প্রচুর পরিমাণে পুনরাবৃত্তি হয়। ডেটা পরিবর্তিত হলে আমি ডাটাবেসে এটি ব্যবহার করি। যেহেতু এই নিয়ম আছে, তাই আপনি দেখতে পাচ্ছেন যে সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিগুলির তুলনায় সক্রিয় সিকিউরিটিজগুলির তুলনায় কম সিকিউরিটিজগুলির তুলনায় দীর্ঘমেয়াদী ফিউচারগুলির তুলনায় কম সিকিউরিটিজগুলির তুলনায় কম, সময়সীমার অসামঞ্জস্য ইত্যাদি।

- **2. 运维问题**

কেউই গ্যারান্টি দিতে পারে না যে নেটওয়ার্ক বিচ্ছিন্ন হবে না; নেটওয়ার্ক বিচ্ছিন্নতা, মেশিনের ভুল, প্রোগ্রামের ভুল ইত্যাদির কারণে, এক্সচেঞ্জের ডেটা প্লেব্যাকটি মিস করা হবে। উপরের বর্ণিত ডেটা প্রক্রিয়া অনুসারে, আসলে লেভেল 1 ডেটা টি এবং টি + 1 মুহুর্তের জন্য কোনও যৌক্তিক সম্পর্ক নেই, অনুপস্থিত থাকলে আপনি ডেটা থেকে আবিষ্কার করতে পারবেন না।

- **3. 程序导致的数据错误**

কিছু তুলনামূলকভাবে অস্বাভাবিক ত্রুটি, যেমন কিছু ধরণের স্টকগুলির দাম অস্বাভাবিক, ফাঁকা ইত্যাদি হতে পারে, যা রেকর্ডিংয়ের পদ্ধতির ত্রুটির কারণে হতে পারে। কেন এটি ঘটবে? এর কারণগুলিও অনেকগুলি, আমরা জানি এটি ঘটতে পারে। একটি ছোট অংশ এক্সচেঞ্জের সমস্যাগুলির কারণে, উদাহরণস্বরূপ, এক্সচেঞ্জটি একবার লেভেল 2 ডেটার উদ্বোধনী মূল্য ভুল করেছিল। সুতরাং নীতিগতভাবে ১০০% বিশ্বাসযোগ্য তথ্য পাওয়া কঠিন, তথ্য পরীক্ষা এবং পরিস্কার করা প্রয়োজন, এবং এটি একটি ক্লান্তিকর কাজ, নিয়ম স্থাপনও ব্যক্তিগত অভিজ্ঞতার উপর নির্ভর করে।


আরো