5.4 Mengapa kita memerlukan ujian di luar sampel

Penulis:Kebaikan, Dicipta: 2019-05-10 09:13:53, Dikemas kini:

Ringkasan

Dalam bahagian sebelumnya, kami menunjukkan kepada anda bagaimana untuk membaca laporan prestasi strategi backtesting dengan memberi tumpuan kepada beberapa penunjuk prestasi penting. sebenarnya, tidak sukar untuk menulis strategi yang membuat keuntungan dalam laporan prestasi backtesting. sukar untuk menilai sama ada strategi ini akan terus berkesan di pasaran sebenar pada masa akan datang. jadi hari ini saya akan menerangkan ujian luar sampel dan pentingnya.

Backtesting tidak sama dengan pasaran sebenar

Banyak pemula mudah yakin dengan strategi perdagangan mereka dan bersedia untuk meletakkan pemikiran mereka ke dalam amalan dengan laporan prestasi atau kurva dana yang kelihatan baik. Memang, hasil backtesting ini sesuai dengan keadaan pasaran tertentu yang mereka amati, tetapi sebaik sahaja strategi perdagangan dimasukkan ke dalam pertempuran jangka panjang, mereka akan mendapati bahawa strategi itu sebenarnya tidak berkesan.

Saya telah melihat banyak strategi perdagangan, dan kadar kejayaan boleh mencapai sehingga 50% apabila backtesting. Di bawah premis kadar kemenangan yang tinggi, masih ada mempunyai nisbah keuntungan dan kerugian yang lebih tinggi 1:1. Walau bagaimanapun, setelah strategi ini dipraktikkan, mereka semua kehilangan wang. Terdapat banyak sebab untuk ini. Di antara sebab-sebab ini, sampel data terlalu kecil adalah yang utama, yang membawa kepada penyimpangan data.

Walau bagaimanapun, perdagangan adalah sesuatu yang rumit, dan sangat jelas selepas itu, tetapi jika kita kembali ke asal, kita masih merasa terharu. Ini melibatkan punca utama pengukuran kuantitatif - batasan data sejarah. jadi, jika kita hanya menggunakan data sejarah yang terhad untuk menguji strategi perdagangan, sukar untuk mengelakkan masalah Mengemudi mengikut melihat cermin belakang.

Apakah ujian di luar sampel?

Bagaimana untuk menggunakan data terhad sepenuhnya untuk menguji strategi perdagangan secara saintifik apabila data terhad? Jawapannya adalah kaedah ujian luar sampel. Semasa pengujian balik, data sejarah dibahagikan kepada dua segmen mengikut urutan masa. Segmen data sebelumnya digunakan untuk pengoptimuman strategi, yang dipanggil set latihan, dan segmen data terakhir digunakan untuk ujian luar sampel, yang dipanggil set ujian.

Jika strategi anda sentiasa sah, maka mengoptimumkan beberapa set parameter terbaik dalam data set latihan, dan menerapkan set parameter ini kepada data set ujian untuk backtest lagi. Idealnya, hasil backtest harus hampir sama dengan set latihan, atau perbezaannya adalah dalam julat yang munasabah. Maka kita boleh mengatakan bahawa strategi ini agak berkesan.

Tetapi jika strategi berfungsi dengan baik dalam set latihan, tetapi set ujian berfungsi dengan buruk, atau banyak berubah, dan apabila parameter lain digunakan tetap sama, maka strategi mungkin mempunyai bias migrasi data.

Sebagai contoh, katakan anda ingin menguji semula rebar niaga hadapan komoditi. Sekarang rebar itu mempunyai data selama kira-kira 10 tahun (2009 ~ 2019), anda boleh menggunakan data dari 2009 hingga 2015 sebagai set latihan, dari 2015 hingga 2019, digunakan sebagai set ujian. Jika parameter terbaik yang ditetapkan dalam set latihan adalah (15, 90), (5, 50), (10, 100)... maka kita meletakkan set parameter ini ke dalam set ujian. Dengan membandingkan kedua-dua laporan prestasi backtest dan kurva dana menentukan sama ada perbezaannya berada dalam julat yang munasabah.

Sekiranya anda tidak menggunakan ujian luar sampel, hanya gunakan data dari tahun 2009 hingga 2019 untuk menguji strategi. Hasilnya mungkin laporan prestasi backtest yang baik kerana terlalu sesuai dengan data sejarah, tetapi hasil backtest seperti itu mempunyai sedikit makna untuk pasaran sebenar dan tidak mempunyai kesan panduan, terutama strategi dengan lebih banyak parameter.

Ujian lanjutan di luar sampel

Seperti yang disebutkan di atas, di bawah premis kekurangan data sejarah, adalah idea yang baik untuk membahagikan data kepada dua bahagian untuk membentuk data dalam dan luar sampel.

Prinsip asas ujian rekursif: gunakan data sejarah yang lama untuk melatih model, dan kemudian gunakan data yang agak pendek untuk menguji model, dan kemudian terus-menerus menggerakkan tetingkap masa untuk mendapatkan data, ulangi langkah latihan dan ujian.

Data latihan: 2000 hingga 2001, data ujian: 2002;
Data latihan: 2001 hingga 2002, data ujian: 2003;
Data latihan: 2002 hingga 2003, data ujian: 2004;
Data latihan: 2003 hingga 2004, data ujian: 2005;
Data latihan: 2004 hingga 2005, data ujian: 2006;

...dan seterusnya...

Akhirnya, hasil ujian (2002, 2003, 2004, 2005, 2006...) dianalisis secara statistik untuk menilai prestasi strategi secara komprehensif.

Rajah berikut boleh menerangkan prinsip ujian rekursif secara intuitif:

Rajah di atas menunjukkan dua kaedah ujian rekursif.

Jenis pertama: jumlah kecil tetapi ujian berulang kali

Jenis kedua: kuantiti yang besar tetapi ujian kurang kali

Dalam aplikasi praktikal, pelbagai ujian boleh dilakukan dengan mengubah panjang data ujian untuk menentukan kestabilan model sebagai tindak balas kepada data bukan stasioner.

Prinsip asas ujian pemeriksaan silang: membahagikan semua data kepada N bahagian, menggunakan N-1 bahagian untuk melatih setiap kali, dan menggunakan bahagian yang tersisa untuk menguji.

Dari tahun 2000 hingga 2003, ia dibahagikan kepada empat bahagian mengikut pembahagian tahunan.

Data latihan: 2001-2003, data ujian: 2000;
Data latihan: 2000-2002, data ujian: 2003;
Data latihan: 2000, 2001, 2003, data ujian: 2002;
Data latihan: 2000, 2002, 2003, data ujian: 2001;

Seperti yang ditunjukkan dalam gambar di atas: Kelebihan terbesar ujian silang adalah untuk menggunakan sepenuhnya data yang terhad, dan setiap data latihan juga data ujian.

Apabila data harga tidak stabil, hasil ujian model sering tidak boleh dipercayai. Sebagai contoh, gunakan data 2008 untuk latihan dan data 2005 untuk ujian. Sangat mungkin bahawa persekitaran pasaran pada tahun 2008 telah banyak berubah berbanding dengan tahun 2005, jadi hasil ujian model tidak boleh dipercayai.
Sama seperti yang pertama, dalam ujian pemeriksaan silang, jika model dilatih dengan data terkini dan model diuji dengan data lama, ini tidak begitu logik dengan sendirinya.

Di samping itu, ketika menguji model strategi kuantitatif, kedua-dua ujian rekursif dan ujian pemeriksaan silang telah menghadapi masalah tumpang tindih data.

Apabila membangunkan model strategi dagangan, kebanyakan penunjuk teknikal adalah berdasarkan data sejarah dari tempoh tertentu. Sebagai contoh, menggunakan penunjuk trend untuk mengira data sejarah selama 50 hari yang lalu, tetapi untuk hari dagangan seterusnya, yang sekali lagi dikira dari data untuk 50 hari pertama hari dagangan, data untuk mengira kedua-dua penunjuk adalah sama selama 49 hari. Ini akan mengakibatkan perubahan yang sangat tidak penting dalam penunjuk untuk setiap dua hari bersebelahan.

Data tumpang tindih boleh mempunyai kesan berikut:

Perubahan perlahan dalam hasil yang diramalkan oleh model membawa kepada perubahan perlahan dalam kedudukan, yang merupakan histeresis penunjuk yang sering kita katakan.
Sesetengah nilai statistik untuk ujian hasil model tidak tersedia. Kerana korelasi urutan yang disebabkan oleh data berulang, hasil beberapa ujian statistik tidak boleh dipercayai.

Strategi perdagangan yang baik harus menguntungkan pada masa akan datang. ujian luar sampel, selain mengesan secara objektif strategi perdagangan, lebih cekap dalam menjimatkan masa untuk peniaga kuantitatif. Dalam kebanyakan kes, sangat berbahaya untuk menggunakan parameter optimum semua sampel secara langsung.

Jika semua data sejarah sebelum titik masa untuk pengoptimuman parameter dibezakan, dan data dibahagikan kepada data dalam sampel dan data di luar sampel, parameter dioptimumkan dengan menggunakan data dalam sampel, dan kemudian sampel di luar sampel digunakan untuk ujian di luar sampel. ralat akan dikesan, dan pada masa yang sama ia boleh diuji sama ada strategi yang dioptimumkan sesuai untuk pasaran masa depan.

Ringkasnya

Sama seperti perdagangan itu sendiri, kita tidak boleh kembali ke masa dan membuat keputusan yang betul untuk diri kita sendiri. jika anda mempunyai keupayaan untuk perjalanan masa, anda tidak perlu melakukan perdagangan sama sekali. selepas semua, kita semua manusia, kita mesti mengesahkan strategi kita dalam data sejarah.

Walau bagaimanapun, walaupun dengan data sejarah yang besar, di hadapan masa depan yang tidak berkesudahan dan tidak dapat diramalkan, sejarah sangat langka. Oleh itu, sistem perdagangan yang berdasarkan sejarah akhirnya akan tenggelam dari masa ke masa. Kerana sejarah tidak dapat menghabiskan masa depan. Oleh itu, sistem perdagangan jangkaan positif yang lengkap mesti disokong oleh prinsip dan logik yang melekat.

Percayalah, tetapi periksa. - Presiden Reagan

Latihan selepas sekolah

Apakah fenomena dalam kehidupan sebenar yang menjadi bias Survivor?
Menggunakan platform FMZ Quant untuk membandingkan backtest dalam dan luar sampel.

Lebih lanjut

2019 FMZ - Semua hak dilindungi