Bạn có thể chạy qua khỉ đột bằng máy tính SVM vector ( giao dịch) không?

Tác giả:Giấc mơ nhỏ, Tạo: 2016-11-01 11:51:41, Cập nhật: 2016-11-01 11:53:28

Bạn có thể chạy qua khỉ đột bằng máy tính SVM vector ( giao dịch) không?

Các quý vị, hãy đặt cược. Hôm nay, chúng ta sẽ cố gắng hết sức để đánh bại một con khỉ được xem là một trong những đối thủ đáng sợ nhất trong lĩnh vực tài chính. Chúng ta sẽ cố gắng dự đoán lợi nhuận sau ngày của các loại giao dịch tiền tệ. Tôi đảm bảo với bạn: thậm chí muốn đánh bại một con khỉ ngẫu nhiên và có tỷ lệ thắng 50% cũng là một điều khó khăn. Chúng ta sẽ sử dụng một thuật toán học máy sẵn có, nó hỗ trợ trình phân loại vector. Máy phân loại vector SVM là một phương pháp cực kỳ mạnh mẽ để giải quyết các nhiệm vụ hồi quy và phân loại.

  • SVM hỗ trợ máy vector

SVM Vector Machine được xây dựng dựa trên ý tưởng rằng chúng ta có thể phân loại không gian đặc trưng p chiều bằng siêu phẳng. SVM Vector Machine algorithm sử dụng một siêu phẳng và một phân tích Margin để tạo ra ranh giới quyết định phân loại, như hình dưới đây.

img

Trong trường hợp đơn giản nhất, phân loại tuyến tính là có thể. Các thuật toán chọn ranh giới quyết định, nó có thể tối đa hóa khoảng cách giữa các lớp.

Trong hầu hết các chuỗi thời gian tài chính mà bạn phải đối mặt, bạn sẽ ít gặp phải các tập hợp đơn giản, tuyến tính có thể tách ra, nhưng những trường hợp không thể tách ra thường xuất hiện. Máy tính SVM đã giải quyết vấn đề này bằng cách thực hiện một phương pháp được gọi là phương pháp biên mềm.

Trong trường hợp này, một số tình huống phân loại sai được cho phép, nhưng chúng tự thực hiện các hàm để giảm thiểu khoảng cách giữa các yếu tố và lỗi đến biên giới tương ứng với C (bất kỳ lỗi về chi phí hoặc ngân sách có thể được cho phép).

img

Về cơ bản, máy sẽ cố gắng tối đa hóa khoảng cách giữa các phân loại, đồng thời giảm thiểu các mục phạt của nó được cân C.

Một tính năng tuyệt vời của trình phân loại SVM là vị trí và kích thước của ranh giới quyết định phân loại chỉ được quyết định bởi một phần dữ liệu, tức là phần dữ liệu gần nhất với ranh giới quyết định. Tính năng của thuật toán này cho phép nó chống lại sự nhiễu loạn của các giá trị bất thường ở khoảng cách xa. Ví dụ như trong biểu đồ trên, điểm màu xanh dương ở bên phải có ảnh hưởng rất nhỏ đến ranh giới quyết định.

Có quá phức tạp không? Vâng, tôi nghĩ niềm vui chỉ mới bắt đầu.

Hãy xem xét các tình huống sau (để phân biệt các chấm màu đỏ với các chấm màu khác):

img

Đối với con người, phân loại rất đơn giản (thậm chí là một đường tròn) nhưng không giống như vậy đối với máy móc. Rõ ràng, nó không thể được làm thành một đường thẳng (một đường thẳng không thể tách các chấm đỏ ra).

Kỹ thuật hạt nhân là một kỹ thuật toán học rất thông minh, nó cho phép chúng ta giải quyết các vấn đề phân loại tuyến tính trong không gian chiều cao. Bây giờ chúng ta hãy xem nó được thực hiện như thế nào.

Chúng ta sẽ chuyển đổi không gian đặc trưng hai chiều sang ba chiều bằng cách lập bản đồ chiều cao và quay trở lại hai chiều sau khi hoàn thành phân loại.

Dưới đây là hình ảnh sau khi phân loại:

img

Nói chung, nếu có d đầu vào, bạn có thể sử dụng một bản đồ từ không gian đầu vào d chiều đến không gian đặc điểm p chiều. Chạy giải pháp mà thuật toán thu nhỏ trên sẽ tạo ra, sau đó lập bản đồ lại siêu phẳng p chiều của không gian đầu vào ban đầu của bạn.

Một tiền đề quan trọng của giải pháp toán học trên là nó phụ thuộc vào việc tạo ra một bộ mẫu điểm tốt trong không gian đặc điểm.

Bạn chỉ cần các tập hợp mẫu điểm này để thực hiện tối ưu hóa ranh giới, bản đồ không cần phải rõ ràng, các điểm trong không gian đầu vào trong không gian đặc điểm chiều cao có thể được tính một cách an toàn bằng các hàm hạt nhân ((và một chút Mercer theorem).

Ví dụ, bạn muốn giải quyết vấn đề phân loại của mình trong một không gian đặc điểm siêu lớn, giả sử là 100.000 chiều. Bạn có thể tưởng tượng được sức mạnh tính toán mà bạn cần không? Tôi rất nghi ngờ rằng bạn có thể hoàn thành nó.

  • Thách thức và khỉ đột

Bây giờ chúng ta đang chuẩn bị để đối mặt với thách thức về khả năng dự đoán của Jeff.

Jeff là một chuyên gia về thị trường tiền tệ, ông có thể đạt được độ chính xác dự đoán 50% bằng cách đặt cược ngẫu nhiên, sự chính xác này là tín hiệu dự đoán tỷ lệ lợi nhuận trong ngày giao dịch tiếp theo.

Chúng tôi sẽ sử dụng các chuỗi thời gian cơ bản khác nhau, bao gồm các chuỗi thời gian giá hiện tại, mỗi chuỗi thời gian có lợi nhuận lên đến 10lags, tổng cộng 55 tính năng.

Máy tính vector SVM mà chúng tôi chuẩn bị xây dựng sử dụng lõi 3 độ. Bạn có thể tưởng tượng việc chọn một lõi phù hợp là một nhiệm vụ rất khó khăn khác, để hiệu chỉnh các tham số C và Γ, 3 lần kiểm tra chéo chạy trên các lưới có thể kết hợp các tham số và một tập hợp tốt nhất sẽ được chọn.

Kết quả không hề đáng khích lệ:

img

Chúng ta có thể thấy rằng cả sự hồi quy tuyến tính và máy vector SVM đều có thể đánh bại Jeff. Mặc dù kết quả không lạc quan, chúng ta cũng có thể rút ra một số thông tin từ dữ liệu, điều này đã là tin tốt vì trong ngành dữ liệu, lợi ích hàng ngày của chuỗi thời gian tài chính không phải là hữu ích nhất.

Sau khi xác minh chéo, bộ dữ liệu sẽ được đào tạo và thử nghiệm, chúng tôi ghi lại khả năng dự đoán của SVM được đào tạo, để có một hiệu suất ổn định, chúng tôi lặp lại mỗi đồng tiền phân chia ngẫu nhiên 1000 lần.

img

Điều này cho thấy SVM tốt hơn so với sự hồi quy tuyến tính đơn giản trong một số trường hợp, nhưng sự khác biệt trong hiệu suất cũng khá lớn. Ví dụ, trong đồng đô la, chúng ta có thể dự đoán trung bình 54% tổng số tín hiệu. Đây là một kết quả khá tốt, nhưng hãy xem xét kỹ hơn!

Ted là anh em họ của Jeff, và nó cũng là một con khỉ, nhưng nó thông minh hơn Jeff. Ted chú ý đến tập hợp mẫu tập, chứ không phải là đặt cược ngẫu nhiên.

img

Như chúng ta đã thấy, hầu hết các SVM hoạt động chỉ dựa trên một thực tế: máy học phân loại ít có khả năng như trước. Thực tế là, sự hồi quy tuyến tính không thể lấy bất kỳ thông tin nào từ không gian đặc điểm, nhưng độ cắt (intercept) trong hồi quy có ý nghĩa, và sự cắt và cắt của một phân loại hoạt động tốt hơn liên quan đến thực tế.

Một tin tốt hơn một chút là SVM vector có thể thu được một số thông tin phi tuyến tính bổ sung từ dữ liệu, cho phép chúng tôi đưa ra 2% độ chính xác của dự đoán.

Thật không may, chúng ta vẫn chưa biết thông tin này có thể là gì, giống như máy tính vector SVM có những nhược điểm chính của riêng nó, mà chúng ta không thể giải thích rõ ràng.

Tác giả: P. López, xuất bản trên Quantdare Được chuyển từ WeChatimg


Thêm nữa

vàng9966Độc ác