С помощью SVM-вектора можно сделать ставку (сделку) и пробежать через гориллу?

Автор:Маленькие мечты, Создано: 2016-11-01 11:51:41, Обновлено: 2016-11-01 11:53:28

С помощью SVM-вектора можно сделать ставку (сделку) и пробежать через гориллу?

Дамы и господа, бросьте ваши ставки. Сегодня мы постараемся по максимуму победить орангуна, который считается одним из самых опасных противников в финансовом мире. Мы пытаемся предсказать следующий день прибыли от различных видов торговли. Я уверяю вас: даже если вы хотите победить одно случайное пари и получить 50% шансов на победу, это очень сложно. Мы будем использовать готовый алгоритм машинного обучения, который поддерживает векторные классификаторы. SVM-векторные машины являются невероятно мощным методом решения регрессионных и классификационных задач.

  • SVM поддерживает вектора

SVM-вектор основан на идее, что можно классифицировать пространство сверхплоскостей против p-размерных характеристик. Алгоритм SVM-вектора использует сверхплоскость и определение маржи для создания границ для классификационного решения, как показано ниже.

img

В простейших случаях возможна линейная классификация. Алгоритм выбирает границу решения, которая позволяет максимизировать расстояние между классами.

В большинстве финансовых временных последовательностей, с которыми вы сталкиваетесь, вы редко встречаете простые, линейные разделяемые наборы, а неразделяемые случаи встречаются довольно часто.

В этом случае некоторые ошибочные классификации разрешены, но сами выполняют функции, чтобы свести к минимуму расстояние между фактором пропорционального соотношения и ошибкой к границе с C (ошибки в затратах или бюджете могут быть разрешены).

img

По сути, машины максимально увеличивают интервал между классификациями, но максимально уменьшают количество наказаний, которые им накладывают C.

Одной из замечательных особенностей SVM-сортировщика является то, что расположение и размер границы решения определяется только частью данных, то есть той частью данных, которая ближе к границе решения. Особенности этого алгоритма позволяют ему противостоять помехам от необычных значений в отдаленных интервалах. Например, синяя точка в правом верхнем углу диаграммы имеет небольшое влияние на границу решения.

Что ж, я думаю, что веселье только начинается.

Посмотрите на следующее (отделить красные точки от других цветов):

img

С человеческой точки зрения, это выглядит очень просто (например, с помощью оҙонсловой линии), но это не так для машины. Очевидно, что это не может быть сделано в виде прямой линии (например, с помощью прямой линии, которая не может отделить красные точки). Здесь мы можем попробовать трюк с ядром.

Ядерная техника - это очень умная математическая техника, которая позволяет нам решать вопросы линейной классификации в высокомерном пространстве. Теперь давайте посмотрим, как это делается.

Мы будем преобразовывать двумерное пространство характеристик в три измерения путем повышенного измерения и возвращаться в два измерения после того, как мы закончим классификацию.

Ниже приведены рисунки, выполненные после увеличения и классификации:

img

В общем случае, если есть d ввода, вы можете использовать mapping от d-размерного ввода в p-размерное пространство. Использование вышеперечисленного алгоритма минимизации приведет к решению, которое будет отображаться в вашем первоначальном p-размерном сверхплане ввода.

Важное условие вышеперечисленного математического решения, которое зависит от того, как создать хорошие наборы точечных образцов в пространстве характеристик.

Вам нужны только эти точечные образцовые наборы для выполнения граничной оптимизации, не требуется четкого отображения, и точки входной пространства в высокомерном пространстве характеристик могут быть безопасно рассчитаны с помощью ядерных функций ((и некоторой теории Мерсера).

Например, вы хотите решить свою классификационную задачу в супербольшом пространстве характеристик, предположим, в 100000 измерениях. Можете представить себе вычислительную мощность, которая вам понадобится?

  • Вызовы и гориллы

Сейчас мы готовимся к вызову предсказательности, чтобы победить Джефа.

Джефф - эксперт на валютных рынках, который получает 50% точности прогноза с помощью случайных ставок, что является сигналом для прогнозирования доходности на следующий торговый день.

Мы будем использовать различные базовые временные последовательности, включая временные последовательности насущных цен, каждый из которых приносит до 10 лагов прибыли, в общей сложности 55 функций.

Мы готовы построить SVM-векторную машину, которая будет использовать 3-градусные ядра. Вы можете представить, что выбор подходящего ядра - это еще одна очень сложная задача, для калибровки параметров C и Γ, 3-кратная перекрестная проверка будет выполняться на решетке возможных комбинаций параметров, и лучшая группа будет выбрана.

В результате результаты были не очень обнадеживающими:

img

Мы можем видеть, что линейная регрессия и SVM-векторные машины могут победить Джефа. Хотя результаты не оптимистичны, мы также можем извлечь некоторую информацию из данных, и это уже хорошая новость, потому что в области данных ежедневные выгоды финансовых временных последовательностей не самые полезные.

После перекрестной проверки набор данных будет обучен и протестирован, мы запишем предсказательную способность обученного SVM, и для того, чтобы иметь стабильное представление, мы повторим каждое случайное деление валюты 1000 раз.

img

Таким образом, в некоторых случаях SVM превосходит простую линейную регрессию, но также имеет небольшие различия в производительности. В долларовых и иномарках, например, мы можем предсказать 54% от общего числа сигналов. Это довольно хороший результат, но давайте посмотрим внимательнее!

Тед - двоюродный брат Джеффа, который, конечно, тоже горизонт, но он умнее Джеффа. Тед обращает внимание на тренировочный набор образцов, а не на случайные ставки. Он всегда дает сигналы заклинания из наиболее распространенных выходов тренировочного набора.

img

Как мы увидели, большинство SVM выполняются только из-за того, что машинное обучение к классификации маловероятно, чем к предыдущему. Фактически, линейная регрессия не может получить никакой информации из пространства характеристик, но пересечение имеет смысл в регрессии, и это связано с тем, что пересечение и пересечение каких-то классификаций лучше выполняются.

С другой стороны, если вы хотите получить более точную информацию, вы можете использовать SVM-векторы для получения дополнительной нелинейной информации из данных, что позволяет нам предсказать точность 2%.

К сожалению, мы еще не знаем, что это может быть за информация, как и то, что SVM-векторные машины имеют свои основные недостатки, которые мы не можем четко объяснить.

Автор: П. Лопес, опубликованный в Quantdare Переведено из WeChatimg


Больше

Золотая 9966Ожесточенный