arech: (Default)
[personal profile] arech


Ребята из DeepMind cделали такую вот интересную штуковину: взяли семь старых игр для Atari и подали картинку с экрана на вход свёрточной нейросети, обучаемой несколько модифицированным алгоритмом Q-Learning. На выходе ждали сигнал, грубо говоря, какую кнопочку на клавиатуре нажимать. А скалярный сигнал {"умер", "выжил", "победил"} использовали для докрутки обучения сети...

"Сначала работало никак.
Через час тренировки - вроде как "понимало, чо надо делать".
Через два - играло лучше, чем любой известный человек.
Через четыре - открыло и стало использовать самую эффективную стратегию игры"

В сумме, по 6 играм подход продемонстрировал результаты, превосходящие все известные подходы до этого, а по 3 играм были побиты лучшие экспертные игроки.

Короче, посоны, я чо думаю...
1. берём данные с маркета как пространство состояний, {"buy","hold","sell"} как пространство действий, значение сделки как reward и повторяем подход.
2. тренируем на истории
3. выставляем торговать.
???
5. PROFIT!!!

Кто в команде? :-D

Profile

arech: (Default)
arech

October 2021

S M T W T F S
      12
3456789
10111213141516
17181920212223
24252627282930
31      

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 10th, 2026 01:51 am
Powered by Dreamwidth Studios