強化学習で暗号通貨を取引する論文の日本語訳

(2017/11/24追記)
著者による実装が上がってきたのでコードも読んでみたいですね。

(注：この記事はA Deep Reinforcement Learning Framework for the Finantial Portofolio Management ProblemをGoogle翻訳にかけて雑に修正したものです。誤訳や数式のミスが多数あり、図表や一部の数式は載せていませんのでリンク先の元論文を参照しながら読んでください。)

概要

金融ポートフォリオ管理は、ファンドをさまざまな金融商品に定期的に再分配するプロセスです。本稿では、ポートフォリオ管理の問題に対する深層機械学習のソリューションを提供する、金融モデルのない強化学習フレームワークを紹介します。このフレームワークは、EQE(Ensemble Independent Evaluators)トポロジ、PVM(Portfolio-Vector Memory)、OSBL(Online Stochastic Batch Learning)スキーム、完全に活用される明示的な報酬機能で構成されています。このフレームワークは、畳み込みニューラルネットワーク(CNN)、基本リカレントニューラルネットワーク(RNN)、およびLong Short-Term Memory(LSTM)の3点で実現されています。彼らは、最近レビューまたは公開されたいくつかのポートフォリオ選択戦略とともに、暗号通貨テスト市場での30分の取引期間での3つのバックテスト実験で検証されています。暗号通貨は政府発行の金銭の電子的および分散的な代替手段で、暗号通貨の最もよく知られている例としてBitcoinを使用しています。フレームワークの3つのインスタンスはすべて、すべての実験において上位3つのポジションを独占し、他の比較取引アルゴリズムを凌駕しました。バックテストで0.25％の高い手数料率で、フレームワークは50日間で少なくとも4倍の利益を達成することができます。

Keywords: Machine learning; Convolutional Neural Networks; Recurrent Neural Networks;
Long Short-Term Memory; Reinforcement learning; Deep Learning; Cryptocurrency;
Bitcoin; Algorithmic Trading; Portfolio Management; Quantitative Finance

1. 導入

これまでの価格予測を行わずに、アルゴリズム取引問題に対するモデルフリーおよび完全機械学習スキームのこれまでの成功した試みは、この問題を強化学習(RL)問題として扱っています。これらは、Moody and Saffell(2001)、Dempster and Leemans(2006)、Cumming(2015)、およびDengらによる最近の深層RL利用を含む。 (2017)。これらのRLアルゴリズムは、資産上の離散取引信号を出力する。単一資産取引に限定されているため、トレーディング・エージェントが複数の資産を管理する一般的なポートフォリオ管理の問題には適用できません。

深層RLは最近、ビデオゲーム(Mnih et al.,2015)とボードゲーム(Silver et al.,2016)の卓越した業績により、注目を集めています。これは離散的なアクション空間を持つRLの問題であり、アクションが連続しているポートフォリオ選択の問題に直接適用することはできません。離散的な行動には未知のリスクが伴うため、市場行動は離散化することができますが、離散化は大きな欠点とみなされます。例えば、市場の残りの部分にリスクを広げることなく、すべての資本を1つの資産に投資するという極端な個別行動を定義することができます。さらに、離散化はスケールをしづらくしてしまいます。総資産の数などの市場要因は、市場によって異なります。異なる市場での機械学習の適応性を十分に活用するためには、取引アルゴリズムをスケーラブルにする必要があります。Actor-Criticの一種であるDeterministic Policy Gradient Algorithmsという汎用的な連続深層RLフレームワークが最近導入されました(Silver et al.,2014; Lillicrap et al., 2016)。これらのActor-Criticアルゴリズムにおける連続的な出力は、ニューラルネットワーク近似の行動方策関数によって達成され、第2のネットワークは、報酬関数推定器としてトレーニングされます。しかしながら、2つのニューラルネットワークをトレーニングすることは困難であり、時には不安定であることも分かっています。

本稿では、ポートフォリオ管理のために特別に設計されたRLフレームワークを提案します。フレームワークの中核は、Ensemble of Identical Independent Evaluators(EIIE)トポロジです。 IIEは、資産の履歴を検査し、潜在的な将来の成長を評価することを役割とするニューラルネットワークです。各資産の評価得点は、ポートフォリオ内の資産の意図的な重み変化のサイズによって割り引かれ、softmax層に入力され、その結果が今後の取引期間の新しいポートフォリオの重みとなります。ポートフォリオの重みは、RLエージェントの市場行動を定義します。重みが増加した資産は追加購入され、減量された資産は売却されます。市場のヒストリーデータとは別に、前回の取引期間のポートフォリオの重みもEIIEに入力されます。これは、RLエージェントが取引費用の利益への影響を検討するためです。このために、各期間のポートフォリオの重みはポートフォリオベクトルメモリ(PVM)に記録されます。 EIIEはオンライン確率的バッチラーニングスキーム(OSBL)でトレーニングされています。これは、バックテストやオンライントレード中のプレトレードトレーニングとオンライン取引の両方と互換性があります。RLフレームワークの報酬関数は、周期的な対数リターンの明示的な平均です。明示的な報酬機能を有するEIIEは、トレーニング中に、機能の勾配上昇方向に沿って進化します。この研究では3種類のIIEを用いてテストを行っています。畳み込みニューラルネットワーク(CNN)(Fukushima、1980; Krizhevsky et al.,2012; Sermanet et al.,2012) )、単純なリカレントニューラルネットワーク(RNN)、Long Short Term Memory(LSTM)(Hochreiter and Schmidhuber、1997)です。

完全な機械学習アプローチであるため、フレームワークは特定の市場に限定されるものではありません。その有効性と収益性を検証するために、フレームワークは暗号通貨(バーチャルマネー、最も有名な例としてBitcoin)の取引市場Polonix.comでテストされています。一組のコインは、実験の直前の時間間隔に亘って取引量でランク付けされることによって予め選択される。よく分離されたタイムパンの3回のバックテスト実験が30分の取引期間内に実行される。 3つのEIIEの業績は、最近公表されたポートフォリオ選択戦略(Li et al.,2015, Li and Hoi, 2014)と比較されている。 EIIEは、3つの実験すべてにおいて他のすべての戦略を大幅に上回った

暗号化された通貨、あるいは単に暗号通貨は、政府発行の金銭の電子的かつ分散的な代替品です(Nakamoto、2008; Grinberg、2012)。最もよく知られている暗号通貨の例はBitcoinですが、Bitcoin(Bonneau et al.,2015)と競合する100以上の他の取引可能な暗号通貨があります。この競争の背景には、Bitcoinにいくつかの設計上の欠陥があり、人々がBitcoinに代わるものであることを期待して、これらの欠陥を克服するために新しいコインを発明しようとしているという点が挙げられます(Bentov et al.,2014; Duffield and Hagan、2014) 。しかし、多くの暗号通貨通信がBitcoinを打ち負かすためではなく、分散アプリケーションを開発するためにブロックチェーンテクノロジを使用する目的で作成されました。(たとえば、Ethereumはスマートな契約を結ぶ分散型プラットフォームで、Siacoinは分散型クラウドSiaでストレージサービスを購入して販売するための通貨です。) 2017年6月までに、すべての暗号通貨通貨の総市場資本は102億ドルであり、そのうち41億ドルはBitcoinである(Crypto-currency market capitalizations)。したがって、設計上の欠陥にかかわらず、Bitcoinは依然として市場における支配的な暗号通貨です。そのため、他の多くの通貨は通常の貨幣で買うことはできませんが、Bitcoinに対してのみ取引されます。

暗号通貨の2つの性質は、それらの市場をアルゴリズムポートフォリオ管理実験の最善のテスト場にして、従来の金融資産と区別します。これらの性質は集中排除と開放性であり、前者は後者を意味します。中央規制当事者がなければ、入場要件の低い暗号通貨取引に誰も参加できます。 1つの直接的な結果は、小額通貨の豊富さです。これらのペニー市場の価格に影響を及ぼすためには、伝統的な市場と比較して投資額が少なくて済むでしょう。これにより、最終的に取引機は自らの市場行動によって影響を知り、活用することができます。オープン性とは、市場がよりアクセスしやすいということです。ほとんどの暗号通貨交換には、マーケットデータを取得し取引アクションを実行するためのアプリケーションプログラミングインターフェイスがあります。ほとんどの取引所は、取引の頻度を制限することなく24時間365日開いています。これらのノンストップ市場は、機械が実世界で短期間で学ぶのに理想的です。論文は次のように編成されています。セクション2では、このプロジェクトが解決しようとしているポートフォリオ管理の問題を定義します。セクション3では、資産の事前選択とその裏づけ、入力価格のテンソル、市場のヒストリーデータに欠けているデータを処理する方法を紹介します。セクション4ではポートフォリオ管理問題を言語RLで再記述します。セクション5は、EIIEメタトポロジー、PVM、OSBLスキームを提示します。 3つの実験の結果はセクション6でステージングされます。

2.問題の定義

ポートフォリオ管理は、資本を多数の金融資産に継続的に再配分する行為です。自動取引ロボットの場合、これらの投資決定および行動は定期的に行われます。このセクションでは、ポートフォリオ管理の問題の数学的設定について説明します。

2.1取引期間

この作業では、取引アルゴリズムは時間駆動であり、時間は等しい長さの期間$ T $に分割されます。各期間の始めに、取引エージェントは資産間で資金を再配分します。この論文のすべての実験で$ T = 30 $分です。資産の価格は一定期間内に上下するが、始値、高値、安値、終値の4つの重要な価格ポイントは、期間の全体的な動きを特徴づけます。(Rogers and Satchell, 1991)。継続的な市場については、ある期間における金融商品の開始価格は、前期からの終値です。バックテストの実験では、各期間の初めに資産をその期間の開始価格で購入または売却することができると仮定されています。そのような仮定の正当性はセクション2.4で与えられている。

2.2数学的理論

ポートフォリオは$ m $個の資産で構成されています。すべての資産の終値は、期間$ t $の価格ベクトル $ {\boldsymbol v_t} $を構成します。言い換えれば、$ {\boldsymbol v_t} $の$ i $番目の要素$ v_{i,t} $は、 $ t $番目の期間の$ i $番目の資産を表します。同様に、${\boldsymbol v^{(hi)}_t} $と${\boldsymbol v^{(lo)}_t} $は期間の最高値と最低値を示す。ポートフォリオの最初の資産は特別なもので、以下本稿では現金を指すものとします。すべての資産の価格は現金で表示されるので、$v^{(lo)}_{0,t} $,${\boldsymbol v^{(hi)}_t} $および$ v^{(lo)}_{0,t} $は常に1で、すなわち$v^{(hi)}_{0,t} = v^{(lo)}_{0,t} = v_{0,t} = 1,\forall t $です。この論文の実験では、現金はBitcoinです。連続市場では、$v^{(lo)}_{0,t} $の要素は、期間$t + 1 $の開始価格,および期間$ t $。 $ t $番目の取引期間の価格相対ベクトルは、$ {\boldsymbol v_t} $を$ {\boldsymbol v_{t-1}} $で要素ごとに除算したものとなります:

$$ y_t := v_t \oslash v_{t-1} = \biggl(1,\frac{v_{1,t}}{v_{1,t-1}},\frac{v_{2,t}}{v_{2,t-1}},…,\frac{v_{m,t}}{v_{m,t-1}} \biggr)^T \tag{1}$$

$ y_t $の要素は、期間中の個々の資産の終値を始値で割った商です。価格相対ベクトルは、ある期間におけるポートフォリオ全体の価値の変化を計算するために使用できます。 $ p_{t-1} $が期間$ t $の初めのポートフォリオ価値であり、取引コストを無視すると、

$$ p_t = p_{t-1}{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} \tag{2}$$

ここで$ {\boldsymbol w}_{t-1} $は期間$ t $の始めのポートフォリオ・ウェイト・ベクトル(以降ポートフォリオ・ベクトルと呼ぶ)です。ポートフォリオ・ベクトルの$ i $番目の要素$ w_{t-1,i} $は、資本再配分後のポートフォリオにおける資産$ i $の割合です。$ {\boldsymbol w}_t $の要素の合計は定義上常に1となります。つまり、$ \sum_i w_{t,i} = 1、\forall t $です。期間$ t $の 収益率 は、

$$ \rho_t := \frac{p_t}{p_{t-1}} -1 = {\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} -1 \tag{3}$$

対応する対数リターン率は、

$$ r_t := \ln \frac{p_t}{p_{t-1}} = \ln {\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} \tag{4}$$

典型的なポートフォリオ管理問題では、初期ポートフォリオ重みベクトル$ {\boldsymbol w}_0 $は、ユークリッド空間における第1の基底ベクトルであるように選択され、

$$ {\boldsymbol w}_0 = (1,0,…,0)^T \tag{5} $$

市場に入る前にすべての資本が取引通貨であることを示しています。取引コストがない場合、最終的なポートフォリオ価値は

$$ p_f = p_0 \exp \biggl( \sum_{t=1}^{t_f+1}r_t \biggr) = p_0 \prod_{t=1}^{t_f + 1}{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} \tag{6} $$

ここで、$ p_0 $は初期投資額です。ポートフォリオマネージャの仕事は、特定の時間枠で$ p_f $を最大化することです。

2.3 Transaction Cost

現実のシナリオでは、市場で資産を売買することは無料ではありません。通常、手数料は手数料となります。一定の手数料率を仮定すると、このセクションでは、Ormos and Urb’an(2013)による作業を拡張する再帰式を使用して、式(6)の最終ポートフォリオ値を再計算します。

期間$ t $の始めのポートフォリオベクトルは$ w_{t-1} $です。同じ期間の終わりに、市場における価格の動きのために、ウェイトは

$$ {\boldsymbol w}’_t = \frac{{\boldsymbol y}_t \odot {\boldsymbol w}_{t-1}}{{\boldsymbol y} \cdot {\boldsymbol w}_{t-t}} \tag{7}$$

ここで、$ \odot $は要素ごとの乗算です。現在、期間$ t $の終了時におけるポートフォリオマネージャの使命は、関連する資産を売買することによって、ポートフォリオベクトルを$ w’_t $から$ w_t $に再配分することです。手数料をすべて支払うと、この再配分行動はポートフォリオの価値を係数$ \mu_t $だけ縮小します($ \mu_t \in (0,1] $)。これからはトランザクションの残りの要素と呼ばれます。 $ \mu_t $は以下のとおりとする。期間$ t $の初めに$ p_{t-1} $をポートフォリオの値とし、最後に$ p’_t $とすると、

$$ p_t = \mu_tp’_t \tag{8}$$

(図は省略)
図1：トランザクション残余係数μtの効果の図。価格相対ベクトル$ y_t $で表される期間t中の市場の動きは、ポートフォリオ価値とポートフォリオの重みをpt-1と$ w_{t-1} $からp’tとw’tに変換する。時間tにおける資産の売買行動は、ファンドをウェイトに再分配する。副作用として、これらの取引は、ポートフォリオをptまでμt倍に縮小します。期間tの収益率は、式(9)の2つの連続する期間の開始時のポートフォリオ値を使用して計算されます。

いま、収益率(3)と対数収益率(4)は

$$ \rho_t = \frac{p_t}{p_{t-1}} -1 = \frac{\mu_t p’_t}{p_{t-1}} -1 = \mu_t{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} -1 \tag{9}$$

$$ r_t = \ln \frac{p_t}{p_{t-1}} = \ln \mu_t{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} \tag{10}$$

式(6)の最終ポートフォリオ値は

$$ p_f = p_0 \exp \biggl( \sum_{t=1}^{t_f+1}r_t \biggr) = p_0 \prod_{t=1}^{t_f + 1}{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} \tag{11} $$

取引コストを考慮しない式(4)、(2)と異なり、式(10)、(11)においては$ p’_t \neq p_t $であり、2つの値の差はトランザクションの残りの要素が作用するところです。図1は、ポートフォリオベクトルと値の間の関係、および時間軸上のそれらの動的関係を示しています。

残りの問題は、このトランザクション残余係数$ \mu_t $を決定することです。 $ w’_t $から$ w_t $へのポートフォリオ再配分中に、$ p’_t w’_{t,i} > p_t w_{t,i} $または$ w’_{t,i} > \mu_t w_{t,i} $となった場合は資産の一部または全部を売却する必要がある。すべての売却によって得られた現金の総額は

$$ (1-c_s)p’_t \sum_{i=1}^m(w’_{t,i} – \mu_tw_{t,i}) \tag{12} $$

ここで$ 0 \leq C_s \lt 1 $は販売のための手数料率、$ (v)^+ = ReLu(v) $は要素単位の整流線形関数で、$ x > 0 $なら$ (x)^+ = x $、そうでなければ$ (x)^+ = 0 $です。この金と、新しい予備金$ \mu_t p’_t w_{t,0} $を取り去った元の現金予備金$ p’_tw’_{t,0} $は、新しい資産を購入するために使用され、

$$ (1-c_p) \biggl[ w’_{t,0} + (1-c_s) \sum_{i=1}^m(w’_{t,i} – \mu_tw_{t,i})^+ – \mu_t w_{t,0} \biggr] = \sum_{i=1}^m(\mu_t w_{t,i} – w’_{t,i})^+ \tag{13} $$

ここで$ 0 \leq C_p \lt 1 $は購買手数料率であり、$ p’_t $は両側で相殺されている。同一性$ (a – b)^+ – (b – a)^+ = a – b $と事実$ w’_{t,0} + \sum_{i=1}^m w’_{t,i} = 1 = w_{t,0} + \sum_{i=1}^m w_{t,i} $を使用すると式(13)は以下のように簡略化されます。

$$ \mu_t = \frac{1}{1-c_p w_{t,0}} \biggl[ 1 – c_p w’_{t,0} – (c_s + c_p – c_s c_p) \sum_{i=1}^m(w’_{t,i} – \mu_tw_{t,i})^+ \biggr] \tag{14} $$

線形整流器内部の$ \mu_t $の存在は、$ \mu_t $を解析的に解くことはできないが、反復的にのみ解けることを意味する。

定理1

(15)

この収束はOrmos and Urb’an(2013)には述べられていないが、その証拠は付録Aに記載されている。この定理は、トランザクション残余係数μtを任意の精度で近似する方法を提供する。収束の速度は初期ゲストの誤差に依存する。小さい|μt – μ⊙|が速いほど、Sequence(15)はμtに収束します。 cp = cs = cのとき、cmPi = 1 | w’t、i-$ w_t $、i |でμtを近似する練習がある(Moody et al.,1998)。したがって、この作品では、μ⊙はこれをシーケンスの最初の値として使用します。

(16)

ニューラルネットワークのトレーニングでは、固定されたk in(15)を有する〜μ(k)tが使用される。バックテスト実験では、許容誤差？ ~μ(k)t – ~μ(k-1)t <τとなるように、最初のkであるkを動的に決定する。
tを近似する。一般に、μtとその近似は、2つの最近の期間のポートフォリオベクトルと価格相対ベクトルの関数であり、

μt=μt($ w_{t-1} $、$ w_t $、$ y_t $)。 (17)

この作業を通じて、非現金資産の売却と購入の両方に対して1つの一定の手数料率が使用され、cs = cp = 0.25％、Poloniexの最大率が使用されます。アルゴリズムエージェントの目的は、トランザクションコストを考慮して、(11)の累積資本を最大化するためにポートフォリオベクトル{w1、w2、···、$ w_t $、···}の時系列を生成することである。

2.4 2つの仮説

この作業では、バック・トゥ・テスト取引は、市場史上のある時点で、将来の市場情報を知らずに時間を振って振り回して、それ以降の紙取引を行うようなふうに考えられています。バックテスト実験の要件として、以下の2つの仮定が課される。

1.ゼロスリップ：すべての市場資産の流動性が高いため、各取引は注文が発動された直前の価格で直ちに実行できる。

2.ゼロ市場への影響：ソフトウェア取引エージェントによって投資された資本はそれほど重要ではないため、市場に影響を与えません。実際の取引環境では、市場における取引量が十分に高い場合、これらの2つの仮定は現実に近いものです。

3.データ処理

取引実験はPoloniexの取引所で行われ、Poloniexでは約80対65の利用可能な暗号化通貨ペアが存在します。しかし、以下の理由から、1つの期間内に取引ロボットによって選ばれたコインのサブセットのみを利用します。コイン選択スキームとは別に、このセクションではニューラルネットワークが入力として受け取るデータ構造、正規化前処理、欠落データに対処するスキームについても説明します。

3.1資産事前選択

この論文の実験では、ポートフォリオのために大部分を占める非現金資産11件が事前に選択されています。現金、Bitcoinと合わせて、ポートフォリオのサイズ$ m + 1 $は12です。この数は経験によって選択され、将来の実験で調整することができます。外国為替市場のように取引量の大きい市場では、mは利用可能な資産の総数と同じくらい大きくなる可能性があります。

トップボリュームの暗号化通貨(以下単にコインと呼ぶ)を選択する理由の1つは、資産の市場流動性が高まることを意味します。これは市場状況が第2.4節で設定された仮説1に近いことを意味します。大きなと引き料は投資が市場に及ぼす影響が小さくなると考えられ、仮説2に近い環境を構築できます。日足の取引アルゴリズムに比べて比較的高い取引頻度(30分)を考えると、流動性と市場規模は現在の設定では特に重要です。さらに、暗号通貨の市場は安定していません。これまでにめったに取引されていなかったコインや短期間に取引量が急激に増減することもあります。したがって、資産の事前選択のための量は、取引期間に比べてより長い時間枠で考えます。今回の実験では30日とします。しかし、バックテスト実験で取引量トップのコインを使用すると、生存バイアスが発生する可能性があります。資産の取引量はその人気に相関しており、その人気は過去の業績によって支配されています。将来の取引量ランキングをバックテストに用いると、必然的かつ間接的に将来の価格情報が実験に反映され、信頼性のない肯定的な結果が生じます。この理由から、バックテストの開始直前のボリューム情報のみが事前選択のために用いられ、生存バイアスを回避します。

3.2価格テンソル

価格のヒストリカルデータはニューラルネットワークに渡され、ポートフォリオベクトルの出力を生成します。このサブセクションでは、入力テンソルの構造、正規化スキーム、および欠落データの処理方法について説明します。

期間$ 5 $の終わりのニューラルネットワークへの入力は、形状$ (f,n,m) $を有するランク3のテンソル$ {\boldsymbol X}_t $であり、$ m $は予め選択された非現金資産の数であり、$ n $は入力期間の数$ t $の前に、$ f = 3 $が特徴番号である。ヒストリカルデータ中より過去の価格は直近のものよりも現在の価格との相関がずっと低いので、$ n = 50 $(1日と1時間)実験を行った。資産$ m $の選択の基準は第3.1項で与えられている。期間$ t $の資産$ i $の特徴は、その期間内の終値、最高価格、最低価格です。セクション2.2の表記法を使用して、これらは$ v_{i,t},v_{i,t}^{(hi)},v_{i,t}^{(lo)}, $です。しかし、これらの絶対価格値はネットワークに直接渡りません。価格の変化のみがポートフォリオ管理(式(10))のパフォーマンスを決定するため、入力テンソルのすべての価格は最新の終値で正規化されます。したがって、$ {\boldsymbol X}_t $は3つの正規化価格行列の積み重ねであり、

$$ {\boldsymbol X}_t = {\boldsymbol V}_{t},{\boldsymbol V}_{t}^{(hi)},{\boldsymbol V}_{t}^{(lo)} \tag{18} $$

ここで$ {\boldsymbol V}_{t},{\boldsymbol V}_{t}^{(hi)},{\boldsymbol V}_{t}^{(lo)} $は正規化された価格の行列で、

$$ {\boldsymbol V}_{t} = \biggl[ v_{t-n+1} \oslash v_t \big| v_{t-n+2} \oslash v_t \big| … \big| v_{t-1} \oslash v_t \big| {\boldsymbol 1}\biggr], $$
$$ {\boldsymbol V}_{t}^{(hi)} = \biggl[ v_{t-n+1}^{(hi)} \oslash v_t \big| v_{t-n+2}^{(hi)} \oslash v_t \big| … \big| v_{t-1}^{(hi)} \oslash v_t \big| v_t^{(hi)} \biggr], $$
$$ {\boldsymbol V}_{t}^{(lo)} = \biggl[ v_{t-n+1}^{(lo)} \oslash v_t \big| v_{t-n+2}^{(lo)} \oslash v_t \big| … \big| v_{t-1}^{(lo)} \oslash v_t \big| v_t^{(lo)} \biggr], $$

ここで$ {\boldsymbol 1} =(1,1,…,1)^T $および$ \oslash $は要素単位の除算演算子である。

期間$ t $の終わりに、ポートフォリオマネージャは、あるポリシーに従って、価格テンソル$ {\boldsymbol X}_t $および1つ前ののポートフォリオベクトル$ w_{t-1} $からの情報のみを使用して、ポートフォリオベクトル$ w_{t} $を提示する。換言すれば、$ w_{t} = \pi ({\boldsymbol X}_t , w_{t-1}) $である。期間$ t + 1 $の終わりにおいて、$ w_t $による当該期間の対数収益率は、式(10)から導かれる$ r_{t+1} = \ln(\mu_{t+1} {\boldsymbol y}_{t+1} \cdot {\boldsymbol w}_t) $を用いて、価格変化ベクトル$ y_{t+1} $からの追加情報を用いて計算することができる。 RLにおいては、$ r_{t + 1} $は、環境条件$ {\boldsymbol X}_t $の下でのそのアクションに対するポートフォリオ管理エージェントへの即時の報酬です。

3.3欠損データの補完

選択された暗号通貨にはヒストリーデータの一部が欠けているものがあります。このデータの欠如は、これらの通貨がちょうど最近に現れたことによるものです。通貨の存在前のデータポイントは、取引所から番号なし(NAN)としてマークされます。コイン選択基準は、バックテスト前の過去30日間の取引量ランキングであり、その前にすべての資産が存在していなければならないため、NANはトレーニングセットにのみ現れました。

ニューラルネットワークの入力は実数でなければならないので、これらのNANを置換する必要があります。著者の以前の研究(Jiang and Liang, 2017)では、ニューラルネットワークがこれらの欠損データををトレーニングプロセスで使用してしまうのを避けるために、失われたデータは減衰率の0.01で値下がりするダミーデータで補完していた。しかし、ネットワークはこの特定データに深く影響を受けてしまい、バックテストの実験で非常に有望な上昇トレンドにあったとしても、この資産を使いませんでした。この理由から今回の研究では、欠けているデータポイントを埋めるために、フラットなダミー価格の動き(0の減衰率)が使用されています。さらに、新しいEIIE構造の下では、新しいネットワークは個々の資産名は明らかにされず、特定の資産の過去の悪い記録に基づいて資産を選択できないようにします。

4.強化学習

セクション2で定義した問題を念頭に置いて、このセクションでは、決定論的な方策勾配法を使用した補強学習(RL)ソリューションフレームワークを紹介します。明示的な報酬機能もこの枠組みの下で与えられる。

4.1環境とエージェント

アルゴリズムポートフォリオ管理の問題では、エージェントは金融市場の環境で取引行動を実行するソフトウェアポートフォリオマネージャです。この環境は、市場のすべての利用可能な資産と、それに向かうすべての市場参加者の期待から構成されています。

そのような大規模で複雑な環境の状態に関する情報をエージェントが得ることは不可能です。それにもかかわらず、関連するすべての情報は、資産の価格に反映され、しかもそれらはエージェントがすべてアクセスできる情報であると、テクニカルトレーダー(Charlesら、2006; Lo et al.,2000)の哲学において信じられている。このような観点から、環境の状態は、状態が存在する瞬間までの市場のヒストリーデータを通じて、すべての注文の価格によっておおよそ表されます。すべてのヒストリーデータは多くの金融市場のものがパブリックドメインになっていますが、ソフトウェアエージェントが実際にこの情報を処理するのはあまりにも巨大な作業です。結果として、市場環境の状態表現を将来単純化するために、注文履歴情報のためのサブサンプリングスキームが採用されます。これらのスキームには、セクション3.1、定期的な特徴抽出とヒストリーデータのカットオフで説明されている資産の事前選択が含まれます。定期的な特徴抽出は、時間を期間に離散化し、各期間の最高、最低、および終値を抽出する。ヒストリーデータのカットオフは、環境の現在の状態を表すために、最近の期間だけの価格機能を単純に取り入れます。その結果の表現は、セクション3.2で説明された価格テンソル$ {\boldsymbol X}_t $である。セクション2.4の仮説2の下で、エージェントの取引行動は市場の将来の価格状態に影響を与えません。しかし、期間$ t $の初めに行われた行為は期間$ t + 1 $の報酬に影響し、結果としてその行為の決定に影響を与える。資産間で富を再分配することを目指して、期間$ t + 1 $の初めに行われたエージェントの売買取引は、ポートフォリオの重み$ w’t $と$ w_t $との差によって決定される。 $ w’t $は式(7)の$ w_{t-1} $の項で定義され、最後の期間のアクションにおいても役割を果たす。 $ w_{t-1} $は、最後の期間に既に決定されているので、時刻tにおけるエージェントのアクションは、ポートフォリオベクトル$ w_t $だけで表すことができ、

$$ a_t = w_t \tag{19} $$

したがって、以前のアクションは、$ w_t $(17)に対するrt + 1およびμt+ 1の依存性を通じた現在の決定に影響を与えます。現在の枠組みでは、この影響は、$ w_{t-1} $を環境の一部として考慮し、エージェントの行動作成ポリシーに入力することでカプセル化されるため、tの状態は$ {\boldsymbol X}_t $と$ w_{t-1} $のペアとして表され、

$$ s_t = ( {\boldsymbol X}_t, w_{t-1}) \tag{20} $$

ここで$ w_0 $は(5)で予め定められている。状態$ s_t $は、価格テンソル$ {\boldsymbol X}_t $によって表される外部状態と、最後の期間$ w_{t-1} $からのポートフォリオベクトルによって表される内部状態の2つの部分からなる。 2.4項の仮説2の下では、ポートフォリオの金額は市場の総取引量に比べて無視できるので、内部状態には含まれない。

4.2完全活用と報酬関数

$ t_f +1 $期間の終わりに式(11)の最終ポートフォリオ値$ p_f $を最大にするのはエージェントの仕事である。エージェントは初期投資の選択肢$ p_0 $およびポートフォリオ管理プロセス全体の長さ$ t_f$の制御を持たないため、このジョブは平均対数累積リターン_R_を最大化することと等価であり、

$$ R(s_1,a_1,…,s_{t_f},a_{t_f},s_{t_f+1}) := \frac{1}{t_f}\ln\frac{p_f}{p_0} = \frac{1}{t_f} \sum_{t=1}^{t_f+1} \ln (\mu_t{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1}) \tag{21}$$

$$ = \frac{1}{t_f} \sum_{t=1}^{t_f+1}r_t \tag{22}$$

(21)の右辺では、$ w_{t-1} $は行動$ a_{t-1} $によって与えられ、$ y_t $は状態変数$ s_t $からの価格テンソル$ {\boldsymbol X}_t $の一部であり、$ \mu_t $は(17)で述べた$ w_{t-1} $、$ w_t $および$ y_t $の関数である。 RLの文脈では、Rは累積報酬であり、$ \frac{r_t}{r_f} $は個々のエピソードの即時報酬です。分母$ t_f $は、蓄積されたポートフォリオ価値を用いた報酬関数とは異なり(Moody et al.,1998)、異なる長さで実行した場合の報酬関数の公平性を保証し、ミニバッチで取引方針をトレーニングすることを可能にします。

この報酬関数により、このフレームワークはたくさんある強化学習の問題から2つの重要な特徴を抽出します。 1つは、エピソードと累積報酬の両方が正確に表現されていることです。換言すれば、フレームワークは環境の知識を十分に習得しており、エージェントによって完全に活用されることができるようになっています。この正確な表現力は、2.4節の仮説1に基づいて、行動が将来の状態の外部部分である価格テンソルに影響を与えないことに基づいています。この「行動と外部環境の隔離」によって、市場履歴の同じセグメントを使用してアクションの相違の順序を評価することもできます。新規に学習を行うのは時間と費用がかかるため、この機能は大きな利点とです。

2つ目の違いは、すべてのエピソード報酬が最終的なリターンにとって同等に重要であるということです。この区別は、ゼロ市場影響想定と併せて、$ \frac{r_t}{r_f} $を、アクションの将来の影響を考慮しないで、0の割引係数でアクション$ w_t $の行動価値関数と見なすことを可能にします。明確な行動価値関数を持つことは、他のRL問題の探索が主に異なるクラスの行動価値関数の試行であるため、完全活用アプローチをさらに正当化する。一方、探査がなければ、以下で議論される方策パラメータのランダムな初期化によって局所的な最適化を避けることができる。

4.3確定的方策勾配

方策は状態空間から行動空間へのマッピングで、 $ \pi : {\boldsymbol S} \rightarrow {\boldsymbol A} $です。フレームワークの完全活用により、ある状態における方策によって行動が決定論的に生成されます。最適なポリシーは、最急上昇法を使用して取得されます。これを実現するために、ポリシーはパラメータ$ {\boldsymbol \theta} $のセットによって指定され、$ {\boldsymbol a}_t = \pi_{\boldsymbol \theta} ({\boldsymbol s}_t ) $です。 $ \pi_{\boldsymbol \theta} $の時間間隔$ [0, t_f] $における性能測定基準は当該区間のする報酬関数(21)として定義され、

$$ J_{[0, t_f]}(\pi_{\boldsymbol \theta}) = R({\boldsymbol s}_1, \pi_{\boldsymbol \theta}(s_1),…,{\boldsymbol s}_t,\pi_{\boldsymbol \theta}(s_t) ,{\boldsymbol s}_{t_f+1}) \tag{23}$$

ランダム初期化の後、パラメータは、学習率$ \lambda $で勾配方向に沿って連続的に更新され、

$${\boldsymbol \theta} \rightarrow {\boldsymbol \theta} + \lambda \nabla_{\boldsymbol \theta}J_{[0,t_f]}(\pi_{\boldsymbol \theta}) \tag{24}$$

トレーニング効率を向上させ、機械精度誤差を回避するため、$ {\boldsymbol \theta} $は全てのトレーニング用マーケットヒストリーデータの代わりにミニバッチで更新されます。ミニバッチの時間範囲が$ [t_{b1}, t_{b2}] $の場合、バッチの更新ルールは

$${\boldsymbol \theta} \rightarrow {\boldsymbol \theta} + \lambda \nabla_{\boldsymbol \theta}J_{[t_{b1}, t_{b2}]}(\pi_{\boldsymbol \theta}) \tag{25}$$

(21)で定義された対応する$ R $の分母が$ [t_{b1}, t_{b2}] $に置き換えられます。この勾配上昇のミニバッチアプローチはオンライン学習を可能にします。これは、新しいマーケットヒストリーデータが引き続きエージェントに伝わるオンライン取引においては重要です。オンライン学習とミニバッチトレーニングの詳細については、第5.3節で説明します。

5.方策ネットワーク

方策関数$ \pi_{\boldsymbol \theta} $は3つの異なるディープニューラルネットワークを用いて構築されます。この論文のニューラルネットワークは3つの重要なイノベーションにおいて、以前のバージョンとは異なります。(Jiang and Liang, 2017)その3つとはポートフォリオ管理問題を対象としたミニ・マシン・トポロジ、ポートフォリオ・ベクタ・メモリ、確率的なミニバッチのオンライン学習スキームです。

5.1ネットワークトポロジ

方策機能を構築する3つのニューラルネットワークは、CNN、RNN、およびLSTMです。図2は、現在のポートフォリオ管理問題を解決するために設計されたCNNのトポロジを示し、図3は、同じ問題に対するRNNまたはLSTMネットワークの構造を示しています。すべての場合において、ネットワークへの入力は、(18)で定義された価格テンソル$ {\boldsymbol X}_t $であり、出力はポートフォリオベクトル$ {\boldsymbol w}_t $である。両方の図において、出力ポートフォリオベクトルの仮の例が用いられていますが、価格テンソルの次元および資産の数は実験で展開された実際の値です。最後の隠れ層は、すべての非現金資産の投票スコアです。これらのスコアのsoftmaxの結果と現金のバイアスは、実際に対応するポートフォリオの重みとなります。ニューラルネットワークがトランザクションコストを考慮するために、最後の期間から得たポートフォリオベクトル$ {\boldsymbol w}_{t-1} $が、投票層の直前のネットワークに挿入されます。ポートフォリオ・ベクトルをパラレルに格納および検索する実際のメカニズムは、セクション5.2に示されています。

3つのネットワークすべてにおいて重要な共通機能は、ネットワークが資産$ m $に対して独立して流れ、ネットワークパラメータがこれらのストリーム間で共有されることです。これらのストリームは独立しているが同一の小規模なネットワークと同様であり、個々の非現金資産を個別に観察し評価します。それらはsoftmax関数で相互接続するだけで、出力ウェイトが非負であり、総和が1になるようにします。我々は、このトポロジをミニマム・マシンまたはより正式に同一の独立評価者(IIE)と呼んでおり、このトポロジの特徴をEnsemble of IIE(EIIE)と呼び、初期(Jiang and Liang, 2017)の実験における全体のアプローチと区別するためにミニ・マシン・アプローチと呼んでいます。 EIIEは図2と3で異なる状態で実装されています。図2のIIEは、高さ1のカーネルを持つ畳み込みの連鎖にすぎませんが、図3では、単一資産のヒストリカルデータを入力として扱うLSTMまたはRNNのいずれかです。

EIIEは、ポートフォリオ管理のパフォーマンスを大幅に向上させます。以前のバージョンの統合ネットワークは、個々の資産の過去のパフォーマンスを覚えているため、資産が将来有望であっても、過去のパフォーマンスが芳しくない資産に金銭を投資することを避けます。一方、割り当てられた資産のアイデンティティーを明らかにするように設計されていない場合、IIEは単に最近の出来事に基づいて潜在的な上昇と下降を判断することができます。

実用的な観点からは、EIIEは統合ネットワークに比べて3つの重要な利点があります。 1つ目は、資産数のスケーラビリティです。全てのミニマシンでパラメータを共有することにより、アンサンブルのトレーニング時間は$ m $とほぼ線形になります。第2の利点は、データ使用効率です。価格履歴の区間では、ミニ・マシンを異なる資産に$ m $回トレーニングすることができます。 IIEの資産評価実績は、時間と資産の両面で共有され蓄積されます。最後の利点は、資産収集の柔軟性です。 IIEの資産評価能力は特定の資産に限定されることなく普遍的であるため、EIIEは、ゼロから再びネットワークをトレーニングすることなく、資産の選択および/またはポートフォリオのサイズをリアルタイムで更新することができます。

(図は省略)図2：EIIEのCNN実装：

3つの特徴量で$ m \times n = 11 \times 50 $のヒストリカルデータを入力
↓$ 1 \times 3 $の畳み込み＋ReLU
2つのサイズ$ 11 \times 48 $の特徴量マップ
↓$ 1 \times 48 $の畳み込み＋ReLUに最後の期間の$ {\boldsymbol w} $を追加
20+1のサイズ$ 11 \times 1 $の特徴量マップ
↓$ 1 \times 1 $の畳み込み＋現金のバイアス項
1つのサイズ$ 11 \times 1 $の特徴量マップ
↓softmax
ポートフォリオベクトル$ {\boldsymbol w} $。$ m + 1 = 12 $の要素。

これは同一独立評価者のアンサンブル(EIIE)を全て畳み込みネットワークで実装したものです。全ての特徴量マップにおける全ての局所受信フィールドの第1の次元は1であり、全ての行がソフトマックス活性化まで互いに隔離されています。通常のCNN特性である特徴量マップの受信フィールド間での重み共有は別に、パラメータもEIIE構成の行間で共有されます。ネットワーク全体の各行には特定の資産が割り当てられており、次に値上がりそうな資産の投票スコアをsoftmaxまで送る役割があります。ネットワークへの入力は、過去$ n $個の$ m $種類の非現金資産の最高、終値、最低価格を含む$ 3\times m \times n $の価格テンソルです。出力は新しいポートフォリオの重みです。1つ前のポートフォリオの重みは、エージェントが取引コストを最小限に抑えるために、スコアリングレイヤーの前に特別な特徴量マップとして挿入されます。

(図は省略)図3：RNN(Basic RNNまたはLSTM)EIIEの実装：

3つの特徴量で$ m \times n = 11 \times 50 $のヒストリカルデータを入力
↓\RNN(20ユニットで50ステップ)
20+1のサイズ$ 11 \times 1 $の特徴量マップ
↓$ 1 \times 1 $の畳み込み＋現金のバイアス項
1つのサイズ$ 11 \times 1 $の特徴量マップ
↓softmax
ポートフォリオベクトル$ {\boldsymbol w} $。$ m + 1 = 12 $の要素。

これは、同一独立評価者のアンサンブル(EIIE)をRNNで実装したものです。このバージョンでは、個々の資産の価格入力は小さなリカレントサブネットによって取得されます。これらのサブネットは、同一のLSTMまたはBasic RNNです。リカレントサブネット後のアンサンブルネットワークの構造は、図2のCNNの後半と同じです。

5.2ポートフォリオベクトルメモリ

ポートフォリオ管理エージェントが連続するポートフォリオベクトル間の大きな変化から自己を守り、取引コストを最小にするために、前の取引期間からのポートフォリオの重みの出力がネットワークに入力されます。これを達成する1つの方法は、RNNのメモリーに頼ることですが、このアプローチでは、(18)で提案された価格正規化スキームを放棄しなければなりません。この正規化スキームは他のものよりも経験的に優れています。別の可能な解決策は、Moody and Saffell(2001)によって紹介された直接補強(Direct Reinforcement(RR)です。しかしながら、RRメモリとRNNメモリの両方は、勾配消失問題を抱えています。さらに重要なことに、RRとRNNはトレーニングプロセスのシリアライズを必要とし、ミニバッチ内での並列トレーニングを利用できません。

この論文では、経験再生メモリ(Mnih et al.,2016)のアイデアに触発され、専用のPortfolio-Vector Memory(PVM)を導入し、ネットワーク出力を格納します。図4に示すように、PVMは時系列のポートフォリオベクトルのスタックです。ネットワークトレーニングの前に、PVMは均一な重みで初期化されます。各トレーニングステップにおいて、ポリシーネットワークは、前の期間のポートフォリオベクトルを$ t-1 $のメモリロケーションからロードし、$ t $のメモリをその出力で上書きします。方策ネットワークのパラメータがトレーニングの繰り返しで収束するにつれて、メモリ内の値も収束します。

1つのメモリスタックを共有することで、ミニバッチ内のデータポイントに対して同時にネットワークをトレーニングすることができ、トレーニングの効率が大幅に向上します。 RNNバージョンのネットワークでは、反復ブロックの後に最後の出力を挿入します(図3)
勾配をディープRNN構造に戻すことを回避し、勾配の消失問題を回避しています。

図4：ポートフォリオ・ベクトル・メモリの読み書きサイクル：

(a) ミニバッチ視点
* ヒストリカルデータ　->　入力　　　|
* 上書き前のメモリ　　->　読み出し　|ネットワーク
* 上書き後のメモリ　　<- tに上書き　|

(b) ネットワーク視点

ポートフォリオベクトルメモリ
→読み出してサイズ$ m \times 1 $の特徴量マップに加えて$ q + 1 $個とする
↓$ 1 \times 1 $の畳み込み＋現金のバイアス項
1つのサイズ$ m \times 1 $の特徴量マップ
↓softmax
ポートフォリオベクトル$ {\boldsymbol w} $。$ m + 1$の要素。

両方のグラフで、時間軸上の小さな長方形は、期間の初めのポートフォリオ・ウェイトを含むメモリの一部を表します。赤色のメモリは方策ネットワークに読み込まれ、青色のメモリはネットワークによって上書きされます。 4つの色付き長方形からなる(a)のうち2つ、2つの連続するミニバッチの例です。(a)はミニバッチの読み書き循環を全て示しているが、(b)はネットワークのCNNまたはRNN部分を省略したネットワーク内の循環を示している。

5.3オンライン確率的バッチ学習

ネットワーク出力メモリの導入により、学習フレームワークは順次入力を必要とするが、ミニバッチトレーニングが可能となる。しかし、教師付き学習とは異なり、データポイントが順序付けされておらず、ミニバッチがトレーニングサンプル空間のランダムに離れたサブセットである場合、このトレーニングスキームでは、バッチ内のデータポイントは時間順でなければならない。さらに、データセットは時系列であるため、異なる期間で開始するミニバッチは、それらがかなり重なり合う間隔を有していても、有効かつ独立であると考えられる。例えば、均一バッチサイズが$ n_b $の場合、$ [t_b, t_b + n_b) $と$ [t_b + 1, t_b + n_b + 1) $をカバーするデータセットは、は2つの有効に異なるバッチです。

金融市場のこれまで通りの性質は、新しいデータがエージェントに流入し続けることを意味し、その結果、トレーニングサンプルのサイズが無限に発散する。幸いにも、2つの市場価格イベント間の相関関係は、それらの間の時間的距離が離れるに従い指数関数的に減衰すると考えられています(Holt、2004; Charles et al.,2006)。この概念をもとに、オンライン確率的バッチ学習(OSBL)スキームを提案します。

$ t $期間の終わりに、この期間の価格動きがトレーニングセットに追加されます。エージェントが期間$ t + 1 $の注文を完了した後、ポリシーネットワークは、このセットから$ N_b $個のランダムに選択されたミニバッチに対してトレーニングされる。周期$ t_b \leq t-n_b $で始まるバッチは幾何学的に分布した確率$ P_\beta (t_b) $で取り出され、

$$ P_\beta (t_b) = \beta(1-\beta)^{t-t_b-n_b} \tag{26}$$

ここで、$ \beta \in (0,1) $は確率分布の形状を決定する確率減衰率であり、最近の市場事象の重要度はどれくらいであるかを示すもので、$ n_b $はミニバッチ内の期間数である。

6.実験

この時点までに開発されたツールは、暗号通貨交換Poloniex上の3つのポリシーネットワークのすべてで異なる時間枠の3回のバックテスト実験で検証されます。結果は、最近公表された確立されたポートフォリオ選択戦略と比較されます。主に比較される財務指標は、ポートフォリオの価値、最大ドローダウン、シャープレシオです。

6.1テスト範囲

バックテスト実験の時間範囲およびその対応するトレーニングセットの詳細を表1に示します。クロスバリデーションセットを使用して列挙するハイパーパラメータを決定し、範囲も同様に決定します。テーブルのすべての時間は協定世界時(UTC)になっています。すべてのトレーニングセットは0時に開始します。たとえば、バックテスト1のトレーニングセットは2014年11月1日00:00からです。すべての価格データは、Poloniexの公式Application Programming Interface(API)を使用してアクセスします。

表1：ハイパーパラメータ選択(クロスバリデーション、CV)およびバックテスト実験の価格データ範囲。価格は30分でアクセスされます。クローズ価格はクロスバリデーションとバックテストに使用されますが、期間中の最高、最低、および終値はトレーニングに使用されます。トレーニングセットの出発点の時間は、それらが日の深夜に始まるので、与えられていません。すべての時刻はUTCです。

6.2性能測定

特定のポートフォリオ選択戦略の性能を測定するために、異なる性能測定指標を使用します。タイムスパンでのポートフォリオ管理の成功率の最も直接的な測定値は、累積ポートフォリオ価値(APV)、$ p_t $です。しかし、異なる初期値の2つの管理開始のPVを比較することは不公平です。したがって、ここにおけるAPVは、それらの初期値の単位、すなわち$ p0 = 1 $で測定され、したがって下記のとおりとなります。

$$ p_t = p_t/p_0 \tag{27}$$

この単位では、APVは累積リターンに密接に関連しており、実際1だ異なっているだけです。同じ単位では、最終APV(fAPV)はバックテスト実験の最後のAPVであり、$ p_f = p_f / p_0 = p_{t_f + 1} / p_0 $となります。 APVの主な欠点は、これらのリターンの変動を考慮せずにすべての定期的なリターンを合計するだけであるため、リスク要因を測定しないことです。第2の指標であるシャープレシオ(Sharpe Ratio：SR)(Sharpe、1964,1994)を用いてリスクを考慮します。この比率はリスク調整平均リターンであり、リスクフリーリターンの偏差による平均として定義され、

$$ S = \frac{E_t[\rho_t – \rho_F]}{\sqrt{var_t(\rho_t – \rho_F)}} \tag{28}$$

ここで、$ \rho_t $は(9)で定義された周期的リターンであり、$ \rho_F $はリスクフリー資産のリターン率である。これらの実験では、リスクフリーの資産はBitcoinです。引用された通貨もBitcoinであるため、リスクフリーのリターンはゼロです(ここでは$ \rho_F = 0 $)。

SRはポートフォリオ価値のボラティリティを考慮します、同様に上方および下方の動きを扱います。現実には、ボラティリティはプラスの利益に寄与しますが、下方への損失は寄与します。下方偏差を強調するために、最大ドローダウン(MDD)(Magdon-Ismail and Atiya、2004)も考慮する。 MDDはピークから底までの最大の損失であり、数学的には

$$ D = max_{r>t, t}\frac{p_t – p_\tau}{p_t} \tag{29}$$

表2：3つのEIIE(Ensemble of Identical Independent Evaluators)
Cryptocurrency Exchange Poloniexに関する3つの異なるバックテスト実験(UTC、表1に記載された詳細な時間範囲)におけるいくつかの伝統的なポートフォリオ選択戦略を使用している。パフォーマンスメトリクスは、最大ドローダウン(MDD)、初期ポートフォリオ額($ p_f / p_0 $)単位の最終累積ポートフォリオ価値(fAPV)、およびシャープレシオ(SR)です。太字のアルゴリズムは、本書で紹介したEIIEネットワークであり、IIEの下線付き構造の名前を付けられています。たとえば、bRNNは、図3のEIIEであり、基本的なRNNエバリュエータを使用しています。著者(Jiang and Liang、2017)が提案した3つのベンチマーク(イタリック体)、統合CNN(iCNN)、最近レビューされた戦略(Li et al.,2015a、Li and Hoi、2014)表のアルゴリズムは、モデルフリーニューラルネットワーク、ベンチマーク、敗者追従戦略、勝者追従戦略、パターンマッチングまたはその他の5つのカテゴリに分類されます。各列の最高のパフォーマンスは太字で強調表示されています。 3つのEIIEはすべて、fAPVおよびSRカラムの他のすべてのアルゴリズムよりも大幅に優れており、ポートフォリオ管理の問題に対するEIIE機械学習ソリューションの収益性と信頼性を示しています。

6.3結果

現在の論文で提案されている3つのEIIEポリシーネットワークのパフォーマンスは、統合CNN(iCNN)(Jiang and Liang,2017)のものとよく比較されるか、または最近公開されたモデルベースの戦略と3つのベンチマークと比較されます。

3つのベンチマークは、ベスト・ストック、バックテスト期間中の最もfAPVの高い資産、UBAH(Uniform Buy and Hold)、単純に全ファンドを事前選択資産に広げ終りが来るまで売買せずホールドするポートフォリオ管理のアプローチ (Li and Hoi、2014)、統一定数均衡ポートフォリオ(UCRP)(Kelly, 1956、Cover, 1991)です。

この研究で比較される戦略のほとんどは、Aniticor(Borodin et al.,2004)、Online Moving Average Reversion(OLMAR)などLi and Hoi(2014)によって調査されました。
(Li et al.,2013)、オンラインニュートンステップ(ONS)(Agarwal et al.,2012)、PAMR(Li et al.,2012)、Confidence Weighted Mean Reversion(CWMR) (2006))、ユニバーサルポートフォリオ(UP)(Cover、1991)、指数勾配(EG)
(非特許文献2)、非線形最適化アルゴリズム(Helmboldら、1998)、ノンパラメトリックカーネルベースログ最適戦略(BK)(Gy¨orfiら、2006)、相関駆動ノンパラメトリック学習戦略(CORN)(Li et al.,2011) Borodin et al.,2000)、加重移動平均平均復帰(WMAMR)
(Gao and Zhang、2013)、ロバストメジアンリバージョン(RMR)(Huang et al.,2013)。

表2に、EIIEポリシーネットワークのパフォーマンススコアfAPV、SR、およびMDD、および表1にリストされた3つのバックテスト間隔の比較された戦略を示します。fAPVまたはSRの場合、テスト1と2はCNN EIIEであり、その最終的な富は最初の実験で次点の2倍以上です。すべてのバックテストでこの2つの尺度の上位3つの受賞者は、3つのEIIEネットワークが独占しており、MDD測定のみ受賞を逃しています。この結果は、現在のEIIE機械学習フレームワークの強力な収益性と一貫性を示しています。

fAPVのみを考慮すると、3つのEIIEすべてが3つのバックテストでbest stockよりも優れていますが、モデルベースではバックテスト3でのみRMRが上回りました。0.25％という高い手数料率と比較的高い半分の取引頻度のせいで、多くの伝統的な戦略はパフォーマンスが悪くなっています。特に、バックテスト1では、すべてのモデルベースの戦略は、1未満のfAPVまたは同等に負のSRを有する負のリターンを有します。他方、EIIEは、異なる市場条件で20日間で少なくとも4倍の収益を達成することができます。

図5,6および7は、CNNおよびbRNN EIIEネットワーク、2つの選択されたベンチマーク、および2つのモデルベースの戦略について、それぞれ3つのバックテストにおけるAPVを時間に対してプロットしたものです。ベンチマークベストストックとUCRPは、市場の2つの代表者です。すべての3つの実験で、CNNとbRNN EIIEの両方がバックテスト全体を通じて市場を打ち負かしましたが、従来の戦略ではバックテスト3の後半とそれ以外の場所で簡単に実現できました。

図5：バックテスト1：2016-09-07-4：00〜2016-10-28-8：00(UTC) CNNおよび基本RNN EIIE、ベストストック、UCRP、RMR、およびONSのバックテスト1の期間にわたる累積ポートフォリオ値(APV、$ p_t / p_0 $)がlog-10スケールでプロットされています。2つのEIIEは、全期間を通じてリードしており、少数のドローダウンでのみ成長しています。

図6：バックテスト2：2016-12-08-4：00〜2017-01-28-8：00(UTC)、ログスケール累積weath。これは、EIIEの3回のバックテストで最悪の実験です。しかし、彼らは着実にテストの終わりまで登ることができます。

図7：バックテスト3：2017-03-07-4：00〜2017-04-27-8：00(UTC)、ログスケール蓄積されたweath。すべてのアルゴリズムはこの実験の開始時に苦労して統合され、EIIEの両方がMの2つの大きなディップを経験する

7.結論

本稿では、一般的な財務ポートフォリオ管理の問題を解決するための拡張可能な強化学習枠フレームワークを提案しました。マルチチャネルの市場インプットに対応し、市場行動としてポートフォリオの重みを直接出力するために考案されたこのフレームワークは、異なるディープニューラルネットワークに適合することができ、ポートフォリオ規模で直線的に拡張可能です。このスケーラビリティと拡張性は、EIIEメタトポロジーの結果であり、低レベルのウェイト共有ニューラルネット構造の多くのタイプに対応できます。ポリシーネットワークをトレーニングする際に取引コストを考慮に入れるために、フレームワークはポートフォリオ管理エージェントが連続したアクション間の過大な調整から習得することを可能にしながら、多くの反復によって直面する勾配の消失問題を回避するPVMネットワーク。 PVMはまた、バッチ処理の中で並列トレーニングを可能にし、学習効率における反復的なアプローチを克服して、トランザクションコストの問題を解決します。さらに、OSBLスキームは、オンライン学習プロセスを管理するので、エージェントは取引中に絶えず入ってくる市場情報を絶えず消化することができます。最後に、エージェントは、補完報酬機能として蓄積された富を最大化することを目指して、完全に活用されている決定論的方策勾配法を使用してトレーニングされました。

この論文で示されているように、フレームワークの収益性は、調査された伝統的なポートフォリオ選択手法を上回ります。これは、暗号化市場での異なる期間にわたる3回のバックテスト実験の結果です。これらの実験では、CNN、basic RNN、LSTMという3つの異なるネットワークを使用してフレームワークを実現しました。 3つのバージョンはすべて、最終的な累積ポートフォリオ価値が他の取引アルゴリズムよりも優れていました。 EIIEネットワークはまた、3つのテストすべてにおいてリスク調整スコアの上位3位を独占し、そのパフォーマンスにおけるフレームワークの一貫性を示しています。 EIIEのフレームワークが既存の戦略よりも大幅に改善されていることが証明されました。

3つのEIIEネットワークの中で、LSTMはCNNとbasic RNNよりもスコアがはるかに低いものでした。同じ枠組みの下での2つのRNN間のパフォーマンスの大きな差は、金融市場におけるよく知られている秘密の格言、すなわち「歴史は繰り返す」によるものかもしれません。basic RNNは、入力履歴を忘れることなく、より高い利回りのために価格運動の繰り返しパターンを利用する能力がLSTMよりもあります。この違いは、LSTMのハイパーパラメータの微調整の欠如によるものでもあります。実験では、basic RNNとLSTMの両方に同じ構造上のパラメータが使用されています。

バックテストでのEIIEフレームワークの成功にもかかわらず、次へむけての改善の余地があります。今回のフレームワークの主な弱点は、「市場への影響がない」「スリッページなし」という前提です。市場への影響とスリッページを考慮するために、実際のトレーディング例がトレーニングデータとして大量に必要となります。トレード行動と市場の反応を文書化するために、いくつかのプロトコルを発明する必要があります。これが達成されれば、現行バージョンの自動取引エージェントのライブ取引実験を記録することができます。将来のバージョンでは、この記録された履歴から市場への影響とスリッページの原則を学ぶことができます。今回のフレームワークのもう一つの欠点は、フレームワークが1つの市場でのみテストされていることです。その適応能力をテストするためには、現在のバージョンとそれ以降のバージョンを、バックテストで調べて、より伝統的な金融市場で取引する必要があります。さらに、現在の報酬関数は、放棄されなければ、補強学習エージェントに長期的な市場反応の認識を含めるように修正されなければなりません。これは、criticネットワークによって達成され得ます。しかし、EIIEメタトポロジ、PVM、およびOSBLスキームを含む現在のフレームワークのバックボーンは、将来のバージョンで引き続き重要な役割を果たします。

2017年11月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

2017年11月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30