株をテーマに機械学習を頑張ってみる

学習モデルの保存と読み込みに対応してみる

Fri, 23 Jun 2023 20:27:55 +0900

　ここまでの検証作業では採用閾値変えたり、アンダーサンプリング数変えたり、検証データ複数試したり・・・と検証パターンが大量にあるので試行錯誤に結構時間かかってました。最初は1回の学習自体は数十秒でしたが、データ量増やしたあたりから1分以上かかるようにもなり結構な苦痛です。

　だんだんやってられなくなって来たし今後もいろいろなパターンで随時検証していくことも考え、学習モデルの保存と読み込みに対応させたいと思います。 (もっと早くやっとけ！今更気づくなよって話ですが)

学習モデルの保存・読み込み

　モデルの読み書きをしてくれるモジュールは「pickle」と「joblib」があるようです。「joblib」は保存サイズを圧縮して小さくしてくれるようですが、その分読み込みも遅くなるとのことなので、とりあえず「pickle」を使ってみます。

　「pickle」の使い方は、保存したい場合は

pickle.dump(model , open(filename,'wb'))#model:学習したモデル、filename:保存先のファイル

　読み込みたい場合は

model = pickle.load(open(filename, 'rb'))#model:読み込んだモデルを格納する変数、filename:保存先のファイル

これでできるようです。'wb'は書き込みモード(writeのw)とバイナリモード(binaryのb)だそうで、読み込みの場合は'rb'(readのr)ですね。

　サイズは「350kb」程度でした。学習モデルってこんなに小さいですね。圧縮なんて必要なさそうです。読み込み時間もほぼ瞬殺。検証データのdataframeへの読み込みと前処理に時間は多少かかって数十秒待ちますが、全体時間は体感的にかなり早くなりました。

　プログラム自体は、学習・予測はバギングのため10個モデルを作って予測の平均を取るプログラムでしたので、保存も10回、読み込みも10回行ってバギングにも対応させてます。

　学習モデル生成して保存するとき

##学習モデル作成 バギングのためのbagging()関数を10回読んでモデルを配列に格納model=[]for i in range(10):    model.append(bagging(i,X,y))##bagging関数の内容はLightGBMで学習・検証別記事ご参照。# 構築したモデルの保存for m in model:    filename = "ファイル名" +str( m+1) + ".pkl" ## バギング用に複数ファイル作成対応。連番を付けてモデル格納配列分ファイル名が変わるように。0番をなくすため＋1してある。    pickle.dump(m,open(filename,'wb'))

　学習モデルを読み込むとき

##学習モデル読み込み。 バギング分10回読んでモデルを配列に格納model=[]for i in range(10):    filename = "ファイル名" + str(i+1) + ".pkl"    model.append(pickle.load(open(filename, 'rb')))

　これで少しストレスから解放されて検証作業ができるようになる・・・かな。

学習データを変更(日次騰落ベースに)

Wed, 21 Jun 2023 20:35:05 +0900

　投稿がしばらく空いてしまいましたがまた少しずつ書いていきたいと思います。

　今回は学習データを思い切って変えてみました。これまでは週次で約52週分の騰落データで様々なアルゴリズムなどを試してきましたが、これを日次騰落ベースにしてみます。

新データの概要

　新しいデータは日次の騰落ベースになりますが、以下の条件は変えていません。

学習データは2017年～2021年の株価で週次ベースと同じ約2000銘柄
目的変数は変更せず1週～4週後の株価の騰落率(基本2週後をターゲットに試す)
目的変数は10%以上の上昇(売りケースは下落)を正解とする

　データの内容はざっとは以下のような感じにしました。

2017年以降の毎日を基準日に
基準日から見て30日(30取引日)前からの騰落率をセット
株価の騰落率に加えて出来高の増減率も30日分セット
30日間の最大値、最小値と基準日の株価の乖離率をセット(ついでに出来高の最大、最小との乖離も)
基準日の5日平均、25日平均、75日平均との乖離率をセット

検証結果(2022年データ)

　2022年のデータで検証しました。週次ベースと比較のため同じようなプログラムで動くように以下の条件は固定で検証しています

アルゴリズムはLightGBM
アンダーサンプリングは5倍で実施。(正解(目的変数が１)に対し０の行数を5倍に設定
バギングは週次ベースの時と同じく10回
検証データの正解は0%以上の上昇(もしくは0%以上の下落)とする
検証データの予測対象日は2022年の全日

　この条件で結果を見ていきたいと思います。表の学習データは以下の条件です。

学習１：学習データを火曜のみに絞る
学習２：学習データを全ての日を対象にする

**買い：0%以上上昇したか？の結果**
採用閾値	学習１			学習２
採用閾値	×	〇	率	×	〇	率
50%以上	891	824	48.0%	1680	1551	48.0%
55%以上	476	442	48.1%	974	943	49.2%
60%以上	213	220	50.8%	529	511	49.1%
65%以上	89	109	55.1%	260	248	48.8%
70%以上	36	39	52.0%	95	81	46.0%
75%以上	6	7	53.8%	39	22	36.1%
80%以上	0	0	-%	8	7	46.7%

　なんとも使えなさそうなモデルですね。採用する予測確率上げても結果は良くなってきません。どの確率でも平均的に勝ちも負けも予測してしまっていますので、何の特徴も捉えられてないってことでしょう。単純に日次の動きからはなかなかパターン化できないようです。

　例えば直近数日の特徴量がプラスだと上がりやすいだとか、チャート理論に近いパターンを見つけるんじゃないかと期待していたんですが、単純に日別に並べただけではダメなようですね。この辺はもうちょっと工夫が必要そうです。

　次に売りを見てみます。

**売り：0%以上下落したか？の結果**
採用閾値	学習１			学習２
採用閾値	×	〇	率	×	〇	率
50%以上	1645	2666	61.8%	1430	2441	63.1%
55%以上	847	1602	65.4%	765	1531	66.7%
60%以上	450	975	68.4%	411	954	69.9%
65%以上	247	603	70.9%	227	585	72.0%
70%以上	135	380	73.8%	117	351	75.0%
75%以上	51	181	78.0%	42	177	80.8%

　売りの方はまずまずの結果になりました。なんで同じデータで売りと買いでこんなに傾向が異なってくるか不思議ですが、売りは予想確率が高いほど成績が良い結果になっていて、きちんと傾向捉えて予測できている感じですね。予想確率70%以上だと正答率も75%をただき出してくれてますので利用価値はありそうです。今までの検証結果から推測すると実際に売買しても75%正答率なら利益は出てるでしょう。

　あとは、火曜に絞るか全日かでは大きな違いは出なく少し全日データの方が成績も良い状況なのでデータ量が増えた方が精度も多少上がるという感じですね。

　とりあえずデータ変更の結果と考察はこんなところです。

株予測の対象日を増やす改良をしてみた(週1回⇒毎日できるように)

Fri, 19 May 2023 12:03:59 +0900

　今回は、予測用データ(検証データ)を改良して予測対象日を増やすことを考えてみた記録です。

データの改良

　これまで作ってきた機械学習モデルは、主に2017年～2021年の株価を学習データとして2022年度の予測と結果検証を中心に行ってきました。

　データの構造としては週次ベースでの騰落を見てましたので、学習データも検証データも週1回(原則火曜日)を基準日としたデータで行っていました。

　これだと毎週火曜日のみが予測日となりますが、検証結果を見ていると予測数に大きな波があってある日に集中したりとか数か月対象がなかったりというケースも見て取れました。もう少し予測での推奨対象を増やすことができないかと思い、毎日予測できるように検証データ側を改良してみたいと思います。

　やってみたことはデータの構造は変えずに、データ作成の基準日を週次⇒毎日化する改良です。イメージとしては以下のような感じですね。

データ変更のイメージ

　予測用データ作成のプログラムを見直したついでに、学習データも毎日データを作れるようにしました。これで、

①：元々の2017年～2021年の学習データ
②：2017年から2021年の全ての取引日(毎日版)
③：②をベースに火曜だけに絞った版

の3つの学習データパターンとなりました。

　①と③の違いですが、元のデータは火曜が祝日や非取引日の場合は週初の取引日(月曜も祝日なら水曜以降)のデータを作る仕様でした。②は完全に火曜だけのデータに絞ってるので少しだけ違う形になります。

データ改良後の正答率の変化

　予測データを毎日化した後の正答率の変化を見てみたいと思います。学習データも3パターンになりましたのでそれぞれで。もちろんアルゴリズムはLightGBM版です。

　予測データの比較対象は「元の予測用データ(火曜ベースの祝日対応あり(学習データの①と同等))」と「毎日対応版データ」の2パターンで年度は2022年度になります。アンダーさんプリンは5倍のみに固定。正答率はとにかく騰がったか(0%以上騰がったか)どうかのみ確認しました。

　「買い」と「売り」両方を検証しています。まずは買いから。

**買い(0%以上上昇したか？)の結果**
採用閾値	学習データ①						学習データ②						学習データ③
	元の予測データ			毎日化データ			元の予測データ			毎日化データ			元の予測データ			毎日化データ
	×	〇	率	×	〇	率	×	〇	率	×	〇	率	×	〇	率	×	〇	率
45%以上	317	953	75.0%	1075	2408	69.1%	326	321	49.6%	1515	1440	48.7%	304	985	76.4%	990	2274	71.6%
50%以上	104	687	86.9%	319	1466	81.9%	102	105	50.7%	469	470	50.1%	112	694	86.1%	260	1411	84.4%
55%以上	49	490	90.9%	106	899	89.5%	25	33	56.9%	141	151	51.7%	43	501	92.1%	86	920	91.5%
60%以上	17	314	94.9%	39	503	92.8%	4	10	71.4%	44	45	50.6%	21	344	94.2%	36	578	94.1%
65%以上	10	181	94.8%	17	245	93.5%	1	2	66.7%	12	15	55.6%	11	192	94.6%	21	287	93.2%

　ますは元々の学習データ①の中での毎日化の結果から。毎日化することで少し悪化しています。それでも閾値50%以上でも正答率は80%以上は維持してるので充分使えそうですね。対象も約3倍に増えてるので売買機会も増加が期待できそうです(日々の予測対象の発生有無の偏りまでは見てませんが)

　次に②の学習データで見ると、ん？、成績も悪化してるし予測対象数も減っている。銘柄数を増やしたときには成績が圧倒的に上がったんですが、同じ銘柄数で対象日数増やすとこうなるんですね。過学習とか不均衡データなどの機械学習の問題なのか株価変動の特性なのか良く分かりませんが。

　②のデータで火曜だけに絞った場合の③の学習データは①とほぼ近い値をたたき出してくれてます。大半のデータは同じはずなので当たり前でしょうが、少し成績が上がってるのがうれしいところですね。

　ここで少し面白いことに気づきました。学習データが毎日化された②は、検証データが火曜のパターンと毎日化のパターンで予測対象数に約5倍の差があります。ほぼ曜日が増えた分だけきれいに対象数が増えてる感じです。これに比べて①と③は約3倍程度です。ここから見るとそもそも株価自体に曜日特性があって、火曜の変動パターンが見事にはまってくれてるのかもしれません。他の曜日でも同じ波動で動く上昇をうまくとらえて予測してくれてると思いました。まあとにかく最初に火曜を選択して学習データ作ったこと自体がラッキーだったのかもしれませんが火曜ベースの学習データは結構使えることが分かりました。

　次に「売り」に関してです。まずは結果から

**売り(0%以上下落したか？)の結果**
採用閾値	学習データ①						学習データ②						学習データ③
	元の予測データ			毎日化データ			元の予測データ			毎日化データ			元の予測データ			毎日化データ
	×	〇	率	×	〇	率	×	〇	率	×	〇	率	×	〇	率	×	〇	率
65%以上	74	149	66.8%	1107	1284	53.7%	154	198	56.3%	821	1068	56.5%	79	177	69.1%	1028	1302	55.9%
70%以上	33	87	72.5%	570	739	56.5%	73	108	59.7%	342	575	62.7%	44	99	69.2%	543	739	57.6%
75%以上	11	49	81.7%	267	367	57.9%	21	48	69.6%	95	237	71.4%	14	55	79.7%	242	388	61.6%
80%以上	3	10	76.9%	115	165	58.9%	2	14	87.5%	18	52	74.3%	5	27	84.4%	92	155	62.8%
85%以上	0	3	100%	33	50	60.2%	0	3	100%	0	5	100%	1	9	90.0%	10	33	76.7%

　売りの方は良く分かりません。とりあえず学習データ①も③毎日化で正答率が大幅に悪化。予測数も10倍に増えてる。なんで買いとこんなに変わるのかは分かりませんが、火曜オンリーのモデルな感じです。ただ、②のデータは予測データが火曜日ベースと毎日化で5倍程度の違いなのでとにかく学習データ②は買いでも売りでもまんべんなく平均的な動きを予測してるんだろうとは思います。

　②の毎日化学習データで予測データも毎日化を対象とすると閾値75%以上だと正答率が70%超えてきてますのでこれは使えそうです。ここまでの仮装売買結果見てると正答率が70%超えてこれば確実に儲かる感じでしたし(仮想売買結果をここだけ見てみましたがやはり300万程度儲かっていた)。売りは②と③を予測日で使い分けたり組み合わせたりする感じですね。

　②と③での予測対象の比較とか、曜日特性ももっと深堀するといろいろ見えてくるかもしれませんがここで止めておきます。

　結果からみると「買いモデル」は①か③で毎日予測しても使えそうで、「売りモデル」は火曜日を①か③のモデルメインに他の曜日は②を使いつつという感じですね。(何度も同じこと書きますがあくまで22年に売買していた場合！ですけどね)

学習・検証をする⑪　売り(信用売)の2021年以前データでの検証ついでに仮想売買成績も

Sun, 14 May 2023 09:15:09 +0900

　LightGBMモデルでの売りバージョンでも2022年度予測成績はまずまずの結果を出してくれました。売りのケースでの2021年以前の場合も見てみたいと思います。

2021年以前の検証結果

　データ量も多く分割したりと時間がかかるので、多くは試してません。下記の条件のみで検証してます

買いの時の検証と同じく学習データを銘柄順に振り分けて半分に分割。もう半分を検証データに。
アンダーサンプリングは5倍のみに固定
0%以上の上昇のみ

　結果は以下のようになりました

※分割した半分づつをデータ１、データ２としてそれぞれで学習・予測を行ってます。

**0%以上上昇したか？の結果**
採用閾値	１で２を予測			２で１を予測
採用閾値	×	〇	率	×	〇	率
60%以上	510	5525	91.5%	420	5320	92.7%
65%以上	317	4703	93.7%	269	4592	94.5%
70%以上	184	4011	95.6%	144	3973	96.5%
75%以上	89	3400	97.4%	79	3405	97.7%
80%以上	48	2877	98.4%	41	2842	98.6%

　買いの時と同じく2022年と比べて成績が良くなってます。むしろ良くなりすぎ。閾値60%でも正答率90%超えは異常ですね。やはり違う銘柄とは言え予測したい銘柄と同じ日のデータが学習側にもあるので、株式市場自体の動きが影響しちゃうんでしょうね。

仮想売買の結果

　売買結果も一応見てみます。あれだけ正答率の成績が良ければ儲かるはずなんでしょうが、買いの時には年によって予測対象の数が異常に少なかったりとバラつきがありましたので、同じような感じかを確認してみました。

買いのケースの仮装売買結果はこちら

『22年の仮想売買成績を再度チェック(学習データ量が増加したので)。ついでに21年以前も』　データ量を増加させて新しく学習したモデルは格段に成績がアップしました。(モデルの正答率の検証結果はこちら(22年分)とこちら(21年以前分)) 　それに伴っ…ameblo.jp

　対象は「データ１(学習)⇒データ２(予測)」のパターンで採用閾値は70%以上のみです。また、いつものごとく制限あり(500万持ち高制限、単元数の調整あり(20万程度)、1単元100万以上は買わない)パターンと、1単元ずつひたすら売る場合の2パターンで確認してます。両方とも10%の損失カットはありです。

**21年以前の仮装売買の結果(信用売のケース)**
年度	制限あり		制限なし
年度	売買回数	利益	回数	利益
2017年	29回	370,850円	30回	132,700円
2018年	96回	2,869,330円	906回	20,490,530円
2019年	68回	591,240円	773回	1,601,100円
2020年	99回	4,399,110円	941回	36,937,350円
2021年	42回	-117,190円	41回	1,033.130円
合計		8,113,340円		60,194,810円

　買いの時と同じく年度ごとの波は出てます。買いが少ない年を補完してくれるかと思いましたがそうは都合よくいかず少ない年は売りも買いも推奨が少ないという結果でした。

あと、制限ありのさいに21年度がマイナスになってますね。まあ単元ずつ買ってればプラスなので少額の銘柄でマイナスが多かったんでしょね。全体で大きくプラスなのでまあよしとします。

　売買内容を見てみると多い年はある日に推奨銘柄が集中してます。多い日だと百銘柄以上出てる時もある感じで。でもそういう日はほとんどの株が利益出た状態なので、複数銘柄を推奨予測してくれた時が売り時(買い時)なんでしょうね。買いの2022年度検証でも集中して出てた日があったので、未知のデータの予測であっても同じ傾向が見て取れます。

　ちなみに、1単元ずつひたすら売った際の最大持ち高は「131,707,120円」で1億超えてました。そんな金はないですけどそれだけ投資できれば5年で6千万も儲かりましたね。

売り(信用売)の22年度仮想売買結果

Fri, 12 May 2023 09:42:00 +0900

　信用売りパターンの22年度予測結果での仮想売買の検証結果です。学習モデルはLightGBMです。売りパターンでの正答率などの検証結果は下記記事にありますのでご覧ください。

22年度信用売りの予測と検証

『学習・検証をする⑩　売り(信用売)で予測してみる(LightGBM)』　ここまでLightGBM。線形回帰、ランダムフォレストを試してきましたが、予測は上昇するかどうかが目的変数でした。つまりは買う株を予測することが目的です。し…ameblo.jp

信用売りの22年度仮想売買の結果

　正答率の成績も良かったので当たり前かもしれませんが売りの場合も売買していたら儲かっていたようです。結果は以下のようになりました。アンダーサンプリングは5倍にしたケースの検証になります。

　一応注意事項ですが、実際の売買では貸借銘柄に選定されてなければ簡単には売れませんし貸借銘柄でも売り禁もしょっちゅう発生します。証券会社の独自規制で売り禁になってる銘柄もあるのでこんな成績にはならないでしょうが、そこは目をつぶってください。貸借銘柄に絞るのはまあ可能ですが、いちいち売りタイミングで売り禁になっていたかどうかのチェックはやってられません。そんな売り禁履歴の過去データ入手できるのかも怪しいですし。証券会社独自の禁止チェックもやってられないので、本当に実際売買できたかなんて検証不可能ですし貸借銘柄の絞り込みもなしで検証しました。

検証のパターンとしては

ケース１：500万の持ち高MAX制限あり、1単元20万以下は売金額が20万前後になるように調整あり、1単元100万以上の銘柄は手を出さない
ケース２：予測した銘柄をひたすら1単元づつ売り続ける

の2パターンです。同じ銘柄が翌週も推奨されたら対象銘柄の売り持ちを持ち越してさらに2週間持つように繰り越してます(新規に売りを足さない)。

**22年信用売りの結果**
採用閾値	ケース１(制限あり)		ケース２(対象全銘柄1単元売り)
採用閾値	売買回数	利益額	売買回数	利益額	最大持高
60%以上	203回	997,570円	288回	1,638,380円	2,0687,260円
65%以上	131回	3,006,520円	166回	3,050,980円	12,003,760円
70%以上	84回	3,088,420円	88回	3,289,320円	4,755,100円
75%以上	44回	1,504,120円	47回	1,998,620円	3,145,000円
80%以上	17回	937,270円	17回	635,870円	775,600円

　70%以上は信じて売ってよさそうです。制限なしの方が成績悪くなってのは１単元が20万未満の銘柄もまあまあ出てたので売買単元数が減れば1銘柄あたりの利益額も少なくなるからでしょう。

　買いの成績も悪くなかったですし、買いと売りを組み合わせて売買していけば結構な利益が出ることもわかりました。(あくまで22年に売買していたら・・・ですけどね)

　買いパターンの時の結果も比較したい方はご覧ください。

22年の仮想売買の結果

学習・検証をする⑩　売り(信用売)で予測してみる(LightGBM)

Thu, 11 May 2023 08:36:05 +0900

　ここまでLightGBM。線形回帰、ランダムフォレストを試してきましたが、予測は上昇するかどうかが目的変数でした。つまりは買う株を予測することが目的です。しかし株は信用取引で売りから入ることもできます。次は下落するかどうかを予測してみて信用売りとした場合はどうなるかを検証してみたいと思います。

売り予測のプログラム改修

　基本は買い予測のLightGBMと同じです。目的変数の正解とするクラスをマイナス10%以下の場合に変えるだけですね。ついでに売り・買いを変数で切り替えられるように改修してみました。LightGBMの予測は初期の記載以来久しぶりなので、アンダーサンプリング、バギング込みの改良版プログラム全体を載せておきます。

  import pandas as pd ##pandas データの格納処理に使うimport numpy as np ##numpy 結果を格納してconfusionに使う。numpyでなくてもできるかもしれないけどとりあえずimport lightgbm as lgb #LightGBM。これがないと予測もできんfrom sklearn.model_selection import train_test_split # データセット分割用from sklearn.metrics import confusion_matrix #正解の検証のため。from imblearn.under_sampling import RandomUnderSamplerurikai = 1 #1:kai,2:uriif urikai==1: #買い予想の場合    shikii = 0.5 # 予測結果を採用する確率の閾値。0.5ならクラス1となる確率50%以上と予測されたものを採用する。    under = 5 #アンダーサンプリング倍率    R1 = 0.1 ## 学習データでの2値クラスの正解を1とする上昇率の閾値。0.1なら10%以上上昇の場合を目的変数のクラス1として学習する。　    R2 = 0.0 ## 予測データで正解を1とする閾値。ここを0にすればとにかく上昇した場合を正解として正答率を出せる。if urikai==2: #売り予想の場合    shikii = 0.7 #採用閾値    under = 5 #アンダーサンプリング倍率    R1 = -0.1 ##学習データの目的変数のクラス1(正解)の下落率閾値    R2 = -0.1 ##予測データの正解クラス1の閾値print(urikai,shikii,under,R1,R2) #売り買いどっちの予測かと各閾値を分かるように出力しておく###バギング部分#####def bagging(seed,X,y):    params = {            'task': 'train',            'boosting_type': 'gbdt',            'objective': 'binary',            'metric': 'auc',            'verbosity':'-1'            }　　###アンダーサンプリング。変数underの数値の倍率で不正解クラス0をカットする。　    f_count = y.value_counts()[1] * under    t_count = y.value_counts()[1]    rus = RandomUnderSampler(sampling_strategy={0:f_count, 1:t_count},random_state=seed,replacement=True)    X_rus, y_rus = rus.fit_sample(X, y)        X_train, X_test, y_train, y_test = train_test_split(X_rus, y_rus,test_size=0.20, random_state=2)    ###↑相変わらずこの分割はいらん気がするが放置してます。    lgb_train=lgb.Dataset(X_train, y_train)         lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)        model_b = lgb.train(params,                      train_set=lgb_train, # トレーニングデータの指定                      valid_sets=lgb_eval, # 検証データの指定                      callbacks=[                          lgb.log_evaluation(1000)] ,                      )    return model_b###読み込みファイルの設定df1filename = "学習ファイル(フルパス指定で)" #学習用の2017年～2021年のデータdf2filename = "検証ファイル(フルパス指定で)" #検証用の2022年のデータ        ###データ前処理 学習用データ###df1 = pd.read_csv(df1filename) #pandasデータフレームのdf1に学習用データを設定##ノイズになりそうな情報をカットdf1=df1.drop('Mcode',axis=1) ##銘柄コードを削除　※銘柄コードによって学習結果が左右されないようにするためdf1=df1.drop('kijyun_date',axis=1) ##基準日を削除 ※日付によって学習結果が左右されないようにするため    ##学習用データから目的変数をカット。基準日から先4週分の騰落率を削除X=df1.drop('F1week',axis=1)X=X.drop('F2week',axis=1)X=X.drop('F3week',axis=1)X=X.drop('F4week',axis=1)####目的変数の設定。2週間先で10%以上(※変数R1以上)上がった(下がった)場合を「1」にセットdfy=df1.copy()dfy['F2week_pred'] = 0 ##一旦すべてゼロに。これを先にやっておくとnanにならないので。if urikai==1:   dfy.loc[dfy['F2week'] >= R1,['F2week_pred']] = 1elif urikai==2:   dfy.loc[dfy['F2week'] <= R1,['F2week_pred']] = 1        y = dfy[['F2week_pred']]    ###データ前処理 検証用データ###df2 = pd.read_csv(df2filename) #pandasデータフレームのdf2に学習用データを設定##学習用データに項目合わせるためノイズになりそうな情報をカットdf2=df2.drop('Mcode',axis=1)df2=df2.drop('kijyun_date',axis=1)##検証用データから目的変数をカット。基準日から先4週分の騰落率を削除Ztest=df2.drop('F1week',axis=1)Ztest=Ztest.drop('F2week',axis=1)Ztest=Ztest.drop('F3week',axis=1)Ztest=Ztest.drop('F4week',axis=1)    ####目的変数の設定。2週間先で閾値変数R2以上上がった(下がった)場合を「1」にセットdfZ=df2.copy()dfZ['F2week_pred'] = 0if urikai==1:    dfZ.loc[dfZ['F2week'] >= R2,['F2week_pred']] = 1elif urikai==2:    dfZ.loc[dfZ['F2week'] <= R2,['F2week_pred']] = 1    Zkekka = dfZ[['F2week_pred']]##ここまでで、X:学習用データ、y:学習用の目的変数(2値化後)、Ztest:検証用データ、Zkekka:検証の目的変数(結果)が完成###ここから学習######モデルの作成。バギングなので複数回学習してモデルを配列に格納model=[] ##学習モデル格納用の配列を作るfor i in range(10):　##学習。バギング数10回として回す    model.append(bagging(i,X,y))    print(i)###ここから予測###y_preds_pro = [] ##予測結果格納用の配列を作るfor m in model: ##作った学習モデルの回数(モデル配列数)予測する。    y_preds_pro.append(m.predict(Ztest, num_iteration=m.best_iteration))  y_pred_prob = sum(y_preds_pro)/len(y_preds_pro) ##全予測での確率の平均値をとる###ここから正答率計算#######クラス分類なので正解を1にする必要あり。予測結果は何%の確率で上がるか？となので、閾値(shikii)以上騰がる予測確率を正解予測したこととする。y_pred = np.where(y_pred_prob < shikii, 0, 1) # 変数shikiiより小さい場合0 ,そうでない場合1を返す。0.5なら50％以上の予測確率が1になる。###予測結果と実際の結果を比較cmatrix = confusion_matrix(Zkekka,y_pred)print(cmatrix)

売り予測の結果

　結果は以下のようになりました。売りでもまずまず良い成績となった感じです。まずは10%以上下落したかどうかの正答率から。

※US:アンダーサンプリングの倍率

**10%以上下落したか？の結果**
採用閾値	US:6			US:5			US:4
採用閾値	×	〇	率	×	〇	率	×	〇	率
50%以上	589	266	31.1%	872	391	31.0%	1561	539	25.7%
55%以上	309	172	35.8%	494	242	32.9%	921	380	29.2%
60%以上	159	105	39.8%	263	147	35.9%	515	239	31.7%
65%以上	81	67	45.3%	133	90	40.4%	265	152	36.5%
70%以上	33	50	60.2%	59	61	50.8%	126	92	42.2%
75%以上	17	29	63.0%	23	37	61.7%	46	59	56.2%
80%以上	7	10	58.8%	5	16	76.2%	21	35	62.5%

　買いの時と同じく採用する閾値を上げていくと順調に上がっていってくれてます。LightGBMスゲー(というより作成した学習データがたまたまアルゴリズムの得意な形にマッチしてラッキーなのかも)。次に下落した銘柄を予測できたかも見てみます。

**0%以上下落したか？(とにかく下がったか)の結果**
採用閾値	US:6			US:5			US:4
採用閾値	×	〇	率	×	〇	率	×	〇	率
50%以上	-	-	-	-	-	-	839	1261	60.0%
55%以上	177	304	63.2%	283	453	61.5%	500	801	61.6%
60%以上	87	177	67.0%	149	261	63.7%	288	466	61.8%
65%以上	46	102	68.9%	74	149	66.8%	151	262	63.4%
70%以上	19	64	77.1%	33	87	72.5%	67	151	69.3%
75%以上	7	39	84.8%	11	49	81.7%	24	81	77.1%
80%以上	2	15	88.2%	3	18	85.7%	10	46	82.1%

　この場合も順調に閾値上げれば成績も良くなってくれてます。買いの時の90%超という成績にはならなかったので、少しだけ売りには向いてないモデルなのかもしれませんが、75%以上の予測確率をたたき出してくれれば成績はよさげな感じですね。

　ただ、買いの時の予測確率が50%以上の成績と同等な感じで買いの時より推奨確率の閾値が上振れしてるのはなぜだろう。同じ考え方のモデルで予測してるんだから閾値が近くなってくれても良い気もしますが良くわかりません。まあアルゴリズムの理解はするつもりないのでここには触れないでおきます。

　とにかく売りでも使えそうなモデルと言えるのではないでしょうか。実際の仮想売買成績はどうなるのかはまたそのうちに。

学習・検証をする⑨　ランダムフォレストを試す

Tue, 09 May 2023 21:39:37 +0900

　今回はランダムフォレストの結果です。結論から言うとこれまでで一番ダメでした。ダメダメですがせっかく試したので結果です。もしかしたらパラメータとかをきちんと設定していけば結果が大きく違うのかもしれませんが、もうそんな気も起きないくらいだったので打ち止めにしてます。

ランダムフォレストのプログラム

　ランダムフォレストは「scikit-learn」の「RandomForestClassifier」を利用しました。そもそも線形回帰も良い結果ではなかったので2値のクラス分類で試しています。

from sklearn.ensemble import RandomForestClassifier

でインポート。　scikit-learnって？って方はどこかのサイトでも見てインストールしてください。

ここで回数の平均バギングはいるのかと考えましたが、そもそもランダムフォレスト自体が決定木の数を設定して平均・多数決で結果出してくれてるし、要は何回かの予測結果のバギングと一緒なので実装は不要としてます。学習データもランダムで抽出してるみたいですが、アンダーサンプリングはその手前で与える学習データ自体のクラスの配分率をいじりますし効果はあるかもしれないと思って実装してます。

データの前処理は今までと同じで、学習～検証は以下のプログラムに変更。

clf = RandomForestClassifier(n_estimators=30, random_state=0)clf.fit(X_rus, y_rus) #訓練用データで学習    y_pred = clf.predict(Ztest) #検証用データの予測

この3行だけですね。

　パラメータとしては

「n_estimators」は実施回数(バギングの回数と同等)
「random_state」は検証時に毎回ランダムにならないように(結果が固定化されるように)設定

の2パラメータも変更できるように変数化しました。

　で、プログラムは以下のような感じ。

from sklearn.ensemble import RandomForestClassifierimport pandas as pdfrom sklearn.metrics import r2_scorefrom sklearn.metrics import confusion_matrix #正解の検証のため。from imblearn.under_sampling import RandomUnderSampler####変数化したパラメータの設定R1 = 0.1 ##学習データの正解とする(目的変数1にする)クラスの上昇率の設定 0.1なら10%以上上昇が1となるR2 = 0.0 ##予測データ正答率検証時の上昇率の設定。0なら騰がった場合、0.1なら10%以上騰がった場合が正解となるunder_mode=1 ##アンダーサンプリングありなしの制御用 1なら実施する。under=5 ##アンダーサンプリングの倍率セットest = 30 ## n_estimatorsの設定用rand = 0 ## random_stateの設定用df1filename = "学習データのファイル" #学習用の2017年～2021年のデータdf2filename = "予測データのファイル" #検証用の2022年のデータdf1 = pd.read_csv(df1filename) #pandasデータフレームのdf1に学習用データを設定df2 = pd.read_csv(df2filename) #pandasデータフレームのdf2に検証用データを設定###データ前処理 学習用データ### ##ノイズになりそうな情報をカットdf1=df1.drop('Mcode',axis=1) ##銘柄コードを削除　※銘柄コードによって学習結果が左右されないようにするためdf1=df1.drop('kijyun_date',axis=1) ##基準日を削除 ※日付によって学習結果が左右されないようにするため##学習用データから目的変数をカット。基準日から先4週分の騰落率を削除X=df1.drop('F1week',axis=1)X=X.drop('F2week',axis=1)X=X.drop('F3week',axis=1)X=X.drop('F4week',axis=1)####目的変数の設定。2週間先で10%以上上がった場合を「1」にセットdfy=df1.copy()dfy['F2week_pred'] = 0 ##一旦すべてゼロに。これを先にやっておくとnanにならないので。dfy.loc[dfy['F2week'] >= R1,['F2week_pred']] = 1 ##変数R1以上の上昇ならクラス１にセットy = dfy[['F2week_pred']] ##目的変数をyに###データ前処理 検証用データ#####学習用データに項目合わせるためノイズになりそうな情報をカットdf2=df2.drop('Mcode',axis=1)df2=df2.drop('kijyun_date',axis=1)##検証用データから目的変数をカット。基準日から先4週分の騰落率を削除Ztest=df2.drop('F1week',axis=1)Ztest=Ztest.drop('F2week',axis=1)Ztest=Ztest.drop('F3week',axis=1)Ztest=Ztest.drop('F4week',axis=1)####正解の設定。2週間先で変数R2以上上がった場合を「1」にセットdfZ=df2.copy()dfZ['F2week_pred'] = 0dfZ.loc[dfZ['F2week'] >= R2,['F2week_pred']] = 1Zkekka = dfZ[['F2week_pred']]##ここまでで、X:学習用データ、y:学習用の目的変数(2値化後)、Ztest:検証用データ、Zkekka:検証の目的変数(結果)が完成##アンダーサンプリング###  #モードでありなしを制御if under_mode==1:f_count = y.value_counts()[1] * undert_count = y.value_counts()[1]      rus = RandomUnderSampler(sampling_strategy={0:f_count, 1:t_count},replacement=True)      X_rus, y_rus = rus.fit_sample(X, y)else:      X_rus,y_rus=X,y        clf = RandomForestClassifier(n_estimators=est, random_state=rand)clf.fit(X_rus, y_rus) #訓練用データで学習    y_pred = clf.predict(Ztest) #検証用データの予測    cmatrix = confusion_matrix(Zkekka,y_pred)　#正答率を出すための正解データをチェックprint(cmatrix)  print(r2_score(Zkekka, y_pred)) #スコアも出してみる

ランダムフォレストの結果

　ランダムフォレストでの予測結果です。

　まずアンダーサンプリングなしで、「random_state」「n_estimators」を変えて確認した結果です。「n_estimators」は「20、30、50、100、200」と値を変えてます。「random_state」は毎回ブレないように本来ランダムに選ばれる数値を固定する(seedと呼ばれることもあるようです)ためのものなので、数値の違いで結果が大幅に違わないかを確認するため3通り(1,15,42としてます)を試してます。

　ただ、1回の学習・予測でアホみたいに時間がかかるため「random_state」の変更時は全パターンを試しませんでした。

※表では「random_state」：RS、「n_estimators」：ESTと略してます。

**10%以上上昇したか？の結果**
EST	RS=1			RS=42			RS=15
EST	×	〇	率	×	〇	率	×	〇	率
20	160	29	15.3%	-	-	-	-	-	-
30	21	98	17.6%	107	19	15.1%	95	17	15.2%
50	59	14	19.2%	52	12	18.8%	-	-	-
100	25	8	24.2%	33	7	17.5%	-	-	-
200	18	5	21.7%	-	-	-	-	-	-

　「n_estimators」で回数増やしても安定してきてるようにも見えないし、多少確率は高くなってきてるようでも騰がると予測する数がこんなに少なくなると「n_estimators」をこれ以上上げても使い物になりません。

とりあえず騰がったかどうか(0%以上上昇したか？)でも見てみます。

**とにかく上昇したか？(0%以上上昇)の結果**
EST	RS=1			RS=42			RS=15
EST	×	〇	率	×	〇	率	×	〇	率
20	108	81	42.9%	-	-	-	-	-	-
30	71	48	40.3%	64	62	49.2%	65	47	42.0%
50	42	31	42.5%	35	29	45.3%	-	-	-
100	17	16	48.5%	21	19	47.5%	-	-	-
200	15	8	34.8%	-	-	-	-	-	-

　正答率が50%を切るくらいの数値になってます。これは線形回帰よりも悪い成績ですし、2022年は予測対象銘柄で実際に騰がった回数は50%以上あるのでまあ当ててないと言って良いでしょう。

　期待持てないながらも、学習データのアンダーサンプリングありの場合も確認してみます。「random_state」=42で固定したので、比較表のアンダーサンプリングなしは42のケースで載せてます。

　アンダーサンプリングの倍率：USで表記してます。

**10%以上上昇したか？の結果(アンダーサンプリングあり)**
EST	USなし			US=5			US=4
EST	×	〇	率	×	〇	率	×	〇	率
30	107	19	15.1%	434	137	24.0%	760	168	18.1%
50	52	12	18.8%	273	51	15.7%	486	132	21.4%
100	33	7	17.5%	140	57	28.9%	221	87	28.2%

　多少改善はありますがたいして正答率は上がってきてくれません。LightGBMの時のように予測数は格段に増えましたのでそういった効果は得られるようです。アンダーサンプリングはあったほうが良いということは間違いなさそうです。

　一応騰がったかどうかでの正答率も見てみます。

**とにかく上昇したか？(0%以上上昇)の結果(アンダーサンプリングあり)**
EST	USなし			US=5			US=4
EST	×	〇	率	×	〇	率	×	〇	率
30	64	62	49.2%	276	274	49.8%	505	497	49.6%
50	35	29	45.3%	172	154	47.2%	275	252	47.8%
100	21	19	47.5%	74	59	44.4%	146	153	51.2%

　良くて正答率50%程度でした。回数増やしても安定して正答率が上がって来るわけでないし、random_stateの検証結果見てもここを変えれば結構上下しそうです。これだけバラつきあると使いものにはならないという結論に達しました。

　他のパラメータを変えて劇的に良くなる可能性がゼロではないですが、あまりにも予測に時間かかるのでもうこれ以上探るのはやめました。n_estimete=200の場合1時間以上かかった・・・。

学習・検証をする⑧　線形回帰をもう少し探る(シグモイド関数の利用)

Sun, 30 Apr 2023 23:45:54 +0900

　線形回帰モデルは散々な結果でした。あっさり見限っても良かったんですが、工夫することで何か変わってこないか少しだけ考えてみることにしました。

　取り組んでみたのはシグモイド関数の利用です。シグモイド関数って何？って方はどっかのサイトを検索して調べてみてください。

シグモイド関数で目的変数を変換

　シグモイド関数を通すと０～１の数値に変換してくれて、図のようなイメージの曲線になります。

　ざっくり言うと2値モデルに近いくらい上昇率を上か下かに振り分けてくれる感じですね。上昇した銘柄と上昇しなかった銘柄に差をつけてみて線形回帰で試してみようという考えです。

pythonでの計算式はnumpyモジュールを使うとこんな感じ。

1/(1 + numpy.exp(-x * m)) 　　

x : 変換する元数値
m : 傾きを決める数値　100とかにすると傾きが急になる。

　このままだと「0」が中央値で変換後に0.5となるがこれをずらすこともできる。(ズラしたい数を n とすれば x から n を引いてあげれば良い。引き算の計算後に0となる値が0.5になるので。)

　あと、結果を分かりやすく0～100までに広げてみるために100もかけてみた(これは何％か分かりやすくなるからで見え方の問題)。

1/(1 + numpy.exp(-(x-n) * m) ) ＊ 100 　　

という式でパラメータは変えれるように実装しました。

　nについて考えると、まず10%上昇時にはシグモイド変換後に1の値に近くになるように維持したいです。が数％程度の上昇時は逆に0に近づくようにしてあげれば2値クラスの目的変数に近づく感じになるはずです。中央値が0.5になるので、例えば5%上昇程度を0.5になるようにすれば0%～4.9%くらいまでは0に近くなってくれます。ということで関数変換後に0.5となる中央値を元の目的変数の上昇率5%～10%程度の間で変更しながら試すことにしました。

　学習・予測のプログラムは目的変数の変換以外は元々の線形回帰と一緒です。

シグモイド関数利用の線形回帰モデル成績

　結果は以下のような感じ。まずn=0.03から。傾きのmは100に固定してます。これまでは結果が10%以上上昇の正答率、0%以上の正答率を出してましたがめんどくさいのでとにかく騰がったかどうか(0%以上上昇)だけにしてます。

とにかく騰がったか(0%以上上昇) n=0.03(3%) m=100
採用閾値	×	〇	正答率
30	16286	1688	50.9%
50	698	659	48.6%
70	320	340	51.5%
100	276	304	52.4%
500	253	285	53.0%

　予測値が高くても大して正答率は上がってきません。さらにシグモイド関数の特性上正解の最大値は100( 関数通した結果に100を掛ける式にしてるので)にしかならないのに、500以上の予測値をたたき出してくれるものもかなりある感じで。他も見てみます。

とにかく騰がったか(0%以上上昇) n=0.09(9%) m=100
採用閾値	×	〇	正答率
70	316	331	51.2%
100	296	319	51.9%
1000	284	303	51.6%

　nを9%に設定しても成績は変わらず。異常値(1000)とかより大きい予想も大量にあります。nを9%にすれば目的変数自体はクラス分類に近くなりますが、やはり線形回帰だと正答率は上がりませんね。

　mを大きくしたり小さくしたりで傾きを変えてみたり、nも0～0.5とかまで変動させましたが対して結果は変わりません。だいたい50%前後から動きがなく、それぞれ採用する予測上昇確率の閾値を変えても大して正答率は変わりません。見事にまんべんなく正解も不正解も同確率で散らばるという結果でした。私の学習データではそもそも線形回帰自体が向いてないんですね。線形回帰を追いかけるのはもうここでやめようと思います。

学習・検証をする⑦　違うアルゴリズムを試す(線形回帰)

Sun, 09 Apr 2023 21:26:46 +0900

　これまではLightGBMの2値分類で学習・検証を行ってきましたが、他のアルゴリズムだとどうなるんでしょうか。今回は線形回帰を試してみます。

利用するアルゴリズムと学習方法

　線形回帰の学習・予測には「Scikit-learn」の「LinearRegression」を利用しました。anaconda環境なので

「conda install -c conda-forge scikit-learn」

でちゃちゃっとインストール。

　というか、これまでのプログラムでも正答率の検証の「confusion_matrix」やLightGBMに学習させる前のデータ分割で「train_test_split」でも使ってたので既ににインストールされてましたが。

　今回は線形回帰なので、対象銘柄が何%上昇するかを予測します。このため説明変数・目的変数は以下のようにします。

　学習データ(説明変数)　：　これまでと同じ。週次ベースの過去からの騰落率などのデータ
　目的変数　：　2週間後の株価上昇率をそのまま利用

　単純に元データで線形回帰で予測するパターン、アンダーサンプリングするパターン(元データがランダムになるのでバギングもする)の2パターンを試します。

プログラムはこんな感じ

import pandas as pd import numpy as np from sklearn.metrics import confusion_matrixfrom imblearn.under_sampling import RandomUnderSamplerfrom sklearn.linear_model import LinearRegressionunder = 4 ##アンダーサンプリングの倍数R1 = 0.1 ##アンダーサンプリングのカット(倍数計算)用に利用。10%以上を1に設定するためR2 = 0.1 ##正解とする上昇率の下限 10%なら0.1。　0にすると0%以上アップで上昇銘柄全てを正解とするshikii=0.1 ##予測後の上昇率予想の閾値。「〇%以上騰がるという予測以上を採用」####アンダーサンプリング ＋ バギング用###def bagging_L(seed,X2,y2,Ztest2,under2):    ##アンダーサンプリングをする。under2を倍数として設定    f_count = y2.value_counts()[1] * under2    t_count = y2.value_counts()[1]    rus2 = RandomUnderSampler(sampling_strategy={0:f_count, 1:t_count},random_state=seed, replacement=True)    X2_resampled, y2_resampled = rus2.fit_resample(X2, y2)    ##アンダーサンプリング後の学習データ(X3)と目的変数(y3を作成    ##目的変数の元をXとしているのはF2week(騰落率)自体を目的変数にするので。引数で渡されてきたｙ2はアンダーサンプリングのための倍数設定用に10%以上で2値化されてるので利用不可    y3 = X2_resampled[['F2week']]     X3 = X2_resampled.drop('F2week',axis=1) ##学習データから目的変数をカット    print(seed) ##実行時に回数を表示する    ##モデルの作成    model_l = LinearRegression()    model_l.fit(X3,y3)       ##予測の実行    y_pred_up = model_l.predict(Ztest2)    return y_pred_updf1filename = "C:/HY-SBI/加工データ/kabu_ALL20172021.txt" #学習用の2017年～2021年のデータdf2filename = "C:/HY-SBI/加工データ/t_forpre/pred/AL22_2022.txt" #検証用の2022年のデータdf1 = pd.read_csv(df1filename) #pandasデータフレームのdf1に学習用データを設定df2 = pd.read_csv(df2filename) #pandasデータフレームのdf2に検証用データを設定####結果出力用にデータフレームを作成。銘柄コード・予測対象基準日の列で作成df_kekka=df2[['Mcode','kijyun_date']]###データ前処理 学習用データ### ##ノイズになりそうな情報をカットdf1=df1.drop('Mcode',axis=1) ##銘柄コードを削除　※銘柄コードによって学習結果が左右されないようにするためdf1=df1.drop('kijyun_date',axis=1) ##基準日を削除 ※日付によって学習結果が左右されないようにするため ##学習用データから目的変数をカット。基準日から先4週分の2週目以外削除(2週目はバギング先でyに利用)X=df1.drop('F1week',axis=1)X=X.drop('F3week',axis=1)X=X.drop('F4week',axis=1)XL=X.drop('F2week',axis=1) ####目的変数とアンダーサンプリング用。2週間先で10%以上上がった場合を「1」にセット、目的変数は2週間後の騰落値そのままdfy=df1.copy()dfy['F2week_pred'] = 0 ##一旦すべてゼロに。これを先にやっておくとnanにならないので。dfy.loc[dfy['F2week'] >= R1,['F2week_pred']] = 1y =  dfy[['F2week_pred']] ##アンダーサンプリング＋バギングバージョンに渡すデータを作成yL= dfy[['F2week']] ##バギングなしバージョンの目的変数を作成###データ前処理 検証用データ### ##学習用データに項目合わせるためノイズになりそうな情報をカットdf2=df2.drop('Mcode',axis=1)df2=df2.drop('kijyun_date',axis=1) ##検証用データから目的変数をカット。基準日から先4週分の騰落率を削除Ztest=df2.drop('F1week',axis=1)Ztest=Ztest.drop('F2week',axis=1)Ztest=Ztest.drop('F3week',axis=1)Ztest=Ztest.drop('F4week',axis=1) ####目的変数の設定。2週間先で10%以上上がった場合を「1」にセット ※騰落率ではなく騰がったら正解dfZ=df2.copy()dfZ['F2week_pred'] = 0dfZ.loc[dfZ['F2week'] >= R2,['F2week_pred']] = 1 #22年度検証の結果データとして2週間先のデータで10%以上騰がった場合を1にセット。 Zkekka = dfZ[['F2week_pred']] ##検証用に結果データの列だけにしておく####線形回帰モデル１(全データ単純型・・バギングなし)####学習の実施model_l = LinearRegression()model_l.fit(XL,yL)####22年データで予測し結果を格納y_pred_up = model_l.predict(Ztest)####線形回帰モデル２(アンダーサンプリング・バギング)y_pred_p=[]    for i in range(10):    y_pred_p.append(bagging_L(i,X,y,Ztest,under))y_pred_up2 = sum(y_pred_p)/len(y_pred_p)####結果出力用データフレームに結果を格納df_kekka['target_up']=y_pred_updf_kekka['target_up2']=y_pred_up2####予測採用する閾値(R2)以上を購入対象扱いとして１をセットdf_kekka['target_pred']=0df_kekka['target_pred2']=0df_kekka.loc[df_kekka['target_up'] >= shikii , ['target_pred']] = 1df_kekka.loc[df_kekka['target_up2'] >= shikii , ['target_pred2']] = 1###########結果の検証。cmatrix = confusion_matrix(Zkekka,df_kekka['target_pred'])cmatrix2 = confusion_matrix(Zkekka,df_kekka['target_pred2'])print(cmatrix)print(cmatrix2)

学習・検証の結果

　結果についてです。予測結果は上昇率そのものを予測してますので、機械学習としてのモデル自体の評価は10%(0.1)以上を売買対象とした際の正解を見るべきなんでしょうが、実際は株の購入対象をどうしていくかが目的です。このためLightGBMの2値モデルと同じく、予測をカットする閾値を上げていって成績が変わっていくかを見ていく必要があります。

　閾値を5%(0.05)～100%(1.0)近くまで変化させて、アンダーサンプリングなし、アンダーサンプリングあり(バギング10回)の結果を確認しました。

**10%以上上昇したか？の結果**
予測上昇率閾値	USなし			USあり
	USなし			US６倍			US５倍			US４倍
	×	〇	率	×	〇	率	×	〇	率	×	〇	率
5%以上	1797	242	11.9%	4137	658	13.7%	5487	868	13.7%	8367	1223	12.8%
8%以上	819	81	9.0%	1459	191	11.6%	1760	239	12.0%	2325	358	13.3%
10%以上	637	46	6.7%	990	112	10.2%	1124	133	10.6%	1416	182	11.4%
20%以上	484	14	2.8%	584	21	3.5%	594	24	3.9%	631	34	5.1%

　※US：アンダーサンプリングの略です

　上昇率予想の閾値を上げるとどんどん成績が悪くなっていってしまいました。10%以上上昇するはずだと予測しているものの正解率が3%程度の成績では使い物になりません。また、予測数値5%以上を集計した方が実際に10%以上上昇した銘柄を当てているということは、10%以上の上昇予測よりも5%～10％間の上昇予測の方が成績が良いということですよね。なんだこれはという感じです。

　10%以上上昇を正解とする検証はここで止めて、とにかく騰がったのかどうか(0%以上上昇を正解とする)ケースでもう少し見てみました。アンダーサンプリング数は5倍に固定して試してます。

**とにかく騰がったか(0%以上上昇)の結果)**
予測上昇率閾値	USなし			US５倍
予測上昇率閾値	×	〇	率	×	〇	率
5%以上	1101	938	46.0%	3439	2916	45.9%
8%以上	433	467	51.9%	1091	988	47.5%
10%以上	335	348	51.0%	673	584	46.5%
15%以上	246	279	53.1%	366	381	51.0%
20%以上	226	272	54.6%	295	323	52.3%
30%以上	217	261	54.6%	271	309	53.3%
50%以上	213	260	55.0%	257	299	53.8%
60%以上	212	260	55.1%	255	296	53.7%
90%以上	212	255	54.6%	252	292	53.7%

　上昇したかどうかを正解とした場合は上昇予測確率が上がるほど落ち込むということはなかったですが、かといって成績もそんなに上がってきてくれてません。また、20%上昇あたりを境にほとんど予測数も減ってこないということは、2週間後に100%以上上昇する(2倍になる)！ってとんでもない予測(要は異常値ですよねー)が結構あるようです。

　ただ、もし異常値カットしても結局は平均的に予測が散っていてどの上昇確率でも似たような成績にしかなってないですけど、なのでこのモデルは株に向いた予測にはならないってことですかね。線形回帰モデルは失敗でした。

22年の仮想売買成績を再度チェック(学習データ量が増加したので)。ついでに21年以前も

Sat, 08 Apr 2023 10:44:50 +0900

　データ量を増加させて新しく学習したモデルは格段に成績がアップしました。

(モデルの正答率の検証結果はこちら(22年分)とこちら(21年以前分))

　それに伴って2022年にもし買っていたら？という売買成績も再度チェックしてみたいと思います。

売買実績検証のパターン

　前回は5パターンの購入方法・売却方法で確認しましたが、

とにかく全部買っていった場合
500万の持ち高制限＋1単元が100万以上購入なし＋少額銘柄は20万MAXで購入単元数アップ＋10%損失時はロスカット

の2パターンを検証してみました。

仮想売買実績の結果(22年の場合)

　もし22年に購入していたら以下のような結果でした。アンダーサンプリング数は5倍に固定してます。

　今回は予想確率の採用する閾値も変えてみます。正答率の確認結果からも分かるように、実際に上昇した銘柄が含まれる結果確率(上昇期待値とでも名付けましょうか)も変わりますので、この閾値も変えてみたいと思います。

　※上昇期待値：実際に騰がった(0%以上上昇した)回数　÷　10%以上上昇すると予測した全数

**22年に購入していたら？**
採用確率閾値	上昇期待値	パターン１(予想全１単元購入)			パターン１(持ち高制限等あり)
採用確率閾値	上昇期待値	利益	購入回数	最大持ち高	利益	購入回数
40%以上	63.7%	8,480,450	1353	134,420,200	-914,885	457
45%以上	75.0%	11,453,380	876	113,958,570	1,301,360	238
50%以上	86.9%	10,141,890	618	94,446,550	1,887,430	103
55%以上	90.9%	7,850,720	459	74,160,360	1,624,530	66
60%以上	94.9%	5,533,850	297	46,640,500	1,776,140	52

　予想の上昇確率50%以上が結果は良さそうですね。40%以上を閾値にした場合は期待値が63%程度ですが全数購入では儲かってます。下落する銘柄もかなり含まれるようになりますが、それでも大幅上昇銘柄を当てているからトータルでは勝ってるようです。ただ、最大の持ち高が1億円を超えてくれてますのでこんな資産はないし実際は持ち高制限かけながらの購入になります。その場合は見事にマイナスに転落してますしバランス考えながら買うなら、さすがにこの閾値で運用するのは危険すぎる。

　上昇確率50%以上は無条件に採用し、45%以上は持ち高小さいときには追加的に買ってみるというような使い方が良いかもしれません。

　まず22年の仮想運用ではかなり好結果となったのがうれしいですね。機械学習のお勉強で始めただけでしたが本当に良いモデルなのでは(使えるのでは？)と思ってきました。

21年以前の仮想売買の結果

　21年以前の場合も見てみます。分割によってデータ量は半減しますが、それなりの正答率は出てましたので参考にはなりそうです。

　予想確率の採用閾値を変えながら、2017年～2021年までの年毎の成績を確認しました。

**2021年以前確率閾値60%以上**
対象年	全対象購入(1単元づつ)		持ち高500万等制限あり
対象年	利益	購入回数	利益	購入回数
2017年	0	0	0	0
2018年	6,088,350	595	1,045,868	61
2019年	0	0	-17,250	1
2020年	12,396,760	1002	2,423,574	112
2021年	0	0	0	0
合計	1,8485,110		3,452,192

**2021年以前確率閾値55%以上**
対象年	全対象購入(1単元づつ)		持ち高500万等制限あり
対象年	利益	購入回数	利益	購入回数
2017年	0	0	0	0
2018年	6,594,990	668	1,164,403	71
2019年	144,400	14	114,020	20
2020年	15,560,810	1253	3,593,523	135
2021年	126,180	5	254,554	6
合計	22,426,380		5,126,500

**2021年以前確率閾値50%以上**
対象年	全対象購入(1単元づつ)		持ち高500万等制限あり
対象年	利益	購入回数	利益	購入回数
2017年	161,600	4	158,910	4
2018年	7,915,890	802	1,608,333	114
2019年	362,900	46	192,880	57
2020年	18,558,810	1532	4,165,943	185
2021年	519,930	56	960,253	26
合計	22,426,380		5,126,500

　過去も確実に儲かってるのでそこは成功です。が、採用閾値上げると2017年も2019年も2021年も購入機会がゼロ回だと？　閾値下げても異常に少ない。まあ日経平均自体の騰落に各銘柄の騰落数も影響は受けるので年によってバラつきは出るんでしょうが、それにしてもちょっと偏りがあるモデルですね。

　じっと耐えてチャンスがあるときに買って儲けていくことには使えるので、このモデルを軸としつつどう改良していくかが課題です。とりあえず一定の成果は得られたので一旦このモデルの検証はここまでにしようかなと思います。

　※2019年に持ち高MAX版で1件発生しているのは、売買を仮想でするプログラムの関係で発生しただけで予想自体は2件出てました。連続週で予想が出た場合銘柄の購入はせずに前週購入分の売却時期延長をする仕様にしたので、単純売買の場合は延長購入なしになり、持ち高制限の場合は持ち高の関係で前週購入してなかったから購入対象になったみたいな感じです。ちょうど予想対象も1月冒頭でしたし。気にしないでください。