<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
<channel>
<title>78rs69raのブログ</title>
<link>https://ameblo.jp/78rs69ra/</link>
<atom:link href="https://rssblog.ameba.jp/78rs69ra/rss20.xml" rel="self" type="application/rss+xml" />
<atom:link rel="hub" href="http://pubsubhubbub.appspot.com" />
<description>野球好き．数字遊びすき．自分で面白おかしく遊んでいきます</description>
<language>ja</language>
<item>
<title>開幕記念！勝利により寄与する概念は何か？NPB全体編</title>
<description>
<![CDATA[ <p>これまでの解析では，得点と失点という各プレイから出力された結果をもとに勝率を説明しようと試みてきました．</p><p>次に今回からはその前段階であるプレイそのものから勝率を説明する方法を考えてみたいと思います．</p><p>&nbsp;</p><p>ということで今回もいつもの通りデータの選別から行います．</p><p>やはり対象は143試合制の2015-2018の4シーズンのべ48チームを対象とします．</p><p>そしてこの48チームの以下の成績を取り出しました．</p><p>①勝率</p><p>②打撃(単打，二塁打，三塁打，本塁打，四球，故意四球，死球，犠打，犠飛，盗塁，打率，出塁率，長打率，OPS，IsoD，IsoP，wOBA)</p><p>③守備＝UZR(※出典はdeltaより)</p><p>④投手(被本塁打，与四球，奪三振，自責点，防御率)</p><p>ということで計23種の成績を取り出してみました．なおwOBAはtheBOOKの係数を用いて算出しています．</p><p>ご覧のように投手成績の扱いが非常に難しくなっています．UZRを含み入れている以上失点やあるいはt-RAなどの打球管理を含むsabr指標は多重共線性を回避することができません．したがってここでは古典的なFIPらしく野手の守備から独立した3つの成績＋自責点とかなり簡略化しました．</p><p><a href="https://stat.ameba.jp/user_images/20190401/23/78rs69ra/6a/9e/j/o2161088314383215977.jpg"><img alt="" contenteditable="inherit" height="883" src="https://stat.ameba.jp/user_images/20190401/23/78rs69ra/6a/9e/j/o2161088314383215977.jpg" width="2161"></a></p><p>こちらが生データになります．気になる方は頑張って拡大して読んでみてください．</p><p>そしてこれらの成績のお互いの相関係数を一挙に求めます．</p><p><a href="https://stat.ameba.jp/user_images/20190401/23/78rs69ra/e3/b3/j/o2089052414383218995.jpg"><img alt="" contenteditable="inherit" height="524" src="https://stat.ameba.jp/user_images/20190401/23/78rs69ra/e3/b3/j/o2089052414383218995.jpg" width="2089"></a></p><p>これもまたでっかいですね…ほんとに申し訳ない．</p><p>生データをそのまま解析に乗せたのでPAやAB，IPが入り込んでいますが当然こんなものは関係ないのでここからの解析ではポイしてます．</p><p>&nbsp;</p><p>さて，ここから一体どの要素が勝率に影響を及ぼしているのか？をついに求めていきます．</p><p>今回は変数増加法による多変量解析を行いました．</p><p>すなわち，勝率との間の相関係数の高いものから順に回帰分析に組み入れていき，十分強く影響しているもののみを採用して回帰式を作成しましょうということになります．</p><p>今回は偏回帰係数のt値^2&lt;2.00，またはp値&gt;0.05のどちらかを十分強く影響していないと判断する基準に設定しました．</p><p>相関係数の高いものから順に，多重共線性に注意しながら要素を並べていくと①wOBA，②UZR，③K，④SB，⑤xHR，⑥xBB...となります．</p><p>これを順に回帰分析に乗せていきます．</p><p>&nbsp;</p><p>①wOBA,UZR,K,SB</p><p><a href="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/68/4d/j/o0649038514383233018.jpg"><img alt="" contenteditable="inherit" height="368" src="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/68/4d/j/o0649038514383233018.jpg" width="620"></a></p><p>SBのp値が有意水準に達していません．SBは棄却しましょう．</p><p>②wOBA,UZR,K,xHR,xBB,SH</p><p><a href="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/aa/bb/j/o0649042114383234596.jpg"><img alt="" contenteditable="inherit" height="402" src="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/aa/bb/j/o0649042114383234596.jpg" width="620"></a></p><p>xHR，SHが有意水準に達していませんので棄却します．</p><p>③wOBA,UZR,K,xBB</p><p><a href="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/65/a2/j/o0649038514383235618.jpg"><img alt="" contenteditable="inherit" height="368" src="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/65/a2/j/o0649038514383235618.jpg" width="620"></a></p><p>これですべての要素が有意に勝率に影響していると考えられるかたちになりました．</p><p>しかしここにみられる偏回帰係数はそのまま比較することはもちろんできませんから，標準偏回帰係数を求めます．</p><p>まあ勝率と成績をそれぞれ標準化して回帰分析をやり直すだけなのでその過程は割愛します．</p><p>・標準化後の回帰分析</p><p><a href="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/43/1f/j/o0649038514383240213.jpg"><img alt="" contenteditable="inherit" height="368" src="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/43/1f/j/o0649038514383240213.jpg" width="620"></a></p><p>ということで，回帰分析の補正決定係数ならびに各要素の標準偏回帰係数をもとに勝率を各要素に分解してみると，</p><p><a href="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/50/6c/j/o0432042014383242265.jpg"><img alt="" contenteditable="inherit" height="420" src="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/50/6c/j/o0432042014383242265.jpg" width="432"></a></p><p>こんな感じの形になりました．</p><p>打撃が4割を占めていたり，投手と野手が3：5(6：11)の関係であったり，与四球よりも奪三振の方がわずかに大きかったりと意外な部分が数多く見られたのではないのでしょうか？</p><p>ちなみに私自身はこの4要素のみで補正決定係数が0.85もあったことが1番の驚きでしたけどもね．</p><p>&nbsp;</p><p>なお上記の回帰式を用いて過去4シーズンのべ48チームの予測勝率を求め，実際の勝率との関係を確認してみました．</p><p><a href="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/ee/e8/j/o0864051914383247062.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190402/00/78rs69ra/ee/e8/j/o0864051914383247062.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：回帰式より求めた予測勝率 / Y軸：実際の勝率)</span></p><p>ということでこの式は勝率を86.4%の精度で予測できるかも，という結果が得られました．</p><p>しかしながらシーズン途中ではUZRの値が大きく変動しますから(これは指標の特性上仕方がない)，シーズン序盤の成績から今後のシーズン展望を予測する，という使い方は難しいかと思います．</p><p>&nbsp;</p><p>ということで今回は各種プレイを表す成績・指標から勝率を分解してみました．</p><p>これからはセパ両リーグに分けて同じ解析を行い，リーグ間での野球の違いがないかどうかを検証してみたいと思います．</p><p>&nbsp;</p><p>&nbsp;</p><p>&nbsp;</p>
]]>
</description>
<link>https://ameblo.jp/78rs69ra/entry-12451297649.html</link>
<pubDate>Tue, 02 Apr 2019 00:34:51 +0900</pubDate>
</item>
<item>
<title>阪神はなぜ甲子園で勝てなかったのか？ - 阪神は本当に貧打だったのかを探る</title>
<description>
<![CDATA[ <p>個人的に興味のある話題だったので，番外編としてデータを出してみました．</p><p>甲子園は投手有利の打低球場として有名です．だからこそ，阪神の周囲からは「打てないのだから守備重視のチームに」や「スモールベースボールを」といった声が聞かれています．</p><p>&nbsp;</p><p>ここ数年の阪神は金本監督を筆頭に世代交代を推し進め，打撃を中心としたチーム作りを行って(もともとの投手力もあいまって)2017年には貯金17を記録し，おそらく黄金期広島に被ってしまう不幸がなければ，例年のセリーグであれば優勝していてもおかしくはないほどのチームを作り上げました．</p><p>しかし2018年，阪神は突然の貧打に襲われホームであるはずの甲子園で全く勝てない日々が続き，最終的には優勝争い候補から一転，最下位でシーズンを終えることになりました．</p><p>これにはホーム甲子園で<span style="color: rgb(255, 0, 0);">62試合21勝39敗2分：勝率.350</span>，とてもホーム球場とは思えない勝率を記録してしまったことが主要な要因としてよくやり玉にあがっています．そして甲子園で勝てなかった原因は<span style="text-decoration: underline;">阪神が極端な貧打にあえいでいたから</span>だ，とも．</p><p>&nbsp;</p><p>これに対してwRC+等の打撃指標をもって「阪神は貧打のチームではない」とする反論も聞かれています．しかしシーズン全体の打撃指標はホームゲームやビジターゲームを総合的に評価したものであり，これだけでは<span style="color: rgb(255, 0, 0);">本当に甲子園で打てなかったのか？</span>という疑問に答えることはできません．</p><p>そこで，今回は甲子園で行われた試合のみを抽出して阪神の試合ぶりがどうであったのかを探りたいと思います．</p><p>&nbsp;</p><p>まず，評価対象のデータとしては2018年に<span style="color: rgb(255, 0, 0);">甲子園で開催されたセリーグ同士のリーグ戦計53試合</span>を取り出しています．</p><p>交流戦もそれぞれの本拠地で9試合開催されていますが，試合数が少ないことやパリーグの投手との対戦での成績が入り込んでしまうため今回は除外しました．</p><p>&nbsp;</p><p>この53試合の成績を集計し，今回は簡易的にTHE BOOKにおけるwOBAの係数を用いて各種打撃指標を算出しました．</p><p>このような形にすることで，<span style="text-decoration: underline;">甲子園という球場の影響を取り除いて阪神の打撃が他チームと比較してどうだったか？</span>を数値化することができます．</p><p>※THE BOOK wOBA(scale調整前) = ((0.62*(BB-IBB)+0.65*HBP+0.77*1B+1.08*2B+1.37*3B+1.70*HR)/PA)</p><p>　　wOBAscale = LgOBP/LgwOBA</p><p><span style="color: rgb(255, 0, 0);">　最終wOBA = 調整前wOBA&nbsp;* wOBAscale</span></p><p>&nbsp;</p><p>53試合の成績を抽出したものがこちらです．</p><p><a href="https://stat.ameba.jp/user_images/20190309/20/78rs69ra/17/59/j/o0433017614369072975.jpg"><img alt="" contenteditable="inherit" height="171" src="https://stat.ameba.jp/user_images/20190309/20/78rs69ra/17/59/j/o0433017614369072975.jpg" width="420"></a></p><p><a href="https://stat.ameba.jp/user_images/20190309/20/78rs69ra/5c/ac/j/o1009017614369074052.jpg"><img alt="" contenteditable="inherit" height="108" src="https://stat.ameba.jp/user_images/20190309/20/78rs69ra/5c/ac/j/o1009017614369074052.jpg" width="620"></a></p><p><a href="https://stat.ameba.jp/user_images/20190309/20/78rs69ra/42/56/j/o0433017614369074666.jpg"><img alt="" height="171" src="https://stat.ameba.jp/user_images/20190309/20/78rs69ra/42/56/j/o0433017614369074666.jpg" width="420"></a></p><p>これを見るとやはり阪神は得点創出が低いことが分かります．しかし，これは特定の一球場での試合のみを取り出していることに注意が必要です．</p><p>すなわち<span style="color: rgb(255, 0, 0);">ビジターチームは必ず阪神投手陣としか対戦していないし，阪神打線はビジターチーム投手陣としか対戦していない</span>，というバイアスがかかったデータなのです．</p><p>ですからこれを対戦投手陣の違いに合わせて補正しなければなりません．</p><p>今回はビジター5チームはすべて平等に阪神投手陣と対戦していますから，阪神打線の成績に阪神投手陣を基準とした補正をかけることとします．</p><p>&nbsp;</p><p>その方法ですが，「<a accesskey="0" href="http://ranzankeikoku.blog.fc2.com/" title="日本プロ野球RCAA&amp;PitchingRunまとめblog">日本プロ野球RCAA&amp;PitchingRunまとめblog</a>」さまより「<a href="http://ranzankeikoku.blog.fc2.com/blog-entry-2565.html" target="_blank">PFを考慮した各チームのFIP</a>」を参照して，阪神投手陣との比率を求めました．</p><p>たとえば，広島投手陣のPFを考慮したFIP-は103，阪神は99ですから広島投手陣は阪神投手陣と比較して103/99=1.04だけ相手打者の成績が良くなるのだろう，という想定をしたものです．この数値で阪神の各球団別のwOBAを除することで阪神投手陣を基準としたwOBAに補正しました．</p><p>&nbsp;</p><p>こうして得られた対戦投手補正後wOBAを用いて打席数による加重平均を求め，全体の対戦投手補正後のwOBAを算出しました．</p><p>その結果が以下の通りです．また見た目に分かりやすくするためwRAA，wRC，wRC+(甲子園試合のみ版)を同時に算出しています．</p><p><a href="https://stat.ameba.jp/user_images/20190309/20/78rs69ra/60/7b/j/o0721017614369050747.jpg"><img alt="" contenteditable="inherit" height="151" src="https://stat.ameba.jp/user_images/20190309/20/78rs69ra/60/7b/j/o0721017614369050747.jpg" width="620"></a></p><p>ということで，やはり<span style="color: rgb(255, 0, 0);">阪神は対戦投手の違いによる条件の違いを取り除いても甲子園で打てていなかった</span>ことが分かりました．</p><p>wRC+にして93程度なのでは？と思われるかもしれませんが，甲子園は阪神のフランチャイズですから全ての試合に阪神が関わっています．すなわち<u>阪神の成績が半分の割合を占めている</u>ことがポイントとなります．</p><p>阪神の成績が平均値を半分の寄与率で作っているにもかかわらずwRC+が100未満として出力されてしまっている，ということは<font color="#ff2a1a">阪神の打撃成績がビジターチームの成績を確かに下回ってしまっていた</font>というわけです．</p><p>単純計算にして阪神93:ビジター107ですから、<font color="#ff2a1a">阪神はビジターチームよりも1割以上得点創出に劣っていた</font>ということになります。</p><p><br></p><p>そしてこの<span style="color: rgb(255, 0, 0);">阪神の得点創出を唯一下回ったのが横浜であり，その横浜が唯一甲子園で阪神に負け越した</span>，という非常に分かりやすい勝敗表の結果となっています．</p><p>&nbsp;</p><p>ただ，上の表では得点創出にあまり差のついていないヤクルトが勝率.800と阪神に完勝していることが説明がつきづらいことに気付かれることでしょう．対戦球団別の成績を見てそれぞれの対戦成績を考察してみます．</p><p><a href="https://stat.ameba.jp/user_images/20190309/21/78rs69ra/af/46/j/o0505015114369081603.jpg"><img alt="" contenteditable="inherit" height="151" src="https://stat.ameba.jp/user_images/20190309/21/78rs69ra/af/46/j/o0505015114369081603.jpg" width="505"></a></p><p>実は<span style="color: rgb(255, 0, 0);">阪神打線を最もよく抑えていたのがヤクルト投手陣であった</span>ということなのですね．巨人と並んで投打に阪神を圧倒していたことが分かります．</p><p>対して中日は阪神打線を抑えられていなかったことが分かります．実際勝敗も4勝5敗(阪神目線)ですから，紙一重の対戦成績でした．</p><p>広島はごくごく平均的な投手成績ではありますが，やはり自慢の打線の力で打ち勝っていたようです．</p><p>横浜もそれなりに阪神打線を抑えていそうなのですが，自分たちがそれ以上に抑えられて唯一の負け越しチームとなってしまいました．例年言われている阪神と横浜の相性なのでしょうか？</p><p>&nbsp;</p><p>ちなみに甲子園における阪神の投手成績はビジターチームの打撃成績を見ればよいわけですから，2つ上の表を見ていただくのが分かりやすいと思います．<span style="color: rgb(255, 0, 0);">wRC+123の広島ですらOPS.730</span>ですから，阪神投手陣が如何に相手チームを抑えていたか(そして阪神打線が如何に抑えられていたか)がお分かりになると思います．</p><p>ということで，阪神低迷の原因としてはやはりちまたで言われているように<span style="color: rgb(255, 0, 0);">甲子園で阪神打線が打てなかったから</span>，とするのが妥当なのではないでしょうか．</p><p>&nbsp;</p><p>特に今回の検証は甲子園という打低球場の影響を排してのものですから，阪神打線は甲子園によって低く貶められている，のではなくて地力で他球団に後れをとっているのかもしれません．</p><p>甲子園だから，と諦めるのではなくさらなる打撃力強化をすることが阪神の立て直しには必要なのではないのでしょうか．</p><p>&nbsp;</p>
]]>
</description>
<link>https://ameblo.jp/78rs69ra/entry-12445563431.html</link>
<pubDate>Sat, 09 Mar 2019 20:44:24 +0900</pubDate>
</item>
<item>
<title>「攻」か「守」か？勝率に強く影響するのはどちらか</title>
<description>
<![CDATA[ <p>さて，<a href="https://ameblo.jp/78rs69ra/entry-12444243755.html" target="_blank">前回</a>までは回帰分析により得られた勝率予測式について検証してきました．</p><p>ところで，このeWin%の近似式を眺めていてあることにお気付きになりましたでしょうか？</p><p>そうです，<span style="color: rgb(255, 0, 0);">得点と失点の係数が違う</span>，ということです．</p><p><span style="text-decoration: underline;">eWin% = 0.444 + 0.000<span style="color: rgb(255, 0, 0);">78</span>×(得点数) - 0.000<span style="color: rgb(255, 0, 0);">69</span>×(失点数)</span></p><p>ということは，得点の方が失点よりも強く勝率に影響する？</p><p>...というわけにも(これだけでは)言えません．これはただの偏回帰係数ですから，変数のオーダーの影響を受けます．</p><p><span style="font-size: 0.83em;">(まあ，得点と失点なんだからオーダー変わらんだろと言われるとそうなんですが)</span></p><p>そこで，今回は回帰式の補正決定係数と各変数の標準回帰係数を用いてズバリ「<span style="color: rgb(255, 0, 0);">勝率により強く影響している要素はどっちなのか？</span>」を検証したいと思います．</p><p>&nbsp;</p><p>●得失点を比較して，「攻守のバランス」を検証する</p><p>「野球は投手」「打てないチームは上に行けない」などなど，野球の攻守バランスについては様々な言説があります．</p><p>しかしいずれにせよ，それは「得点を上げる」ことを目的にしているのか，「失点を減らす」ことを目的にしているのかの2つに分けて考えることができるでしょう．</p><p>そこでここでは得点/失点と勝率の間の標準偏回帰係数を求め勝率に影響する強さを考えようと思います．</p><p>データ対象はこれまで通り，<span style="color: rgb(255, 0, 0);">143試合制である2015-2018年の4シーズン</span>です．</p><p>まず4シーズンのべ48チームの勝率，得点，失点の3要素を標準化しました．</p><p><a href="https://stat.ameba.jp/user_images/20190306/00/78rs69ra/d0/07/j/o0793045114367056716.jpg"><img alt="" contenteditable="inherit" height="353" src="https://stat.ameba.jp/user_images/20190306/00/78rs69ra/d0/07/j/o0793045114367056716.jpg" width="620"></a></p><p>これを用いて回帰分析し勝率，得点，失点の標準偏回帰係数は以下のように求められました．</p><p><a href="https://stat.ameba.jp/user_images/20190306/00/78rs69ra/d1/cc/j/o0649034914367047500.jpg"><img alt="" contenteditable="inherit" height="349" src="https://stat.ameba.jp/user_images/20190306/00/78rs69ra/d1/cc/j/o0649034914367047500.jpg" width="649"></a></p><p>また<a href="https://ameblo.jp/78rs69ra/entry-12443680485.html" target="_blank">eWin%の回帰分析</a>において得失点を用いたeWin%の回帰式の補正決定係数は0.877でしたので，この2つの解析から勝率は以下のような要素に分解することができました．</p><p><a href="https://stat.ameba.jp/user_images/20190306/00/78rs69ra/aa/03/j/o0504045914367048972.jpg"><img alt="" contenteditable="inherit" height="383" src="https://stat.ameba.jp/user_images/20190306/00/78rs69ra/aa/03/j/o0504045914367048972.jpg" width="420"></a></p><p>ということで，得点が失点に対してより大きく勝率に関わっているようだという結果が出てきました．</p><p>ただしこれだけを以て<span style="text-decoration: underline;"><span style="color: rgb(0, 0, 0);">「失点を1点減らすよりも得点を1点増やした方が勝率は2倍よくなる」とは</span><span style="color: rgb(255, 0, 0);">ならない</span></span>ということは記しておきます．</p><p>これは標準化した上での回帰係数の比較による寄与率の分割という行為を行っていますから，これは偏差値による話をしているのだと理解していただく必要があります(厳密には偏差値でもないのですが)．</p><p>すなわち、<font color="#ff2a1a">得点の偏差値を1上げるのと失点の偏差値を1下げるのとでは得点を増やす方がより強く勝率に寄与する</font>ということになります．ただこの偏差値1にあたるのが一体何点なのか？というのはそれぞれのリーグ・シーズンごとに変わるのでそこは各々算出しなければならないということになります．</p><p>&nbsp;</p><p>また2つの要素の標準化した相関係数を検証してみると，恐ろしいまでのp値を以て有意に得点の方が強く勝率に相関していることは示されますので<span style="color: rgb(255, 0, 0);">現代のNPBにおいては攻撃が守備よりも優先される要素である</span>，と言うことはできるかと思います．</p><p><a href="https://stat.ameba.jp/user_images/20190306/00/78rs69ra/51/88/j/o0463016414367054540.jpg"><img alt="" contenteditable="inherit" height="164" src="https://stat.ameba.jp/user_images/20190306/00/78rs69ra/51/88/j/o0463016414367054540.jpg" width="463"></a></p><p>今回は得点/失点の二項対立により，野球の攻守のバランスを検証しました．</p><p>次回からはさらに詳しく成分を分け，「どのようなチーム編成を目指すか？」ということに切り込んでいきたいと思います．</p>
]]>
</description>
<link>https://ameblo.jp/78rs69ra/entry-12444697786.html</link>
<pubDate>Wed, 06 Mar 2019 00:51:21 +0900</pubDate>
</item>
<item>
<title>来シーズンの予測はできるか？ - 統計的アプローチによりシーズン予測を試みる</title>
<description>
<![CDATA[ <p>前回の記事でeWin%の同一シーズン内での有用性について検討しましたが，今回は前年シーズン，あるいはオープン戦の結果から次のシーズンを予測できるかどうか検証してみたいと思います．</p><p>&nbsp;</p><p>①まずはオープン戦の結果から</p><p>オープン戦，日常的に調整の場だから全く関係ないとよく言われています．</p><p>順位相関がないことも知られている通りです．</p><p>ですが，試合の勝ち負けにこだわらず成績だけを見るとひょっとして相関したりせんのかな？という淡い期待をもって相関性がないことを証明しにかかろうと思います．</p><p>今回も143試合制となった2015からの4シーズンのNPBにおける各チーム成績から回帰分析によって得られた<span style="color: rgb(255, 0, 0);">eWin% </span>(=0.444+0.00078×(得点数)-0.00069×(失点数)) を用いて検討していきます．</p><p><a href="https://stat.ameba.jp/user_images/20190305/17/78rs69ra/2a/54/j/o0858053714366819686.jpg"><img alt="" contenteditable="inherit" height="388" src="https://stat.ameba.jp/user_images/20190305/17/78rs69ra/2a/54/j/o0858053714366819686.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：オープン戦成績を143試合換算したeWin% / Y軸：同一シーズンの最終勝率)</span></p><p>驚くほどの相関性のなさが出てきました．<span style="color: rgb(255, 0, 0);"><span style="font-weight: bold;">やっぱりオープン戦はあてにならない！</span></span></p><p>&nbsp;</p><p>②前シーズンからの予測</p><p>1)まずは前シーズンと翌シーズンの勝率の関連を探る</p><p><a href="https://stat.ameba.jp/user_images/20190305/17/78rs69ra/fc/ac/j/o0864051914366822084.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190305/17/78rs69ra/fc/ac/j/o0864051914366822084.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：前シーズン勝率 / Y軸：翌シーズン勝率)</span></p><p>勝率の年度間相関はあまり強くないことは予想の範囲内ではありましたが，それにしても決定係数0.1855は予想よりも低すぎると思ったのですがいかがでしょうか？</p><p>しかし，一応のところ<span style="color: rgb(0, 0, 0);">オープン戦よりも前シーズンの結果の方がまだマシ？</span>という結果ではあります．が，残念ながら相関係数の比較の検定では<span style="text-decoration: underline;">p=0.088</span>となり95%を有意な範囲ととるならば統計学的有意差はありませんでした．ざんねん．</p><p>&nbsp;</p><p>&nbsp;</p><p>2)前シーズン成績と翌シーズン勝率の関連について</p><p>「シーズンをまたいで各チームの戦力バランスが変わらなければ，チームの成績はeWin%に収束していくはずである」という仮説のもと，前シーズン成績から求めたeWin%と翌シーズンの最終勝率との間の相関をみてみます．</p><p><a href="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/7d/53/j/o0864051914366828028.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/7d/53/j/o0864051914366828028.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：前シーズン成績から求めたeWin% / Y軸：翌シーズンの勝率)</span></p><p>なんと，<span style="color: rgb(255, 0, 0);">前シーズンeWin%は翌年のオープン戦よりも有意に翌シーズン勝率と相関する</span>ことが分かりました(p=0.041)．なお前シーズンeWin%と前シーズン勝率の間には有意な差は認められていません(p=0.768)．</p><p>&nbsp;</p><p>3)「シーズン後半の方がよりよく来シーズンのチーム状況を反映する」という仮説</p><p>春先の成績を除いて，<span style="color: rgb(255, 0, 0);">夏秋以降の成績を取り出した方がより翌シーズンのチーム編成やチーム事情に近い状態を取り出せるのではないか？</span>という仮説を立ててみます．</p><p>以下シーズンを後ろから成績を足していって，上記前シーズンeWin%と翌シーズン勝率の相関よりもより強いものがないかを検討してみました．</p><p><a href="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/d1/b6/j/o0864051914366834194.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/d1/b6/j/o0864051914366834194.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：前シーズン9月以降の成績から求めたeWin% / Y軸：翌シーズン勝率)</span></p><p><a href="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/44/ec/j/o0864051914366834821.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/44/ec/j/o0864051914366834821.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：前シーズン8月以降の成績から求めたeWin% / Y軸：翌シーズン勝率)</span></p><p><a href="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/20/d0/j/o0864051914366835030.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/20/d0/j/o0864051914366835030.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：前シーズン7月以降の成績から求めたeWin% / Y軸：翌シーズン勝率)</span></p><p><a href="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/75/40/j/o0864051914366836979.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/75/40/j/o0864051914366836979.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：前シーズン6月以降の成績から求めたeWin% / Y軸：翌シーズン勝率)</span></p><p><a href="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/1a/da/j/o0864051914366837273.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/1a/da/j/o0864051914366837273.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：前シーズン5月以降の成績から求めたeWin% / Y軸：翌シーズン勝率)</span></p><p>これだけ見ておいてアレですが，<span style="color: rgb(255, 0, 0);">前シーズン全体の成績を用いた方が，シーズン後半だけを抽出するよりもよい</span>ようです．サンプル数が減少することの影響の方が大きいものと思われます．</p><p>ということで，以下前シーズンeWin%に細工してよりよい予測精度を出せないか？と試してみます．</p><p>&nbsp;</p><p>4)補強情報を入れ込んでみる</p><p>ここまでの検討は「前シーズンから翌シーズンにかけて各チームの戦力バランスが変わらなければ，勝率が収束していくはず」という仮定のもとに行ってきました．そんなわけはない．</p><p>ですから，各チームの編成事情を計算に含みたい．しかしそれを的確に情報として算入することはほぼ不可能といってよいでしょう．</p><p>なるべくクリアカットに，そして機械的に妥当と思われる方法で計算に反映したい．</p><p>ということで，今回はチーム編成や采配に関わるような「大型移籍」を定義して，以下のように計算に含みいれることとしました．</p><p><span style="text-decoration: underline;">①「大型移籍」とは，「(1)FA移籍選手，(2)FA以外の規定到達選手，(3)MLB挑戦にともなう流出選手」と定義する．</span></p><p><span style="text-decoration: underline;">②各選手のはたらきについて，「(1)得点については，移籍選手のwRAAを加減する」「(2)失点については，UZR(野手)またはRSAA(投手)を加減する」</span></p><p>②については，大型移籍選手に出番を奪われる，あるいは流出の穴埋めをする選手はせいぜいリーグ平均程度のはたらきだろうという仮定によるものです．</p><p>この条件によって「予測得失点」を算出し，補強情報込みのeWin%を求めたらどうなるか？という検討をしてみました．</p><p><a href="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/58/6d/j/o0866052014366851993.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190305/18/78rs69ra/58/6d/j/o0866052014366851993.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：前シーズン成績に補強情報を算入したeWin% / Y軸：翌シーズン勝率)</span></p><p>うーん．決定係数0.26程度か．という感想ですがいかがでしょうか．</p><p>当然ですが勝率の年度間相関やeWin%による勝率予測とは統計的有意差を見出すことはできませんでした．</p><p>ということで，ここまでの結果から以下のような知見が得られました．</p><p>&nbsp;</p><p><span style="text-decoration: underline;">①オープン戦の結果はやっぱりあてにならない．</span></p><p><span style="text-decoration: underline;">②でも，前シーズンの勝率そのものを用いると年度間相関はオープン戦からの推定と統計学的有意差が認められない．</span></p><p><span style="text-decoration: underline;">③前シーズンのeWin%を用いるとオープン戦の結果と統計学的有意差をもって翌シーズンの勝率と相関していることが分かった．</span></p><p><span style="text-decoration: underline;">④補強情報を含みいれると精度はより上がるかもしれない．でもせいぜい26%程度しか説明できず，残りの74%はこれ以外の要素によるためやはり予測は難しい．</span></p><p>&nbsp;</p><p>おまけですが，補強情報を算入した2019年の勝率予測(精度26%)を置いておきます．</p><p>セ：①<span style="color: rgb(255, 0, 0);">巨人</span>(.567)②<span style="color: rgb(255, 0, 0);">広島</span>(.519)③<span style="color: rgb(255, 0, 0);">東京</span>(.498)④<span style="color: rgb(255, 0, 0);">阪神</span>(.485)⑤<span style="color: rgb(255, 0, 0);">横浜</span>(.447)⑥<span style="color: rgb(255, 0, 0);">中日</span>(.442)</p><p>パ：①<span style="color: rgb(255, 0, 0);">西武</span>(.579)②<span style="color: rgb(255, 0, 0);">福岡</span>(.567)③<span style="color: rgb(255, 0, 0);">日公</span>(.494)④<span style="color: rgb(255, 0, 0);">楽天</span>(.479)⑤<span style="color: rgb(255, 0, 0);">オリ</span>(.467)⑥<span style="color: rgb(255, 0, 0);">千葉</span>(.432)</p><p>&nbsp;</p>
]]>
</description>
<link>https://ameblo.jp/78rs69ra/entry-12444621377.html</link>
<pubDate>Tue, 05 Mar 2019 19:16:00 +0900</pubDate>
</item>
<item>
<title>eWin%の実用性について考える「シーズン展望予測」</title>
<description>
<![CDATA[ <p>前回の記事で考察した<span style="color: rgb(255, 0, 0);">eWin%</span>(＝0.444+0.00078*得点数-0.00069*失点数)です．</p><p>これは143試合となった2015-2018シーズンの実際の結果から導き出した回帰式であり，あくまで後出しじゃんけんでしかありません．</p><p>じゃあこの式は何に使えるのよ？という話に当然なります．</p><p>このeWin%を実用できる場面を探していきたいと思います．</p><p>&nbsp;</p><p><span style="text-decoration: underline;">●同シーズンの今後の展望を予測する</span></p><p>まずはじめに思い浮かぶ使い方はこれでしょう．今回はこちらを検討していきたいと思います．</p><p>すなわち，シーズン序盤から「今シーズンはこのチームがきそうだ．」という推論に使うことができないかということです．</p><p>検証方法は非常に単純であり，4月終了時点から1か月ごとに得失点数を集計し，それを消化試合数に応じて143試合換算として月別eWin%を求め，実際に記録されたシーズン勝率との相関関係を求めればよい．</p><p>eWin%のみの1変数での相関ですから，決定係数がそのまま予測精度と読み替えてしまいましょうか．</p><p>以下がその結果です．</p><p><a href="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/dc/fc/j/o0864051914365946417.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/dc/fc/j/o0864051914365946417.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：4月終了時点のeWin% / Y軸：実際のシーズン勝率)</span></p><p>&nbsp;</p><p><a href="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/d0/54/j/o0864051914365946420.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/d0/54/j/o0864051914365946420.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：5月終了時点のeWin% / Y軸：実際のシーズン勝率)</span></p><p>&nbsp;</p><p><a href="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/0e/f7/j/o0864051914365946421.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/0e/f7/j/o0864051914365946421.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：6月終了時点のeWin% / Y軸：実際のシーズン勝率)</span></p><p>&nbsp;</p><p><a href="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/1d/23/j/o0866052014365946424.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/1d/23/j/o0866052014365946424.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：7月終了時点のeWin% / Y軸：実際のシーズン勝率)</span></p><p>&nbsp;</p><p><a href="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/0d/6a/j/o0866052014365946425.jpg"><img alt="" contenteditable="inherit" height="372" src="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/0d/6a/j/o0866052014365946425.jpg" width="620"></a></p><p><span style="font-size: 0.83em;">(X軸：9月終了時点のeWin% / Y軸：実際のシーズン勝率)</span></p><p>&nbsp;</p><p><span style="color: rgb(255, 0, 0);">4月終了時点ですでに決定係数0.44</span>と，意外となかなかな予測精度があるのではないでしょうか？</p><p>またこれは勝率の数字そのものの予測を見ていますが，ペナントレースで重要なのは順位です．</p><p>すなわち，<span style="color: rgb(255, 0, 0);">勝率の予測が外れても順位が当たっていれば予想としては問題ないのでは？</span>という観点です．</p><p>アウトカムを「①順位的中率」「②A/Bクラス的中率」としてeWin%の予測を検証してみましょう．</p><p>&nbsp;</p><p><a href="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/6f/e5/j/o0505030714365951863.jpg"><img alt="" height="307" src="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/6f/e5/j/o0505030714365951863.jpg" width="505"></a></p><p>的中率50%以上を強調しています．なんということでしょう．4月終了時点からすでにA/Bクラスは70%の精度で予想してしまっています．</p><p>順位の予測はやはり難しいようです．それでも6月時点から半分程度の精度は維持できるみたい．</p><p>6月以降に予測精度が下がっていることも気にはなります．eWin%の推移をみているとどうも<span style="color: rgb(255, 0, 0);">シーズン後半に息切れしてeWin%が下がりつつも，前半の貯金で実際の勝率は逆転されないうちに逃げ切る</span>ことがあるようです．またその反対に<span style="color: rgb(255, 0, 0);">シーズン後半に猛烈な追い上げを見せるチームというのは少ない</span>ようです．</p><p>さらに条件をゆるめて，優勝/最下位のピンポイントの予想を行ってみます．</p><p><a href="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/a8/af/j/o0505030714365956917.jpg"><img alt="" height="307" src="https://stat.ameba.jp/user_images/20190304/01/78rs69ra/a8/af/j/o0505030714365956917.jpg" width="505"></a></p><p>はて，恐ろしい結果が出ました．4月終了時点でセパいずれかの優勝チームはすでに予想が立ってしまう？</p><p>ちなみにこの4年間の中で最も予想が難しかったと思われる<span style="color: rgb(255, 0, 0);">2015ヤクルトの優勝も4月終了時点のeWin%は言い当てています</span>．</p><p>(まあ，その後5月6月は広島に逆転されて7月に返り咲く経過なんですけど)</p><p>&nbsp;</p><p>&nbsp;</p><p>ということで，今回はeWin%を用いて同一シーズン内の既消化試合の結果から最終的なシーズン結果を予測することを試みてみました．</p><p><span style="text-decoration: underline;">①4月終了時点での勝率の予測精度は44%程度，5月終了時点以後から精度は50%を超える．</span></p><p><span style="text-decoration: underline;">②6月終了時点以降で順位的中率は50%を超える．また優勝チームは7月くらいから大体見えてくる？</span></p><p><span style="text-decoration: underline;">③A/Bクラスは4月時点からかなり見えている．</span></p><p>このような結果をみると，<span style="color: rgb(255, 0, 0);">シーズン全体のペース配分なんてものは本当に存在するのか？</span>という疑問も持ってしまいますね．</p><p>Aクラスに入るチーム，Bクラスに落ちてしまうチームはシーズンはじめから最終戦まで差がついたまま同じように成績が積みあがっているような印象を抱かざるを得ませんね．</p><p>&nbsp;</p><p>次回は前シーズンの結果から翌シーズンの展望を予想することを試みてみたいと思います．</p>
]]>
</description>
<link>https://ameblo.jp/78rs69ra/entry-12444243755.html</link>
<pubDate>Mon, 04 Mar 2019 01:56:30 +0900</pubDate>
</item>
<item>
<title>得失点からの勝率の推定式 ver.NPBを考察する</title>
<description>
<![CDATA[ <p>タイトルの通りです．</p><p>一般的に有名なものはピタゴラス勝率でしょう．</p><p><span style="color: rgb(255, 0, 0);"><span style="text-decoration: underline;">ピタゴラス勝率＝得点^2/(得点^2＋失点^2)</span></span></p><p>これはいつの時代にも普遍的に通用しつつも非常に簡便でかつ精度の良い計算式として広く普及しています．</p><p>また2乗の計算が弾力性を含みすぎるため，そのべき乗数を改善して1.83としたり，あるいはリーグ平均得失点からべき乗数を算出するような改良型の計算式も提唱されています．</p><p>&nbsp;</p><p>しかし，正直言って大体500～700にものぼるようなNPBのシーズン得失点数のピタゴラス計算なんてとてもじゃないが100均で買ってきた電卓じゃできないでしょう．</p><p>そこで今回はこのピタゴラス勝率に簡便性と精度で勝負を挑み，NPB版勝率予測式を作成することを考えてみます．</p><p>&nbsp;</p><p>①まずは対象データの選定</p><p>簡便性を考えると，できればピタゴラス勝率のような割合の形(すなわち割り算)の形にはしたくない．すなわち<span style="font-style: italic;">線形近似によりy=ax1+bx2+...という形が単純で理想に近い</span>．</p><p>とすると，<span style="color: rgb(255, 0, 0);">シーズンの試合数が異なってしまうとデータとして算入させることに無理が生じ</span>ます．</p><p>現在のNPBの試合数は143試合制ですから，この143試合によるシーズンが行われている2015～2018年，すなわち<span style="color: rgb(255, 0, 0);"><span style="text-decoration: underline;">4シーズンののべ48チーム</span></span>を対象として設定しました．</p><p>&nbsp;</p><p>②変数の設定</p><p>これは言うまでもありませんね．ピタゴラス勝率に勝負を挑む意味で得点数と失点数のみで解析を行いましょう．</p><p>&nbsp;</p><p>③では，回帰分析</p><p>ということで4シーズン48チームの①勝率②得点数③失点数をプロットし，重回帰分析を行いました．</p><p>はい結果ドン</p><p>&nbsp;</p><p><a href="https://stat.ameba.jp/user_images/20190301/18/78rs69ra/fe/16/j/o0721034914364524466.jpg"><img alt="" contenteditable="inherit" height="349" src="https://stat.ameba.jp/user_images/20190301/18/78rs69ra/fe/16/j/o0721034914364524466.jpg" width="721"></a></p><p>この結果をさっさと形にしてしまうと</p><p><span style="text-decoration: underline;"><span style="color: rgb(255, 0, 0);"><span style="font-size: 1.4em;"><span style="font-weight: bold;">勝率＝0.444＋0.00078×(得点数)-0.00069×(失点数)</span></span></span></span></p><p>ということになりました．</p><p>なお補正決定係数=0.877ですから，シーズンを通した全体の得失点という2つのパラメータだけで<span style="color: rgb(255, 0, 0);">勝率の87.7%が説明できる</span>ことになります．</p><p>&nbsp;</p><p>④じゃ，この予測勝率を使ってみよう</p><p>上記の式を用いて，予測勝率を求めていきます．</p><p>なおここからは予測勝率を estimated Win% = eWin% と便宜的に表記します．</p><p>それぞれのチームについて上記の式によりeWin%をもとめ，実際の勝率との関連性をプロットしていきます．</p><p>なおX軸のパラメータがeWin%，Y軸が実際の勝率となっています．</p><p><a href="https://stat.ameba.jp/user_images/20190301/18/78rs69ra/ab/b4/j/o0865051914364528737.jpg"><img alt="" contenteditable="inherit" height="519" src="https://stat.ameba.jp/user_images/20190301/18/78rs69ra/ab/b4/j/o0865051914364528737.jpg" width="865"></a></p><p>かなりの精度で予測できています．</p><p>というか，もともと実際のデータから回帰分析してんだから当然の結果です．</p><p>なお決定係数R^2＝0.8827，相関係数R＝0.9374となりました．</p><p>&nbsp;</p><p>⑤ついにピタゴラス勝率との勝負</p><p>計算の簡便性では2乗や除算を含まないということからも明らかにeWin%の推定式の方が勝っているでしょう．(そう思いたい)</p><p>では，あとは予測精度の勝負です．これでピタゴラス勝率の方が説明範囲が広かったら笑えない．</p><p><a href="https://stat.ameba.jp/user_images/20190301/19/78rs69ra/64/92/j/o0865051914364531864.jpg"><img alt="" contenteditable="inherit" height="519" src="https://stat.ameba.jp/user_images/20190301/19/78rs69ra/64/92/j/o0865051914364531864.jpg" width="865"></a></p><p>はい，勝ちました．</p><p>いやもともとeWin%は実際に起こったデータから後出しじゃんけんをしているので当たり前なんですがね？</p><p>ただここで驚くべきはピタゴラス勝率の精度の高さでしょう．統一球で143試合制のNPBにすら，数十年前にMLBの研究から提唱された推定式が87%の精度で通用しているのですから．</p><p>&nbsp;</p><p>ということで，現代NPBにおける勝率予測の式を求めることができました．</p><p>次回以降で，このeWin%の有用性について考察していきたいと思います．</p><p>&nbsp;</p><p>&nbsp;</p>
]]>
</description>
<link>https://ameblo.jp/78rs69ra/entry-12443680485.html</link>
<pubDate>Fri, 01 Mar 2019 19:07:27 +0900</pubDate>
</item>
<item>
<title>はじめました．</title>
<description>
<![CDATA[ <p><span style="font-size: 1.4em;">はじめまして．IDは78RS69RAにしました．</span></p><p><span style="font-size: 1.4em;">名前は考えてませんでした．<span style="color: rgb(255, 0, 0);">RS</span>とでもしておきましょうか．</span></p><p>&nbsp;</p><p><span style="font-size: 1.4em;">なんとなく自分でいろいろ遊んでみたものをなんとなく記録に残して，誰かの眼に止まればよいかなあ，と軽い気持ちで書いていきます．</span></p><p><span style="font-size: 1.4em;">基本的には野球と野球かなと思います．</span></p><p>&nbsp;</p><p><span style="font-size: 1.4em;">お気に召しませば幸いです．</span></p>
]]>
</description>
<link>https://ameblo.jp/78rs69ra/entry-12443671885.html</link>
<pubDate>Fri, 01 Mar 2019 18:26:04 +0900</pubDate>
</item>
</channel>
</rss>
