<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
<channel>
<title>ゆるめのブログ</title>
<link>https://ameblo.jp/imai7777/</link>
<atom:link href="https://rssblog.ameba.jp/imai7777/rss20.xml" rel="self" type="application/rss+xml" />
<atom:link rel="hub" href="http://pubsubhubbub.appspot.com" />
<description>ブログの説明を入力します。</description>
<language>ja</language>
<item>
<title>広告データの学習データ基盤を刷新した話</title>
<description>
<![CDATA[ <p>PTAの<a href="https://adventar.org/calendars/7539" rel="nofollow noopener" target="_blank">アドベントカレンダー</a>の記事になります。</p><p>&nbsp;</p><p>広告データの学習データ基盤を刷新しているのでその話を書きます。</p><h3>広告データの学習データ基盤とは</h3><div>広告配信システムではctr/cvrの予測をするために、imp,click,cvデータを使って、機械学習モデルを作り、学習させています。</div><div>今回はそのモデル学習に学習ログデータを転送、作成するシステムの刷新になります。</div><p>&nbsp;</p><h3 dir="ltr" role="presentation">今までの学習データ基盤の構成</h3><p dir="ltr" role="presentation">主にflumeを使ってログ転送しているのですが、前段にflume2台挟んでいたり、ignite使って、正例負例ラベルを作り、最後に学習データの加工をやって、モデルの学習を行っていました。</p><p dir="ltr" role="presentation">igniteは主に遅延してくるclick,cvデータを紐づけるために使われていました。</p><p dir="ltr" role="presentation">（大規模データの分散という意味合いもありますが）<br><a href="https://stat.ameba.jp/user_images/20221213/11/imai7777/1c/1b/p/o0854110415215693054.png"><img alt="" height="543" src="https://stat.ameba.jp/user_images/20221213/11/imai7777/1c/1b/p/o0854110415215693054.png" width="420"></a></p><h3>今ままでの問題点</h3><ol><li aria-level="1" dir="ltr"><p dir="ltr" role="presentation">システムが複雑になりがち<br>バリデーションやデータ結合システム、学習データ加工するシステムとわかれていたり、似たようなことやっているのに、ctr/cvrなどでインスタンスが分かれていたりで、共通部分の修正の場合、リリースを複数回やらないといけない</p></li><li aria-level="1" dir="ltr"><p dir="ltr" role="presentation">igneiteを使っているシステムで定期的にOOMが発生する</p></li><li aria-level="1" dir="ltr"><p dir="ltr" role="presentation">インフラコスト</p></li></ol><h3 dir="ltr" role="presentation"><br>新学習データ基盤の構成</h3><p dir="ltr" role="presentation"><br>刷新後はバリデーションや正例負例作成システムや学習データの加工のシステムを１つにまとめました。</p><p dir="ltr" role="presentation">ctr/cvrの学習データを作成するのも１つのシステムで担うので、コストや複雑化の回避を図っています。</p><p dir="ltr" role="presentation">また、今までigniteが担っていた役割をredisに任せ、キースペース通知でttlイベントを拾い、遅延してくるclick,cvデータを紐づけています。</p><p dir="ltr" role="presentation">（<s style="text-decoration:line-through;">kinesisファミリーを使うプランもありましたが、コスト的に断念</s>）<br><br><a href="https://stat.ameba.jp/user_images/20221213/11/imai7777/d2/c2/p/o1122107815215693078.png"><img alt="" contenteditable="inherit" height="404" src="https://stat.ameba.jp/user_images/20221213/11/imai7777/d2/c2/p/o1122107815215693078.png" width="420"></a></p><p dir="ltr" role="presentation">&nbsp;</p><h3 dir="ltr" role="presentation">実際にリリースしてみて</h3><p dir="ltr" role="presentation">完全切替えはまだできてないのですが、負荷テストやリリースしてみてですが、負荷的には大きな問題はなさそうで、コスト削減もできるのではないかと思います。</p><p dir="ltr" role="presentation">苦労している点は既存システムのデータと刷新システムのデータでそれぞれモデルを作って、オフラインのメトリクスで差分があった際の調査方法ですかね。</p><p dir="ltr" role="presentation">ここは何か良い方法を考えていきたいです。</p><p dir="ltr" role="presentation">&nbsp;</p>
]]>
</description>
<link>https://ameblo.jp/imai7777/entry-12779134799.html</link>
<pubDate>Wed, 21 Dec 2022 05:50:29 +0900</pubDate>
</item>
<item>
<title>冷やし葱そば</title>
<description>
<![CDATA[ <p><br></p><p>今年も始まったので、行ってきました。</p><p><br></p><p>年々、並びが長くなっている気がする。</p><p><br></p><div><a href="https://stat.ameba.jp/user_images/20210720/05/imai7777/e9/6b/j/o1080128214974677588.jpg"><img src="https://stat.ameba.jp/user_images/20210720/05/imai7777/e9/6b/j/o1080128214974677588.jpg" border="0" width="400" height="474" alt=""></a></div><p><br></p>
]]>
</description>
<link>https://ameblo.jp/imai7777/entry-12687445036.html</link>
<pubDate>Tue, 20 Jul 2021 05:29:52 +0900</pubDate>
</item>
</channel>
</rss>
