まますさん @mamas16k profile

まますさん

@mamas16k

Followers

6,707

Following

5,208

Media

856

Statuses

54,426

kgs出身のシナモン/囲碁(野狐8段)/Kaggle Grandmaster(🥇0🥈2🥉1)/フォロー返し間に合ってません/発言は私の見解ではありません

https://t.co/ODFwNmaAgN

kgs go server

Joined December 2010

Don't wanna be here? Send us removal request.

Explore tweets Explore followers Explore following

Explore trending content on Musk Viewer

Cheney • 316130 Tweets

Eagles • 174959 Tweets

Uruguay • 60662 Tweets

Suárez • 51307 Tweets

श्री गणेश • 48849 Tweets

#SmackDown • 48519 Tweets

Saquon • 44968 Tweets

Peacock • 40904 Tweets

Giants • 40803 Tweets

गणपति बप्पा • 39104 Tweets

1 Day Left For Avataran Diwas • 38793 Tweets

Jalen • 37034 Tweets

Green Bay • 32218 Tweets

Paraguay • 28232 Tweets

Philly • 27990 Tweets

#GaneshChaturthi • 26876 Tweets

#GBvsPHI • 26122 Tweets

#GoPackGo • 16078 Tweets

Lord Ganesha • 13754 Tweets

#二度と撮れない画像を貼れ • 13025 Tweets

Jayden Reed • 11662 Tweets

Fritz • 11579 Tweets

Jordan Love • 11108 Tweets

Tiafoe • 10864 Tweets

BOSSNOEUL Q5 TBNW • 10783 Tweets

Lucho • 10740 Tweets

Lynx • 10416 Tweets

Wisdom & Prosperity • 10020 Tweets

Christian Watson

竹と衝突

Jason Kelce

Kellen Moore

コミックDAYS読み切り

Kike Olivera

Sinisterra

金ボーダー

Lapadula

アーリー

埼京線の人身事故

Nakobe Dean

Bielsa

オカシラ連合

Mark Vientos

Enner

ドリボ一般

AJ Brown

Maddox

Jaire

Josh Jacobs

ビッグラン

Last Seen Profiles

@cryodao

@AboMatild

@mtnbke

@yetyvow

@IndianaFever

@Nouchka__9

@realAlexHain

@swanhrt

@TribhuvanLaLLa1

@Emriquegiraldo

@urquiagajf_MD

@Sourabh01255932

@OchiengElvis15

@bsilvaa1_

@queen_lacrosse

@BkkPppdan

@ProxyRotator

@Mextrellaes

@mystikalmari

@ColegioMedicoCB

Pinned Tweet

まますさん

@mamas16k

3 years

Kaggle Competitions Grandmaster (all gold😊) !!!!!

25

16

579

まますさん

@mamas16k

11 months

これ世界一難しいんだよね。LINEの機種移行は一つのプロジェクトだという気持ちを持って集中してやらないとほぼ失敗する。疲れた状態でやったりするのは絶対ダメ。

深津貴之 / THE GUILD

@fladdict

11 months

機種移行にに失敗し、無事にLINE会話の過去ログが全消しされました

6

71

477

3

1K

4K

まますさん

@mamas16k

5 months

この話題、非常に残念だけど河野太郎が7年前に既に結論を出してるんよね。博士が要らないのではなく、「大量の高齢者を支えることに手一杯で科学技術に国費で投資する余裕はありません」という非常にシンプルな結論。まあ、種もみを食って生きてる農家みたいなもんやね。

kota matsui

@matsui_kota

5 months

ジャッパンって博士人材不足してるんですか？てっきりいらないからもっと減らせって方向に進んでるのかとおもってた

0

26

111

12

1K

3K

まますさん

@mamas16k

1 year

綺麗なコードとか以前に、もう2023年なんだから機械学習プロジェクトやるなら以下の4点セットは導入して欲しい。 - GitHub Actions / Circle CI等のCI/CDツール - poetry + Dockerを用いた環境構築 (condaは避ける) - flake8, isort, mypy, black等のformatterとlinter - pytestかunittest

5

197

2K

まますさん

@mamas16k

3 years

ネタじゃなくマジな話、正直フルリモートの企業と毎日出社の企業だったら年収めちゃくちゃ差ないと割に合わないと思う。単純な話、通勤時間の分はタダ働きなわけだし。

4

352

1K

まますさん

@mamas16k

2 years

windows/mac/linux論争、正解は「全部使う」で間違いないと思う

12

240

1K

まますさん

@mamas16k

1 year

・eman ・金沢工業大学・物理のかぎしっぽ・高校数学の美しい物語の4つが上がるかなという感じ。高校数学の美しい物語は名前に反して書いてる人は大学数学もちゃんと分かってるから普通に使える

0

115

799

まますさん

@mamas16k

6 years

「〜社インターン合格しました！」とか「〜社受かりました！」系のイキリ、まさに虎の威を狩る狐で美学に合わない。やっぱり「〜社のチームをKaggleでボコボコにしてやりました！」をドンドンやっていきたい

1

132

714

まますさん

@mamas16k

3 years

日本の大学院って基本的にコースワーク型じゃないので、「学び直したい社会人」とはマッチしてないんよね。（箔を付ける目的ではなく）本当に学び直しをしたいなら学部に入る必要があるという。。。

Fumihiko Shiroyama

@fushiroyama

3 years

大学院、正直もうしんどくてしょうがないので何でも良いので修了して早く競プロの精進などに時間を使いたい… ひたすらコンピュータサイエンスの単位を取りまくっているうちは楽しかったが、僕はどうも研究は向いていなかったようだ…

12

113

1K

3

196

728

まますさん

@mamas16k

4 years

最近色々論文読んで実験してて思うけど、ML系の研究って、マジで再現性のないアンフェアな実験に基づいたプレゼン大会と化してるよな。。。これほんまにやってて楽しいのかよ

2

95

715

まますさん

@mamas16k

2 years

コンペ、研究、仕事等で得た自分の最終的な結論・特徴選択：性能的には無意味（計算時間削減の意味あり）・imbalance対策：性能的には無意味（計算時間削減の意味あり）・ハイパラチューン：テーブルデータはデフォルトでOK。タスクによっては地獄。・データ固有の前処理/後処理：無敵。最強。

0

60

596

まますさん

@mamas16k

2 years

Ascender、本当にベストプラクティスが詰まってるので、Pythonでカッチリ開発するなら（環境構築含めて）これに従うのが最善だと思う。自分はこれをカスタマイズしたものを仕事で使ってる。

GitHub - cvpaperchallenge/Ascender: Accelerator of Scientific Development and Research. A project...

Accelerator of Scientific Development and Research. A project template developed by XCCV group of cvpaper.challenge. - cvpaperchallenge/Ascender

github.com

1

57

587

まますさん

@mamas16k

4 years

前から思ってたけど、ツイッターってよく言われる「ゲーム作ろうとしてゲームエンジン作るタイプの人」の割合が現実世界を比べて高すぎる気がする

4

148

552

まますさん

@mamas16k

2 years

現実は、「特徴量エンジニアリングを含めた前処理がもっとも重要で、モデルはデフォルトのGBDT使っとけばOK」っていうものだから、Feature Store的な方面は良いけど、頑張ってベイズ最適化でモデルをチューニングするAutoML的方面ははっきり言って殆ど意味がない。ついでに論文も再現性がない。

1

88

559

まますさん

@mamas16k

4 years

Riiid! Answer Correctness Prediction、Public/Private共に2位でソロ準優勝し、賞金3万ドルを獲得しました！応援して下さった皆様、本当にありがとうございます！優勝出来なかったことは悔しいですが、nyanp, pocket, kurupical, Ahmetチーム等の皆さんと切磋琢磨できて本当に最高の大会でした！

31

25

550

まますさん

@mamas16k

6 years

kaggle, 有名になり過ぎて専門家が殴りこんで来てしまう

2

165

515

まますさん

@mamas16k

3 years

たまに凄い頭いい（数学めちゃ出来てガチ理論の本も正確に理解できる）けど情報収集力が低いタイプの人が居て、そういう人はたぶんエロゲmod入れの経験が足りないんだと思ってる

1

72

485

まますさん

@mamas16k

5 years

GPA3.73で、（学科）首席でした

11

16

451

まますさん

@mamas16k

4 months

「この人統計屋だよね？」と思って読んだら滅茶苦茶良い記事だった。全人類読むべきだと思う。

Willy OES ☀

@willyoes

4 months

為替の解説なんてプロのエコノミストに任せればいいじゃん....と思ってたけど満足のいく解説がないので自分で書きました。政策面からドル円相場を知りたい方におすすめ！ #円安 #為替 #日銀 #財務省 #投資 #NISA

6

360

2K

2

52

454

まますさん

@mamas16k

3 years

ヤフコメ、何故あそこまで酷い治安になったかというとネットリテラシーゼロの中年層がyahooトップページからすぐ見られるからってのがありそう。goodとbadなくして、コメント表示順をランダムにするだけでマシになると思うんだが

1

85

443

まますさん

@mamas16k

5 years

シナモンが金メダルを3つ取ってKaggle Masterになるまでにやったこと - mamastan’s blog

どうも、Kaggle界のシナモンです。https://twitter.com/mamas16k シナモンはKaggleを一旦やめる予定です。これを機に、これまでやってきたことをまとめようと思います。機械学習を始める前（高校～学部1年の夏まで）機械学習を始める & 勉強期間（学部1年の夏～学部2年の2月） ALBER…

mamastan.hatenablog.com

1

78

391

まますさん

@mamas16k

1 year

こちらKaggle Grandmaster & AHC赤の激強同期が書いた、機械学習 on AHCに関する資料です！興味ある方は是非ご覧ください🙇‍♂️

ヒューリスティックコンテストで機械学習しよう

2023/8/10のDeNA/Go AI技術共有会の発表資料です。

speakerdeck.com

0

64

395

まますさん

@mamas16k

5 months

本当にこれ。gitの使い方で困ることがなくなった気がする。

だみ〜

@guiltydammy

5 months

ChatGPT出てきて個人的に一番うれしかったのは、Gitの使い方を無限に聞けることやね。完全にGitマスターだもんな。

0

18

119

0

50

384

まますさん

@mamas16k

1 month

ABテストに関して、「そもそも有意差をチェックする必要があるような効果が薄い施策を打つなよ😡」って知り合いが暴言を吐いてて笑ってしまった

0

82

383

まますさん

@mamas16k

1 year

自分がjupyterのことをjupyterって呼ぶのは��れが理由なんだよね。仮にjupyterって呼ぶとすると、pythonのことをpythonって呼ぶのか？って話になってしまうので。

yyama

@YYama0

1 year

jupyterってjulia、python、Rの頭文字を由来としていたのか…知らんかった。

4

74

452

1

74

371

まますさん

@mamas16k

2 years

「SVM/Naive Bayes/GBDT/RF/NNなど、データごとに良いモデルは違って、それらをチューニングしてアンサンブルするのが重要だ」っていう神話（大嘘）を信じ込んでいる人間が一部存在してるのがたぶん真の問題なんだよな。

2

59

370

まますさん

@mamas16k

2 years

この記事、マジで神よ

Slackのメッセージをバックアップ

Slackにおける自分が閲覧できる範囲のチャンネルやDMをJSON��式でダウンロードできる、slack-dumpというソフトウェアがあります

www.takameron.info

0

68

354

まますさん

@mamas16k

4 years

Transformer: 遠くを見るのが得意 LSTM: 近くを見るのが得意っていうのをちゃんと認識するのが大事なんだよな

1

28

337

まますさん

@mamas16k

5 years

「先行研究は～～～が出来ない（嘘）、提案手法は～～～が出来る」みたいなことをcontributionとして書いて普通にアクセプトされてる論文を読んだんだが、結局査読者が先��研究について詳しく知らなきゃ当然バレないので、まあそういうことだよな

1

58

313

まますさん

@mamas16k

11 months

もちろん本質的な問題は複数端末からログイン出来ないことだね

0

24

303

まますさん

@mamas16k

5 years

3個目の金メダルを取ってなんとかKaggle Masterになりました。これまでチームを組んで下さった方々、応援して下さった方々には本当に感謝の気持ちしかないです・・・！

14

17

275

まますさん

@mamas16k

3 years

「（体言止め）、」で始まる文章、文の構造として曖昧だし日本語としてもダメだと思うんだよな。これ使う人は小学生の国語からやり直して欲しい。

2

47

273

まますさん

@mamas16k

1 year

内容が何もかも浅くて笑ってしまった。文字しか送らないわけで、生成AIで通信量とかほとんど誤差でしょ。。

森山大朗(たいろー) Work in Tech!

@tairo

1 year

新たなAI時代の本命はAppleかも？って話です。 OpenAIとMicrosoft連合がその火蓋を切って落とした「生成AI大戦争」ですが、彼らにも弱みが。 ■ ChatGPTやLLM(大規模言語モデル)の弱点・リクエストの度に膨大な計算量が必要・通信にも時間がかかる

60

844

6K

2

31

272

まますさん

@mamas16k

3 years

全く同意なので、「修士課程で学び直し！」みたいな人は現実をよく知って欲しい

0

34

266

まますさん

@mamas16k

3 years

Indoor、準優勝でした！本当に最高のチームで、もし誰か一人でも欠けていたらこの結果は出ていなかったと思います。応援して下さった皆様もありがとうございました。

20

5

271

まますさん

@mamas16k

5 years

SVM、謎に上げられることが多いが、実際は低い精度、（行数が多いと）爆発する計算時間、（kernelによるけど）解釈性もポンコツ、という三重苦なので、理論的な話とマウントぐらいにしか使えないと思ってる

2

63

262

まますさん

@mamas16k

5 months

トップジャーナルであるEconometricaに複数本論文を通してる成田が研究実績ないって本気で言ってるんだろうか。 peer reviewが何なのかも理解出来てなさそうだし、こういうツイートを見るとやっぱり査読付き学会/ジャーナルに通す経験って無為に見えて価値あるなー、と思う。

KoutaOnaga

@KoutaOnaga

6 months

【成田信者よ、いいかげん目を醒せ】成田悠輔氏の同業者からの評価（peer review）がこちら。 NYT の記者も言ってたが彼のアカデミアにおける実績はほぼほぼない。

25

561

832

1

50

266

まますさん

@mamas16k

5 years

競プロとか関係なく一般的な話なんだけど、ある程度以上時間をつぎ込んだものって、自分の精神的安定のためにも、今後の自分の利益になるという意味でも、人間って必然的に肯定するバイアスが働いてる気がするんだよね。なので、実は「長くやってる人の意見」ほど信頼出来ないものはないと思ってる

1

62

254

まますさん

@mamas16k

4 years

やはり内発的動機が弱い人は研究者はやっちゃダメなんだろうなあ。競争として見るとズルしたもん勝ちのそれっぽさを競うプレゼン大会じゃね？としか俺には思えなかったし、そもそもこういう見方で見てしまうこと自体が間違ってて向いてないんだろうな

1

42

251

まますさん

@mamas16k

2 years

これ読んでたけどマジよく出来てるなあ。全員これ使った方が良さそう。

GitHub - cvpaperchallenge/Ascender: Accelerator of Scientific Development and Research. A project...

Accelerator of Scientific Development and Research. A project template developed by XCCV group of cvpaper.challenge. - cvpaperchallenge/Ascender

github.com

0

19

244

まますさん

@mamas16k

5 years

PC遠隔操作事件で確実な冤罪なのに何人も自白した人がいることは絶対忘れてはいけないと思う

2

89

237

まますさん

@mamas16k

4 years

線形回帰のような単純なモデルって人間の目から見ると一見仮定が少ないように見えるけど、実際は仮定の強さって意味でいえば深層学習と比べてはるかに強い（だから性能が悪い）ので、むしろオッカムの剃刀っていう立場から見たら深層学習の方がベター、っていうことにはならない？

4

44

231

まますさん

@mamas16k

1 year

テーブルデータの欠損値、機械学習の精度向上的な意味ではそもそも埋めないのがキホンであることは再掲しておきたいと思います。（ちなみにNNを使うケースは0埋めする）

まますさん

@mamas16k

6 years

欠損値、kaggle的にはそもそも埋めないのが基本で、それを用いてfeature engineeringを行う必要がある場合はoofで埋めるのが基本だと思う。

1

6

67

1

15

233

まますさん

@mamas16k

5 years

callbackで取れるのか・・・これはマジで何百人もの需要があると思う、凄い Python: LightGBM の cv() 関数から学習済みモデルを得る - CUBE SUGAR CONTAINER

Python: LightGBM の cv() 関数から学習済みモデルを得る - CUBE SUGAR CONTAINER

(2020-09-05 追記) LightGBM v3.0.0 から cv() 関数に return_cvbooster オプションが追加されました。これにより直接 CVBooster のインスタンスが取得できるため、下記のコールバックを使う必要はなくなりました。勾配ブースティング決定木を扱うフレームワークの一つで…

blog.amedama.jp

1

26

227

まますさん

@mamas16k

3 years

top会議に採択されたポンコツ手法、他の人が試したら再現性のないポンコツなことが判明して誰にも使われてなくても業績としてプラス評価になるから謎だよな。世界にとってその論文の存在自体がマイナスだと思うが

2

45

222

まますさん

@mamas16k

1 year

あんまり機械学習の論文読みたくない理由として、再現性が低すぎるからなんだよな。kaggleで使われるレベルまで到達してればまだしも、そうじゃないものって大体ジャンク情報なので、読む利益が少ないと感じてしまう。

0

30

223

まますさん

@mamas16k

2 years

kaggle弱い人あるあるで草

Mark Tenenholtz

@marktenenholtz

2 years

The WRONG way to significantly improve your models: • Different architecture • Hyperparameter tuning • Bigger ensemble The RIGHT way: • Thorough EDA • Meticulous error analysis • Robust model evaluation Spend your time on the 100%+ gains, not the 1% gains.

19

221

1K

1

24

222

まますさん

@mamas16k

11 months

古いサービスだから技術負債が大きすぎてあんなに酷い事になってるんだと思う

1

17

216

まますさん

@mamas16k

1 year

この4点セットが入ってたらコードの質も自然と担保される方向に進んでいくと思う（たぶん）ので、まずはここから始めて欲しい。つまり何が言いたいかというとcvpaperchallengeのAscenderを使ってみて欲しい。

GitHub - cvpaperchallenge/Ascender: Accelerator of Scientific Development and Research. A project...

Accelerator of Scientific Development and Research. A project template developed by XCCV group of cvpaper.challenge. - cvpaperchallenge/Ascender

github.com

0

28

221

まますさん

@mamas16k

2 years

超有能な同期のTransfomerまとめ記事です！！！かなり読み応えのある内容になってますので、ChatGPT等でTransformerに興味を持った方はぜひご覧ください 🙇‍♂️🙇‍♂️🙇‍♂️

株式会社ZENKIGEN

@zenkigen_corp

2 years

📣ZENKIGEN技術ブログを更新📣 『30分で完全理解するTransformerの世界』 Transformerという深層学習のモデルをこれでもかというほど解説しています！💥 データサイエンティストの方やディープラーニングに興味がある方、ぜひご覧ください。 #survey #transformer

0

93

548

0

25

215

まますさん

@mamas16k

1 year

これ4年くらい主張してる。分かってない人が結構多いんだよな。

Jack

@sakata_ryuji

1 year

feature importanceで特徴量選択を行うのは、改めて相当注意しないといけないと感じた。CVでimportanceの平均を取って特徴量選択を行うと不当にCVが上がる、つまりリークする。なので、バリデーションの際はfold毎に特徴量選択を行う必要がある。ここは今後も注意したい。

0

18

303

3

17

213

まますさん

@mamas16k

2 years

k分割交差検証、計算コストに見合わないので結局しないという結論に自分は達したな。GBDTならholdoutした後に全データ学習、NNだと全データ学習は厳しいので常にholdout。

2

14

212

まますさん

@mamas16k

2 years

ここで教授として本来言うべきことって、「多くの方から学内窓口が信頼されていないという現実を受け止め、改善されるよう学内で働きかけていきます」みたいな内容なのかなと思うんですよね

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません

@Yh_Taguchi

2 years

これは通報が事実の場合ですよね。主観的には事実でも客観的には虚偽だったら、学生は、当然、名誉毀損で訴えられる可能性がある。まず外に相談しろとアドバイスしている人はその責任をとれるんだろうか？

7

48

37

0

70

197

まますさん

@mamas16k

4 months

「生成AIが進歩しても〜〜はなくならない」ってやつ、9割はただのポジショントークで願望に近いと思う。例外は、「ブルーワーカーはなくならない」と「資本家はなくならない」だけかな。

2

18

200

まますさん

@mamas16k

1 year

〜condaを上手く使うコツ〜 1. そもそもcondaを使わない 2. 完

1

20

196

まますさん

@mamas16k

3 years

12月なので今年のベストkaggle notebookを挙げるなら、やはりsaito氏のcost minimizationは非常に強く推薦したい。上位解法のほぼ全てがこれを使用 or 拡張しているという異例の事態だったので。位置推定コンペ以外で使えないのが難点だけど。

Background Ideas of "Cost Minimization" Notebook

Explore and run machine learning code with Kaggle Notebooks | Using data from Indoor Location & Navigation

www.kaggle.com

1

9

194

まますさん

@mamas16k

6 years

Kaggle三銃士を連れてきたよ

1

44

182

まますさん

@mamas16k

3 years

こういう訳の分からない記事を見てるとやっぱりTJO氏のブログって偉大だなと思う。たまに不適切な表現もあるかもだが、どの記事を見ても技術記事で上位1割以上のクオリティがあるので。

1

15

183

まますさん

@mamas16k

3 years

コードも公開せず再現性も全くない論文出してる方々（残念ながら大多数）よりもOSSコントリビューターの方がよっぽど社会に貢献してると思ってる

4

28

177

まますさん

@mamas16k

4 years

卒論がACCV Accepted！！！良かった！

10

4

173

まますさん

@mamas16k

1 year

根本的な問題は実験管理で、 - 1実験1script型 (, , ...) - 1実験1config型 (exp001.yaml, exp002.yaml, ...) を比較したときに前者の方が効率が良いケースが多数存在するのが悪いんだよな。後者のやり方は後方互換性を維持するのがかなり難しい。

1

20

176

まますさん

@mamas16k

1 year

今のところの自分のChatGPTの使い道・SQL ・正規表現の生成・書き捨てのPythonスクリプト/シェルスクリプト・ちょっとした可視化のコードサンドボックス環境を与えられるとなるとかなり話が変わってきそう。

1

12

175

まますさん

@mamas16k

6 months

Sakana AIの取り組み、VLMとLLMをマージ出来るってのはかなり衝撃的だし、（研究として）凄い発見だと思う。てか、akibaさんのこの動画は匂わせだったのか。笑

深層学習に詳しい人ほど知らない？LLM・拡散モデルの謎テクニック

この動画は壁Advent Calenrder 17日目の記事です。最近流行っている大規模言語モデルと拡散モデル。最近のアカデミア畑と実応用畑との間には大きな「壁」があり、実応用では当たり前に使われているテクニックがアカデミアには新鮮に映ったり・・・そんな謎テクニックのいくつかを、2人のキャラクターが解説していきます

www.youtube.com

0

16

173

まますさん

@mamas16k

3 years

初学者に風当たりが強いのはダメだけど逆に情報商材屋には風当たり強くしないとダメなんだよな

Kazuya Gokita

@kazoo04

3 years

IT界隈、年々初学者に対する風当たりが強くなってきている気がしていて、うかつに技術ブログも書けない世界になってるんじゃないかと思うまあ私もあんまりにもあんまりな記事とかはウワッてなるのは確かだけど、過剰にバッシングするのは業界全体が先細っていくんじゃないかな

2

175

695

2

32

170

まますさん

@mamas16k

5 years

たとえば精度を上げるアイデアが10個あって、それをちゃんとtrain/val/testに切った上で評価して、どれか一つのアイデアが当たって論文にしたとする。そこで「それはお前が10回もtest set見たからだろ？」って言われたらどうするんだろう

2

47

161

まますさん

@mamas16k

8 months

GBDTが上手く動かない -> ほぼ確実にデータが悪い。GBDTが悪いケースはほぼない。ニューラルネットが上手く動かない -> データが悪いのかニューラルネットが悪いのかは不明。なので問題の切り分けが難しくなるよね。分かるのは自分が悪いということだけ。

K_mat

@Kmat67916008

8 months

なんかNNさわるといつも、「ここを意識しろ」とか「このへんは切り分けて考えてほしい」とか、感覚的な謎の調整に時間を要する。隣のgbdtちゃんは素直ないい子なのに。

1

0

41

0

12

166

まますさん

@mamas16k

2 years

大規模言語モデル、既に内部的には単なるパターン認識じゃなくてロジックも獲得しているのは間違いなくて、今後はそれが証明され続けることになると思う

1

40

163

まますさん

@mamas16k

2 years

（日本人以外も含めて）色んな友達と話してると、kaggleの実績というよりkaggle関係のコネで転職した人が多数いるらしいということが分かった。公開してないだけで。技術を学ぶ：コネを作る＝3 : 7ぐらいの説ありそう。

2

11

164

まますさん

@mamas16k

3 months

不均衡データ、特に有効なモデル側の手立てはないから何もしない方が良いって30年ぐらい前から結論出てるよな。いや、頑張って負例のデータを増やせとかそういう話は当然あるけど。

1

22

164

まますさん

@mamas16k

2 years

自分のパターンだと、学業の手を抜かずにKaggleとバイトをやった結果、普通に倒れた。結局学科で首席だったけど、色んなものを失ったし、本当に後悔している。

3

11

160

まますさん

@mamas16k

6 months

これ自分も大学1年生のとき疑問だった記憶あるなあ。結局のところ、扱う微分方程式の解の一意性が担保されているのであれば、別にどんな手段で解を見つけても問題ないんですよね。極論、「神が降りてきた」って言って途中経過を書かなくても全く問題ない。

みや

@KEI_Ichinomiya

6 months

振動工学の授業で当時謎だったこと：・「解はAcos(wt)と仮定すると」←なんで分かるんだよ。解が分からなくて今困ってるのに解を先に与えないでよ・「一般解と特解を足したのが答えで」←解と解を足すとは？じゃあ一般解と特解って解じゃないの？・「特性方程式によると」←2階微分がs^2になるとは

7

90

679

1

24

162

まますさん

@mamas16k

3 years

にゃおー！😁 そういえば昨日就活を終えました😊

11

0

163

まますさん

@mamas16k

1 year

何故CV分野がNLP分野と比べてあまり成功してないかというと、自己教師あり学習が上手く行ってないからだと思うんだよな。具体的には、SimCLRみたいなしょうもない手法じゃなくて、未来のフレームを直接予測する問題を解く必要があると思う。

1

15

158

まますさん

@mamas16k

3 years

pandasで速いコードを書きたかったらiterrowsとapplyとtransformを使うなおじさん「pandasで速いコードを書きたかったらiterrowsとapplyとtransformを使うな」

ML_Bear

@MLBear2

3 years

初めの図のようなfuncの処理を行いたい時、df.applyするよりvectorization(?)処理にすると100倍速いよと書いてる記事があって参考になった😇 別記事曰くnp.vectorizeでも同じことができるらしい。こっちは変換時間(?)分不利だけど脳死で書けるので楽

0

46

295

0

12

149

まますさん

@mamas16k

3 years

雑多な信頼度もバラバラのネットに広がった情報から必要なものをツギハギで探す能力ってのは確かにあって、これは信頼度が高いものを正確に理解する能力と全然話が違う気がしている

0

25

145

まますさん

@mamas16k

5 years

コード公開しない論文、大体嘘が混じってるのでは説をここ最近激しく感じている（全く再現出来ないし、必要な情報も書かれていない）

1

23

143

まますさん

@mamas16k

4 years

株価予測、マジでそれを使って儲けられるなら論文にする不利益大きすぎない？色々ごまかして書いてるのか、それとも他人に金を配るのが幸せだっていうなら分かる

4

11

148

まますさん

@mamas16k

6 months

BitNet、英語圏では大して話題になってもいないのに日本人の間でだけブレイクスルーということになってて笑える（デモや実装すら公開されてないのに）

3

17

146

まますさん

@mamas16k

5 years

learning rateの固定やearly stoppingについても正確に書いてあるしガチの神記事感がある。全員GBDT使う前にこれ読むべきだと思う

Gig

@glakeg1

5 years

良さげなGBDTのハイパラ説明書見っけた。LGBMとxgboostの名称の違いも書いてある

0

43

319

0

16

145

まますさん

@mamas16k

4 years

Riiidの2nd place solutionを公開しました！徹底的にtraining時のdata leakageを防いだのが良かったと思います。

Riiid Answer Correctness Prediction

Track knowledge states of 1M+ students in the wild

www.kaggle.com

0

13

143

まますさん

@mamas16k

3 years

これはとても良い指摘で、GBDTは外挿が出来ないのでトレンドを持ったデータを扱うのに向いてないのは事実。（だから、ARIMAと併用するのは重要だと思う）

1

13

142

まますさん

@mamas16k

1 year

SQL文、もう人間が書く必要一切ない気がする。精度もめちゃくちゃ高いし、ここに関しては既に90%以上置き替えられたかな。

0

13

140

まますさん

@mamas16k

3 years

なので、日本で「学び直しで大学院！」みたいな人を見ると申し訳ないけど自分は「箔を付けたい、というのが本音なのにそれを隠してるのかな？」ってつい思ってしまう。どう考えても学び直しに適した場所ではないので。。。

1

30

136

まますさん

@mamas16k

6 months

自分もフル活用はしてるけどむしろ逆で、今後の進化を見込めばエンジニアの職が最終的にリプレースされる可能性は非常に高いって思ってる

rm -rf wado

@rosso016

6 months

ChatGPT最近フル活用してて超便利だとは思うものの、同時に限界も感じるし、今後さらに超進化して全自動で完璧なプログラム書いてくれたりエンジニアほぼ全員が職を失うレベルまでいくかというと正直可能性は低い気がしてる

1

2

18

1

29

141

まますさん

@mamas16k

3 years

そもそもサンプルサイズでかいと有意になるのは当たり前なので検定自体をやる意味がないという話で毎回FAになってる気がする。検定が有用なのは「10%ぐらい差が出たけどデータ少ないからどれくらい信用していいか分からないよ😢」みたいなケースなので、1億レコードとか取れるならそもそも。

0

16

138

まますさん

@mamas16k

3 years

そもそもアカウント分けること自体が誤り。ワシは小中高大の友達、ネトゲの友達、囲碁関係の友達、kaggle関係の友達、よく分からない友達、エロ絵師（ここ一番多い）、好きなエロ同人サークル、全部同じアカウントでフォローしてる。

3

23

136

まますさん

@mamas16k

3 years

K-Fold CV、特徴選択時に使うと激しくoverfitするという地獄に気付いてからあまり使わないようになった。foldごとに特徴変えるのは地獄過ぎるからなあ。

1

5

137

まますさん

@mamas16k

6 months

この話題は何回も繰り返されてるが、「オープンアクセスデータにおける性能検証は何回でも二度漬けが出来るから信用出来ない」「正確に性能比較を行うなら、Kaggleのようにprivate leaderboardを用意し、二度漬けを確実に防ぐべき」で結論出てると思うんだよな。

uncorrelated

@uncorrelated

6 months

Bioinfomaticsのpublic domainのdataに対する性能改善手法の論文はほとんど研究不正？

0

16

55

1

21

135

まますさん

@mamas16k

2 years

Kaggle批判、理解出来るものはあるんだけど、マジ理解出来ないのは「実データじゃない」系のエアプ発言なんだよな。こういうのが実データじゃないなら実データって一体何？？「実データじゃないから簡単だろ？」ってエアプを激詰めしながら謎のjsonファイルとtxtファイルを前処理させる仕事がしたい。

1

12

130

まますさん

@mamas16k

5 years

「機械学習モデルの出力が確率か？」という話、たぶん実際に言いたいことは「機械学習モデルの出力はcalibrateされているのか？」という話なのではないかと疑っている

1

19

128

まますさん

@mamas16k

2 years

なぜtabular NN論文がオオカミ少年と化してしまっているかというと、たぶん著者の人たちが「GBDTを使う時は、学習率は小さければ小さいほど精度が上がる (with early stopping)」っていうことが分かってないからだと思うんだよね

1

10

128

まますさん

@mamas16k

4 years

とりあえず2nd place notebook ()を上げました。詳しいsolutionとsingle model notebookは明日上げます。

public/private 2nd place solution

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

1

14

129

まますさん

@mamas16k

3 years

海外だと研究型ではなくてコースワーク型の修士課程が��構あるらしいので、そういうのが日本にあったら良かったんだけども。

2

20

123

まますさん

@mamas16k

7 years

今日は本当にありがとうございました！プロkagglerの方たちから有用な情報をたくさん聞けてよかったです(*^^*) 今日の僕の発表のスライドです！ #kaggle_tokyo

0

24

124

まますさん

@mamas16k

3 years

バグ取ったら更に伸びて草。伸び代しかねえ

1

125

まますさん

@mamas16k

4 years

某JO氏のブログ、（日本語の上手さでぼやかしてるっていうのは分かるけど）流石に控えめに見ても技術ブログの中で上位1割ぐらいの質はあると思う

1

11

122

まますさん

@mamas16k

3 years

表現学習で精度を上げます系の研究、ただ収束が速くなっただけなのに途中のepochで学習を打ち切ることで精度が上がったように見せかけてるだけの割合がかなり多いのでは？と結構思ってる。同じepochで打ち切ってるので一見フェアな実験に見える

1

13

123

まますさん

@mamas16k

5 years

中田敦彦氏叩き、「qiitaはクソ！論文と公式ドキュメントだけ読め！」と同じ構図に見える

1

19

122

まますさん

@mamas16k

4 years

後、これスゲー大事な話だから実は言いたくないんだけど、手作り特徴をconcatして学習する場合、mixed precision trainingは使わないほうがいいすよ（4桁目以降が重要な場合って普通にあるので、めっちゃ精度落ちる）

1

2

121

まますさん

@mamas16k

4 years

彼女や配偶者がいないとD進出来ない、みたいな主張をする人ツイッターに多いけど、むしろ彼女や配偶者がいたら（相手との人生を真剣に考えるのであれば）D進出来なくなるのでは・・・？

4

27

116