まますさん Profile Banner
まますさん Profile
まますさん

@mamas16k

Followers
6,707
Following
5,208
Media
856
Statuses
54,426

kgs出身のシナモン/囲碁(野狐8段)/Kaggle Grandmaster(🥇0🥈2🥉1)/フォロー返し間に合ってません/発言は私の見解ではありません

kgs go server
Joined December 2010
Don't wanna be here? Send us removal request.
Explore trending content on Musk Viewer
Pinned Tweet
@mamas16k
まますさん
3 years
Kaggle Competitions Grandmaster (all gold😊) !!!!!
Tweet media one
25
16
579
@mamas16k
まますさん
11 months
これ世界一難しいんだよね。LINEの機種移行は一つのプロジェクトだという気持ちを持って集中してやらないとほぼ失敗する。疲れた状態でやったりするのは絶対ダメ。
@fladdict
深津 貴之 / THE GUILD
11 months
機種移行にに失敗し、無事にLINE会話の過去ログが全消しされました
6
71
477
3
1K
4K
@mamas16k
まますさん
5 months
この話題、非常に残念だけど河野太郎が7年前に既に結論を出してるんよね。 博士が要らないのではなく、「大量の高齢者を支えることに手一杯で科学技術に国費で投資する余裕はありません」という非常にシンプルな結論。 まあ、種もみを食って生きてる農家みたいなもんやね。
Tweet media one
@matsui_kota
kota matsui
5 months
ジャッパンって博士人材不足してるんですか?てっきりいらないからもっと減らせって方向に進んでるのかとおもってた
0
26
111
12
1K
3K
@mamas16k
まますさん
1 year
綺麗なコードとか以前に、もう2023年なんだから機械学習プロジェクトやるなら以下の4点セットは導入して欲しい。 - GitHub Actions / Circle CI等のCI/CDツール - poetry + Dockerを用いた環境構築 (condaは避ける) - flake8, isort, mypy, black等のformatterとlinter - pytestかunittest
5
197
2K
@mamas16k
まますさん
3 years
ネタじゃなくマジな話、正直フルリモートの企業と毎日出社の企業だったら年収めちゃくちゃ差ないと割に合わないと思う。単純な話、通勤時間の分はタダ働きなわけだし。
4
352
1K
@mamas16k
まますさん
2 years
windows/mac/linux論争、正解は「全部使う」で間違いないと思う
12
240
1K
@mamas16k
まますさん
1 year
・eman ・金沢工業大学 ・物理のかぎしっぽ ・高校数学の美しい物語 の4つが上がるかなという感じ。高校数学の美しい物語は名前に反して書いてる人は大学数学もちゃんと分かってるから普通に使える
0
115
799
@mamas16k
まますさん
6 years
「〜社インターン合格しました!」とか「〜社受かりました!」系のイキリ、まさに虎の威を狩る狐で美学に合わない。やっぱり「〜社のチームをKaggleでボコボコにしてやりました!」をドンドンやっていきたい
1
132
714
@mamas16k
まますさん
3 years
日本の大学院って基本的にコースワーク型じゃないので、「学び直したい社会人」とはマッチしてないんよね。(箔を付ける目的ではなく)本当に学び直しをしたいなら学部に入る必要があるという。。。
@fushiroyama
Fumihiko Shiroyama
3 years
大学院、正直もうしんどくてしょうがないので何でも良いので修了して早く競プロの精進などに時間を使いたい… ひたすらコンピュータサイエンスの単位を取りまくっているうちは楽しかったが、僕はどうも研究は向いていなかったようだ…
12
113
1K
3
196
728
@mamas16k
まますさん
4 years
最近色々論文読んで実験してて思うけど、ML系の研究って、マジで再現性のないアンフェアな実験に基づいたプレゼン大会と化してるよな。。。これほんまにやってて楽しいのかよ
2
95
715
@mamas16k
まますさん
2 years
コンペ、研究、仕事等で得た自分の最終的な結論 ・特徴選択:性能的には無意味(計算時間削減の意味あり) ・imbalance対策:性能的には無意味(計算時間削減の意味あり) ・ハイパラチューン:テーブルデータはデフォルトでOK。タスクによっては地獄。 ・データ固有の前処理/後処理:無敵。最強。
0
60
596
@mamas16k
まますさん
2 years
Ascender、本当にベストプラクティスが詰まってるので、Pythonでカッチリ開発するなら(環境構築含めて)これに従うのが最善だと思う。自分はこれをカスタマイズしたものを仕事で使ってる。
1
57
587
@mamas16k
まますさん
4 years
前から思ってたけど、ツイッターってよく言われる「ゲーム作ろうとしてゲームエンジン作るタイプの人」の割合が現実世界を比べて高すぎる気がする
4
148
552
@mamas16k
まますさん
2 years
現実は、「特徴量エンジニアリングを含めた前処理がもっとも重要で、モデルはデフォルトのGBDT使っとけばOK」っていうものだから、Feature Store的な方面は良いけど、頑張ってベイズ最適化でモデルをチューニングするAutoML的方面ははっきり言って殆ど意味がない。ついでに論文も再現性がない。
1
88
559
@mamas16k
まますさん
4 years
Riiid! Answer Correctness Prediction、Public/Private共に2位でソロ準優勝し、賞金3万ドルを獲得しました!応援して下さった皆様、本当にありがとうございます! 優勝出来なかったことは悔しいですが、nyanp, pocket, kurupical, Ahmetチーム等の皆さんと切磋琢磨できて本当に最高の大会でした!
Tweet media one
31
25
550
@mamas16k
まますさん
6 years
kaggle, 有名になり過ぎて専門家が殴りこんで来てしまう
Tweet media one
Tweet media two
Tweet media three
2
165
515
@mamas16k
まますさん
3 years
たまに凄い頭いい(数学めちゃ出来てガチ理論の本も正確に理解できる)けど情報収集力が低いタイプの人が居て、そういう人はたぶんエロゲmod入れの経験が足りないんだと思ってる
1
72
485
@mamas16k
まますさん
5 years
GPA3.73で、(学科)首席でした
Tweet media one
11
16
451
@mamas16k
まますさん
4 months
「この人統計屋だよね?」と思って読んだら滅茶苦茶良い記事だった。全人類読むべきだと思う。
@willyoes
Willy OES ☀
4 months
為替の解説なんてプロのエコノミストに任せればいいじゃん....と思ってたけど満足のいく解説がないので自分で書きました。政策面からドル円相場を知りたい方におすすめ! #円安 #為替 #日銀 #財務省 #投資 #NISA
6
360
2K
2
52
454
@mamas16k
まますさん
3 years
ヤフコメ、何故あそこまで酷い治安になったかというとネットリテラシーゼロの中年層がyahooトップページからすぐ見られるからってのがありそう。goodとbadなくして、コメント表示順をランダムにするだけでマシになると思うんだが
1
85
443
@mamas16k
まますさん
1 year
こちらKaggle Grandmaster & AHC赤の激強同期が書いた、機械学習 on AHCに関する資料です!興味ある方は是非ご覧ください🙇‍♂️
0
64
395
@mamas16k
まますさん
5 months
本当にこれ。gitの使い方で困ることがなくなった気がする。
@guiltydammy
だみ〜
5 months
ChatGPT出てきて個人的に一番うれしかったのは、Gitの使い方を無限に聞けることやね。完全にGitマスターだもんな。
0
18
119
0
50
384
@mamas16k
まますさん
1 month
ABテストに関して、「そもそも有意差をチェックする必要があるような効果が薄い施策を打つなよ😡」って知り合いが暴言を吐いてて笑ってしまった
0
82
383
@mamas16k
まますさん
1 year
自分がjupyterのことをjupyterって呼ぶのは���れが理由なんだよね。仮にjupyterって呼ぶとすると、pythonのことをpythonって呼ぶのか?って話になってしまうので。
@YYama0
yyama
1 year
jupyterってjulia、python、Rの頭文字を由来としていたのか…知らんかった。
4
74
452
1
74
371
@mamas16k
まますさん
2 years
「SVM/Naive Bayes/GBDT/RF/NNなど、データごとに良いモデルは違って、それらをチューニングしてアンサンブルするのが重要だ」っていう神話(大嘘)を信じ込んでいる人間が一部存在してるのがたぶん真の問題なんだよな。
2
59
370
@mamas16k
まますさん
4 years
Transformer: 遠くを見るのが得意 LSTM: 近くを見るのが得意 っていうのをちゃんと認識するのが大事なんだよな
1
28
337
@mamas16k
まますさん
5 years
「先行研究は~~~が出来ない(嘘)、提案手法は~~~が出来る」みたいなことをcontributionとして書いて普通にアクセプトされてる論文を読んだんだが、結局査読者が先��研究について詳しく知らなきゃ当然バレないので、まあそういうことだよな
1
58
313
@mamas16k
まますさん
11 months
もちろん本質的な問題は複数端末からログイン出来ないことだね
0
24
303
@mamas16k
まますさん
5 years
3個目の金メダルを取ってなんとかKaggle Masterになりました。これまでチームを組んで下さった方々、応援して下さった方々には本当に感謝の気持ちしかないです・・・!
Tweet media one
14
17
275
@mamas16k
まますさん
3 years
「(体言止め)、」で始まる文章、文の構造として曖昧だし日本語としてもダメだと思うんだよな。これ使う人は小学生の国語からやり直して欲しい。
2
47
273
@mamas16k
まますさん
1 year
内容が何もかも浅くて笑ってしまった。文字しか送らないわけで、生成AIで通信量とかほとんど誤差でしょ。。
@tairo
森山大朗(たいろー) Work in Tech!
1 year
新たなAI時代の本命はAppleかも?って話です。 OpenAIとMicrosoft連合がその火蓋を切って落とした「生成AI大戦争」ですが、彼らにも弱みが。 ■ ChatGPTやLLM(大規模言語モデル)の弱点 ・リクエストの度に膨大な計算量が必要 ・通信にも時間がかかる
Tweet media one
60
844
6K
2
31
272
@mamas16k
まますさん
3 years
全く同意なので、「修士課程で学び直し!」みたいな人は現実をよく知って欲しい
0
34
266
@mamas16k
まますさん
3 years
Indoor、準優勝でした!本当に最高のチームで、もし誰か一人でも欠けていたらこの結果は出ていなかったと思います。応援して下さった皆様もありがとうございました。
Tweet media one
20
5
271
@mamas16k
まますさん
5 years
SVM、謎に上げられることが多いが、実際は低い精度、(行数が多いと)爆発する計算時間、(kernelによるけど)解釈性もポンコツ、という三重苦なので、理論的な話とマウントぐらいにしか使えないと思ってる
2
63
262
@mamas16k
まますさん
5 months
トップジャーナルであるEconometricaに複数本論文を通してる成田が研究実績ないって本気で言ってるんだろうか。 peer reviewが何なのかも理解出来てなさそうだし、こういうツイートを見るとやっぱり査読付き学会/ジャーナルに通す経験って無為に見えて価値あるなー、と思う。
@KoutaOnaga
KoutaOnaga
6 months
【成田信者よ、いいかげん目を醒せ】 成田悠輔 氏の同業者からの評価(peer review)がこちら。 NYT の記者も言ってたが彼のアカデミアにおける実績はほぼほぼない。
Tweet media one
25
561
832
1
50
266
@mamas16k
まますさん
5 years
競プロとか関係なく一般的な話なんだけど、ある程度以上時間をつぎ込んだものって、自分の精神的安定のためにも、今後の自分の利益になるという意味でも、人間って必然的に肯定するバイアスが働いてる気がするんだよね。なので、実は「長くやってる人の意見」ほど信頼出来ないものはないと思ってる
1
62
254
@mamas16k
まますさん
4 years
やはり内発的動機が弱い人は研究者はやっちゃダメなんだろうなあ。競争として見るとズルしたもん勝ちのそれっぽさを競うプレゼン大会じゃね?としか俺には思えなかったし、そもそもこういう見方で見てしまうこと自体が間違ってて向いてないんだろうな
1
42
251
@mamas16k
まますさん
5 years
PC遠隔操作事件で確実な冤罪なのに何人も自白した人がいることは絶対忘れてはいけないと思う
2
89
237
@mamas16k
まますさん
4 years
線形回帰のような単純なモデルって人間の目から見ると一見仮定が少ないように見えるけど、実際は仮定の強さって意味でいえば深層学習と比べてはるかに強い(だから性能が悪い)ので、むしろオッカムの剃刀っていう立場から見たら深層学習の方がベター、っていうことにはならない?
4
44
231
@mamas16k
まますさん
1 year
テーブルデータの欠損値、機械学習の精度向上的な意味ではそもそも埋めないのがキホンであることは再掲しておきたいと思います。(ちなみにNNを使うケースは0埋めする)
@mamas16k
まますさん
6 years
欠損値、kaggle的にはそもそも埋めないのが基本で、それを用いてfeature engineeringを行う必要がある場合はoofで埋めるのが基本だと思う。
1
6
67
1
15
233
@mamas16k
まますさん
3 years
top会議に採択されたポンコツ手法、他の人が試したら再現性のないポンコツなことが判明して誰にも使われてなくても業績としてプラス評価になるから謎だよな。世界にとってその論文の存在自体がマイナスだと思うが
2
45
222
@mamas16k
まますさん
1 year
あんまり機械学習の論文読みたくない理由として、再現性が低すぎるからなんだよな。kaggleで使われるレベルまで到達してればまだしも、そうじゃないものって大体ジャンク情報なので、読む利益が少ないと感じてしまう。
0
30
223
@mamas16k
まますさん
2 years
kaggle弱い人あるあるで草
@marktenenholtz
Mark Tenenholtz
2 years
The WRONG way to significantly improve your models: • Different architecture • Hyperparameter tuning • Bigger ensemble The RIGHT way: • Thorough EDA • Meticulous error analysis • Robust model evaluation Spend your time on the 100%+ gains, not the 1% gains.
19
221
1K
1
24
222
@mamas16k
まますさん
11 months
古いサービスだから技術負債が大きすぎてあんなに酷い事になってるんだと思う
1
17
216
@mamas16k
まますさん
1 year
この4点セットが入ってたらコードの質も自然と担保される方向に進んでいくと思う(たぶん)ので、まずはここから始めて欲しい。つまり何が言いたいかというとcvpaperchallengeのAscenderを使ってみて欲しい。
0
28
221
@mamas16k
まますさん
2 years
超有能な同期のTransfomerまとめ記事です!!! かなり読み応えのある内容になってますので、ChatGPT等でTransformerに興味を持った方はぜひご覧ください 🙇‍♂️🙇‍♂️🙇‍♂️
@zenkigen_corp
株式会社ZENKIGEN
2 years
📣ZENKIGEN技術ブログを更新📣 『30分で完全理解するTransformerの世界』 Transformerという深層学習のモデルをこれでもかというほど解説しています!💥 データサイエンティストの方やディープラーニングに興味がある方、ぜひご覧ください。 #survey #transformer
0
93
548
0
25
215
@mamas16k
まますさん
1 year
これ4年くらい主張してる。分かってない人が結構多いんだよな。
@sakata_ryuji
Jack
1 year
feature importanceで特徴量選択を行うのは、改めて相当注意しないといけないと感じた。CVでimportanceの平均を取って特徴量選択を行うと不当にCVが上がる、つまりリークする。なので、バリデーションの際はfold毎に特徴量選択を行う必要がある。ここは今後も注意したい。
0
18
303
3
17
213
@mamas16k
まますさん
2 years
k分割交差検証、計算コストに見合わないので結局しないという結論に自分は達したな。GBDTならholdoutした後に全データ学習、NNだと全データ学習は厳しいので常にholdout。
2
14
212
@mamas16k
まますさん
2 years
ここで教授として本来言うべきことって、「多くの方から学内窓口が信頼されていないという現実を受け止め、改善されるよう学内で働きかけていきます」みたいな内容なのかなと思うんですよね
@Yh_Taguchi
田口善弘@発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません
2 years
これは通報が事実の場合ですよね。主観的には事実でも客観的には虚偽だったら、学生は、当然、名誉毀損で訴えられる可能性がある。まず外に相談しろとアドバイスしている人はその責任をとれるんだろうか?
7
48
37
0
70
197
@mamas16k
まますさん
4 months
「生成AIが進歩しても〜〜はなくならない」ってやつ、9割はただのポジショントークで願望に近いと思う。 例外は、「ブルーワーカーはなくならない」と「資本家はなくならない」だけかな。
2
18
200
@mamas16k
まますさん
1 year
〜condaを上手く使うコツ〜 1. そもそもcondaを使わない 2. 完
1
20
196
@mamas16k
まますさん
3 years
12月なので今年のベストkaggle notebookを挙げるなら、やはりsaito氏のcost minimizationは非常に強く推薦したい。上位解法のほぼ全てがこれを使用 or 拡張しているという異例の事態だったので。位置推定コンペ以外で使えないのが難点だけど。
1
9
194
@mamas16k
まますさん
6 years
Kaggle三銃士を連れてきたよ
Tweet media one
1
44
182
@mamas16k
まますさん
3 years
こういう訳の分からない記事を見てるとやっぱりTJO氏のブログって偉大だなと思う。たまに不適切な表現もあるかもだが、どの記事を見ても技術記事で上位1割以上のクオリティがあるので。
1
15
183
@mamas16k
まますさん
3 years
コードも公開せず再現性も全くない論文出してる方々(残念ながら大多数)よりもOSSコントリビューターの方がよっぽど社会に貢献してると思ってる
4
28
177
@mamas16k
まますさん
4 years
卒論がACCV Accepted!!!良かった!
10
4
173
@mamas16k
まますさん
1 year
根本的な問題は実験管理で、 - 1実験1script型 (, , ...) - 1実験1config型 (exp001.yaml, exp002.yaml, ...) を比較したときに前者の方が効率が良いケースが多数存在するのが悪いんだよな。後者のやり方は後方互換性を維持するのがかなり難しい。
1
20
176
@mamas16k
まますさん
1 year
今のところの自分のChatGPTの使い道 ・SQL ・正規表現の生成 ・書き捨てのPythonスクリプト/シェルスクリプト ・ちょっとした可視化のコード サンドボックス環境を与えられるとなるとかなり話が変わってきそう。
1
12
175
@mamas16k
まますさん
3 years
初学者に風当たりが強いのはダメだけど逆に情報商材屋には風当たり強くしないとダメなんだよな
@kazoo04
Kazuya Gokita
3 years
IT界隈、年々初学者に対する風当たりが強くなってきている気がしていて、うかつに技術ブログも書けない世界になってるんじゃないかと思う まあ私もあんまりにもあんまりな記事とかはウワッてなるのは確かだけど、過剰にバッシングするのは業界全体が先細っていくんじゃないかな
2
175
695
2
32
170
@mamas16k
まますさん
5 years
たとえば精度を上げるアイデアが10個あって、それをちゃんとtrain/val/testに切った上で評価して、どれか一つのアイデアが当たって論文にしたとする。そこで「それはお前が10回もtest set見たからだろ?」って言われたらどうするんだろう
2
47
161
@mamas16k
まますさん
8 months
GBDTが上手く動かない -> ほぼ確実にデータが悪い。GBDTが悪いケースはほぼない。 ニューラルネットが上手く動かない -> データが悪いのかニューラルネットが悪いのかは不明。 なので問題の切り分けが難しくなるよね。分かるのは自分が悪いということだけ。
@Kmat67916008
K_mat
8 months
なんかNNさわるといつも、「ここを意識しろ」とか「このへんは切り分けて考えてほしい」とか、感覚的な謎の調整に時間を要する。 隣のgbdtちゃんは素直ないい子なのに。
1
0
41
0
12
166
@mamas16k
まますさん
2 years
大規模言語モデル、既に内部的には単なるパターン認識じゃなくてロジックも獲得しているのは間違いなくて、今後はそれが証明され続けることになると思う
1
40
163
@mamas16k
まますさん
2 years
(日本人以外も含めて)色んな友達と話してると、kaggleの実績というよりkaggle関係のコネで転職した人が多数いるらしいということが分かった。公開してないだけで。技術を学ぶ:コネを作る=3 : 7ぐらいの説ありそう。
2
11
164
@mamas16k
まますさん
3 months
不均衡データ、特に有効なモデル側の手立てはないから何もしない方が良いって30年ぐらい前から結論出てるよな。 いや、頑張って負例のデータを増やせとかそういう話は当然あるけど。
1
22
164
@mamas16k
まますさん
2 years
自分のパターンだと、学業の手を抜かずにKaggleとバイトをやった結果、普通に倒れた。結局学科で首席だったけど、色んなものを失ったし、本当に後悔している。
3
11
160
@mamas16k
まますさん
6 months
これ自分も大学1年生のとき疑問だった記憶あるなあ。結局のところ、扱う微分方程式の解の一意性が担保されているのであれば、別にどんな手段で解を見つけても問題ないんですよね。極論、「神が降りてきた」って言って途中経過を書かなくても全く問題ない。
@KEI_Ichinomiya
みや
6 months
振動工学の授業で当時謎だったこと: ・「解はAcos(wt)と仮定すると」←なんで分かるんだよ。解が分からなくて今困ってるのに解を先に与えないでよ ・「一般解と特解を足したのが答えで」←解と解を足すとは?じゃあ一般解と特解って解じゃないの? ・「特性方程式によると」←2階微分がs^2になるとは
7
90
679
1
24
162
@mamas16k
まますさん
3 years
にゃおー!😁 そういえば昨日就活を終えました😊
11
0
163
@mamas16k
まますさん
1 year
何故CV分野がNLP分野と比べてあまり成功してないかというと、自己教師あり学習が上手く行ってないからだと思うんだよな。具体的には、SimCLRみたいなしょうもない手法じゃなくて、未来のフレームを直接予測する問題を解く必要があると思う。
1
15
158
@mamas16k
まますさん
3 years
pandasで速いコードを書きたかったらiterrowsとapplyとtransformを使うなおじさん「pandasで速いコードを書きたかったらiterrowsとapplyとtransformを使うな」
@MLBear2
ML_Bear
3 years
初めの図のようなfuncの処理を行いたい時、df.applyするよりvectorization(?)処理にすると100倍速いよと書いてる記事があって参考になった😇 別記事曰くnp.vectorizeでも同じことができるらしい。こっちは変換時間(?)分不利だけど脳死で書けるので楽
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
46
295
0
12
149
@mamas16k
まますさん
3 years
雑多な信頼度もバラバラのネットに広がった情報から必要なものをツギハギで探す能力ってのは確かにあって、これは信頼度が高いものを正確に理解する能力と全然話が違う気がしている
0
25
145
@mamas16k
まますさん
5 years
コード公開しない論文、大体嘘が混じってるのでは説をここ最近激しく感じている(全く再現出来ないし、必要な情報も書かれていない)
1
23
143
@mamas16k
まますさん
4 years
株価予測、マジでそれを使って儲けられるなら論文にする不利益大きすぎない?色々ごまかして書いてるのか、それとも他人に金を配るのが幸せだっていうなら分かる
4
11
148
@mamas16k
まますさん
6 months
BitNet、英語圏では大して話題になってもいないのに日本人の間でだけブレイクスルーということになってて笑える(デモや実装すら公開されてないのに)
3
17
146
@mamas16k
まますさん
5 years
learning rateの固定やearly stoppingについても正確に書いてあるしガチの神記事感がある。全員GBDT使う前にこれ読むべきだと思う
@glakeg1
Gig
5 years
良さげなGBDTのハイパラ説明書見っけた。LGBMとxgboostの名称の違いも書いてある
0
43
319
0
16
145
@mamas16k
まますさん
4 years
Riiidの2nd place solutionを公開しました!徹底的にtraining時のdata leakageを防いだのが良かったと思います。
0
13
143
@mamas16k
まますさん
3 years
これはとても良い指摘で、GBDTは外挿が出来ないのでトレンドを持ったデータを扱うのに向いてないのは事実。(だから、ARIMAと併用するのは重要だと思う)
1
13
142
@mamas16k
まますさん
1 year
SQL文、もう人間が書く必要一切ない気がする。精度もめちゃくちゃ高いし、ここに関しては既に90%以上置き替えられたかな。
0
13
140
@mamas16k
まますさん
3 years
なので、日本で「学び直しで大学院!」みたいな人を見ると申し訳ないけど自分は「箔を付けたい、というのが本音なのにそれを隠してるのかな?」ってつい思ってしまう。どう考えても学び直しに適した場所ではないので。。。
1
30
136
@mamas16k
まますさん
6 months
自分もフル活用はしてるけどむしろ逆で、今後の進化を見込めばエンジニアの職が最終的にリプレースされる可能性は非常に高いって思ってる
@rosso016
rm -rf wado
6 months
ChatGPT最近フル活用してて超便利だとは思うものの、同時に限界も感じるし、今後さらに超進化して全自動で完璧なプログラム書いてくれたりエンジニアほぼ全員が職を失うレベルまでいくかというと正直可能性は低い気がしてる
1
2
18
1
29
141
@mamas16k
まますさん
3 years
そもそもサンプルサイズでかいと有意になるのは当たり前なので検定自体をやる意味がないという話で毎回FAになってる気がする。検定が有用なのは「10%ぐらい差が出たけどデータ少ないからどれくらい信用していいか分からないよ😢」みたいなケースなので、1億レコードとか取れるならそもそも。
0
16
138
@mamas16k
まますさん
3 years
そもそもアカウント分けること自体が誤り。ワシは小中高大の友達、ネトゲの友達、囲碁関係の友達、kaggle関係の友達、よく分からない友達、エロ絵師(ここ一番多い)、好きなエロ同人サークル、全部同じアカウントでフォローしてる。
3
23
136
@mamas16k
まますさん
3 years
K-Fold CV、特徴選択時に使うと激しくoverfitするという地獄に気付いてからあまり使わないようになった。foldごとに特徴変えるのは地獄過ぎるからなあ。
1
5
137
@mamas16k
まますさん
6 months
この話題は何回も繰り返されてるが、 「オープンアクセスデータにおける性能検証は何回でも二度漬けが出来るから信用出来ない」 「正確に性能比較を行うなら、Kaggleのようにprivate leaderboardを用意し、二度漬けを確実に防ぐべき」 で結論出てると思うんだよな。
@uncorrelated
uncorrelated
6 months
Bioinfomaticsのpublic domainのdataに対する性能改善手法の論文はほとんど研究不正?
0
16
55
1
21
135
@mamas16k
まますさん
2 years
Kaggle批判、理解出来るものはあるんだけど、マジ理解出来ないのは「実データじゃない」系のエアプ発言なんだよな。こういうのが実データじゃないなら実データって一体何?? 「実データじゃないから簡単だろ?」ってエアプを激詰めしながら謎のjsonファイルとtxtファイルを前処理させる仕事がしたい。
Tweet media one
1
12
130
@mamas16k
まますさん
5 years
「機械学習モデルの出力が確率か?」という話、たぶん実際に言いたいことは「機械学習モデルの出力はcalibrateされているのか?」という話なのではないかと疑っている
1
19
128
@mamas16k
まますさん
2 years
なぜtabular NN論文がオオカミ少年と化してしまっているかというと、たぶん著者の人たちが「GBDTを使う時は、学習率は小さければ小さいほど精度が上がる (with early stopping)」っていうことが分かってないからだと思うんだよね
1
10
128
@mamas16k
まますさん
4 years
とりあえず2nd place notebook ()を上げました。詳しいsolutionとsingle model notebookは明日上げます。
1
14
129
@mamas16k
まますさん
3 years
海外だと研究型ではなくてコースワーク型の修士課程が��構あるらしいので、そういうのが日本にあったら良かったんだけども。
2
20
123
@mamas16k
まますさん
7 years
今日は本当にありがとうございました!プロkagglerの方たちから有用な情報をたくさん聞けてよかったです(*^^*) 今日の僕の発表のスライドです! #kaggle_tokyo
0
24
124
@mamas16k
まますさん
3 years
バグ取ったら更に伸びて草。伸び代しかねえ
Tweet media one
1
1
125
@mamas16k
まますさん
4 years
某JO氏のブログ、(日本語の上手さでぼやかしてるっていうのは分かるけど)流石に控えめに見ても技術ブログの中で上位1割ぐらいの質はあると思う
1
11
122
@mamas16k
まますさん
3 years
表現学習で精度を上げます系の研究、ただ収束が速くなっただけなのに途中のepochで学習を打ち切ることで精度が上がったように見せかけてるだけの割合がかなり多いのでは?と結構思ってる。同じepochで打ち切ってるので一見フェアな実験に見える
1
13
123
@mamas16k
まますさん
5 years
中田敦彦氏叩き、「qiitaはクソ!論文と公式ドキュメントだけ読め!」と同じ構図に見える
1
19
122
@mamas16k
まますさん
4 years
後、これスゲー大事な話だから実は言いたくないんだけど、手作り特徴をconcatして学習する場合、mixed precision trainingは使わないほうがいいすよ(4桁目以降が重要な場合って普通にあるので、めっちゃ精度落ちる)
1
2
121
@mamas16k
まますさん
4 years
彼女や配偶者がいないとD進出来ない、みたいな主張をする人ツイッターに多いけど、むしろ彼女や配偶者がいたら(相手との人生を真剣に考えるのであれば)D進出来なくなるのでは・・・?
4
27
116