rosinality Profile Banner
Rosinality Profile
Rosinality

@rosinality

Followers
2K
Following
21K
Statuses
32K

no side-effects

Seoul, Korea
Joined October 2008
Don't wanna be here? Send us removal request.
@rosinality
Rosinality
14 hours
@giffmana Thanks!
0
0
0
@rosinality
Rosinality
2 days
공학에 인재들이 부족하다는 것과 엔지니어들을 52시간 이상 노동시키는 것이 허용되어야 한다는 것이 동시에 나올 수 있다는 것이 놀라움.
0
7
2
@rosinality
Rosinality
8 days
Very interesting analysis. It may be hard to find thought process logs from individuals in web texts. However, the process of many people collaborating and communicating can become a log of collective thought processes, and models might be able to learn way of thinking from it.
@xiangyue96
Xiang Yue
8 days
Takeaway 9: Commonly used pre-training data contain content that shares similar properties (e.g., branching and error validation) to long CoT. The base model might already acquire such skills during pre-training. We use MiniHash to search over OpenWebMath and Perplexity to search over the internet. We found many examples containing such patterns. Here is one example (
Tweet media one
0
0
2
@rosinality
Rosinality
14 days
@TianzheC Thank you for the great research! Considering fig 10, is it possible to say most improvement on OOD came from iterative revision and verification? (Of course, improvement in ID without affecting OOD performance itself is a nice thing to have.)
1
0
2
@rosinality
Rosinality
16 days
다른 공학 분야는 모르겠다만 AI에서 중요한 건 1. 투자 2. 올바른 방향과 의사결정 3. 업무 방식과 문화의 효율성이라고 생각. 시간은 한참 뒤의 문제일 것.
0
0
0
@rosinality
Rosinality
16 days
RT @aichupanda: 52시간제 때문에 한국이 미국과 AI 경쟁에 뒤쳐진다고 생각하시는 분들은 공학을 너무 얕잡아보시는 것.. 그게 그렇게 간단한 일이 아닙니다.
0
37
0
@rosinality
Rosinality
16 days
아무리 많은 사람을 집어넣어도 엉뚱한 방향과 최적화되지 않은 방식으로 작업하면 성과가 나오지 않을 수밖에 없음. GPU가 없으면 애초에 불가능하긴 하지만.
0
0
0
@rosinality
Rosinality
16 days
또 노동시간 운운하는 걸 보면 생각보다 많은 사람들이 업무에서 실제로 어떤 부분에서 병목이 생기는가에 대한 관심이 없는 것 같음.
0
1
4
@rosinality
Rosinality
16 days
@giffmana As it is FP8 and MoE flops it will have lower MFU compared to BF16. Also I suspect that fine-grained quantization and other modifications will further reduce its efficiency. I guess DeepSeek primarily adopted FP8 to reduce communication volume.
1
0
5
@rosinality
Rosinality
17 days
RT @typedfemale: "NVIDIA suddenly supports sanctions"
0
3
0
@rosinality
Rosinality
17 days
생각해보니 2년 전에 H100 클러스터를 갖고 있긴 불가능하긴 하겠다. 그러면 1년 전으로...
0
0
0
@rosinality
Rosinality
17 days
한국도 2년 전 정도에 H100 1만 장 정도의 규모로 투자했으면 가능했으리라고 생각하는데. 꼭 모든 국가가 AI에 투자해야 하는 것은 아니겠지만 아쉬운 건 어쩔 수 없음.
0
14
16
@rosinality
Rosinality
18 days
역사적 사건에 대한 평가는 그 사건이 일어나는 시점에서는 할 수 없는 것. 또한 시간이 한참 지난 이후라고 하더라도...
0
1
2
@rosinality
Rosinality
18 days
DeepSeek이 연산 효율적으로 모델을 만들었다는 것이 더 많은 연산량이 필요하지 않다는 의미는 전혀 아니지만 (DeepSeek도 물론 여전히 더 많은 연산력을 찾아다니고 있을 것) 그렇게 믿는 사람들이 많으면 주가에는 실제로 영향을 미칠 수도 있나 하는 생각.
0
0
0
@rosinality
Rosinality
20 days
@nameEO 네 이런 연구도 있고... 학습 과정에서 분리하는 것을 선호하는 듯 합니다.
0
0
0
@rosinality
Rosinality
20 days
@nameEO 그래서 같은 크기의 Query/Key 임베딩과 RoPE 벡터를 더하더라도 실제로는 의미에 대한 모델링과 위치에 대한 모델링을 하는 차원이 분리되는 쪽으로 학습된다고도 합니다.
1
0
0
@rosinality
Rosinality
20 days
AI 쪽에선 온통 DeepSeek 이야기 밖에 없네. 한국도 제대로 시도했다면 성과를 낼 수 있었다는 증거라는 생각을 함. 물론 그 "제대로 된 시도"에는 DeepSeek이 지금까지 해온 연구들과 같은 작업을 하는 것이 포함되지만.
0
4
7
@rosinality
Rosinality
20 days
RT @SKR_Economist: 원래 인과추론 공부하다가 거시경제로 빠진 사람이라 주기적으로 핫한 인과추론쪽 페이퍼 읽으며 끈을 놓지 않으려 기를 쓰는데, 몇 안되는 인과관계 입증해 보겠다고 머리를 쥐어 짜내는 뛰어난 사람들 지켜보다가 타임라인에서…
0
4
0