Daisuke Okanohara / 岡野原 大輔 Profile
Daisuke Okanohara / 岡野原 大輔

@hillbig

Followers
31,132
Following
649
Media
270
Statuses
5,580

Co-founder and Representative Director of Preferred Networks (PFN). CEO of Preferred Computational Chemistry and Preferred Element. Interested in AI and science

Japan Tokyo
Joined January 2008
Don't wanna be here? Send us removal request.
Explore trending content on Musk Viewer
Pinned Tweet
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 days
(画像修正して再掲) PLaMo β版のトライアル版をリリースして2週間経ち、多くの方に試していただいております。フルスクラッチで作ったモデルであり主要な日本語ベンチマークなどで最も高い性能を達成しています。トライアル利用を募集してますのでぜひ試してください。
Tweet media one
0
3
6
@hillbig
Daisuke Okanohara / 岡野原 大輔
8 years
ロボカップにはいろいろなロボットがそこら中いますが、一番すごかったのが羽ばたいて飛ぶロボット。450g、一番重いのがバッテリー、10分飛べるそうです
2
5K
4K
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
微分、積分、微分方程式などのシンボリックな数学方程式はNNで驚くほどの精度で解ける。方程式を木表現経由のポーランド記法で表し、Transformerを使ったseq2seqで教師あり学習する。MathematicaやMatlabを超える求解率を達成できる他、有効な解を一つだけでなく多く列挙できる
2
726
2K
@hillbig
Daisuke Okanohara / 岡野原 大輔
3 years
「ディープラーニングを支える技術」という本を書きました。各手法やアイディアの背後にある原理や考え方を詳しく説明し、最新トピックもカバーしてます。また人工知能の簡単な歴史、DLの位置付け、今後についてもまとめています。電子版は12/24、紙版は1/8に発売予定です。
Tweet media one
0
294
1K
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
鈴木大慈先生による深層学習の理論解析、特に表現能力、汎化能力、最適化理論について。重要なトピックを幅広くカバーしており、最新のNeural Tangent Kernelや二重効果なども解説されている。英語でもこれほど充実しているのは無いと思う。
0
372
1K
@hillbig
Daisuke Okanohara / 岡野原 大輔
8 years
@hillbig 鳥が好評だったので、そのアップの動画も。全体を軽くしたのと、エネルギー効率を良くするためになめらかに動かす部分、バランスをとって向きを変えるためにいろんなところが連動する
1
2K
1K
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 years
多層NNの最適化が難しそうなのになぜ成功するかについて、reluを使ったNNに対しデータが退化してなく、NNが過剰に多くのパラメータを備えていればSGDを使った学習は最適解に多項式時間で収束することが証明された。NNの未解決問題の一つが(おそらく)解かれた
1
507
1K
@hillbig
Daisuke Okanohara / 岡野原 大輔
8 years
深層学習がうまくいくのは、自然界の 対象の問題の特徴に低次元、局所影響性、対称性がみられ、データ生成過程にマルコフ性が成り立ち、逆向きに推論できるから。自然にみられるデータの特徴付けに物理の考えで切り込んだ物理界20歳すごい。
0
565
1K
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
最小二乗法を解くには共分散行列を求める必要がある。カラテオドリの定理を使えば、d次元入力の共分散行列はd^2+1点の重み付き入力の共分散行列で近似無(!)に表せ、これらは観測点数、次元数に比例する計算量で求められる。最小二乗法を使った多くの手法を劇的に高速化可能
1
281
1K
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 months
来日中のZuckerberg氏にお会いし、有意義な議論ができました。ありがとうございました。I met Mr. Zuckerberg during his visit to Japan and had a fruitful discussion. Thank you very much.
Tweet media one
4
138
1K
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
大規模言語モデルのHallucination(幻覚、誤った事実)の起源について。人手で作った対話ベンチマークの60%に既に幻覚が含まれており、多くが主観的な意見、または啓発的な内容に基づくもの。これを学習して作った対話モデルは幻覚を増幅、露出バイアス、最尤推定が主な原因
1
388
1K
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
大規模言語モデル(ChatGPT等)についての本を岩波書店より6/20に出版します。何ができるか、課題はなにか、実現技術(自己教師あり学習、機械学習のべき乗則、本文中学習、RLHF)、言語や知識獲得の謎、今後の展望についてです。私の従来本と違い専門知識を必要とせず読んでいだけるよう書いています
@Iwanamishoten
岩波書店
1 year
【新刊予告】 #ChatGPT を支える大規模言語モデルの仕組みとは。何が可能となり、どんな影響が考えられるのか。新たな知能の正負両面をみつめ今後の付き合い方を考えます。 岡野原大輔『大規模言語モデルは新たな知能か――ChatGPTが変えた世界』(6/20発売予定、予約受付中)☞
Tweet media one
Tweet media two
0
113
417
3
353
1K
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
強化学習の代表手法であるモンテカルロ法、TD法、SARSA、Q学習の違いを、わかりやすく可視化。異なる状態遷移軌跡が合流する位置で価値関数をどのように更新するかで各手法の違いが説明できる
0
202
894
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
統計数理シンポジウム2023()での講演資料を公開します。大規模言語モデルや拡散モデルなどの生成モデルが世界をどのように理解しているのかについてです。自己教師あり学習、メタ学習(in-context learning)などの話題をとりあげています。
1
227
878
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
GANの作者であるGoodfellow がGANの論文たくさんあって何から追えばいいかわからない人向けに10個の論文を推薦しています。理論、符号化、差分プライバシー、高精細、多クラス、条件付けなど
Does someone have a list like the 10 or even 20 GAN related papers I should read this year or something like this? I can't keep up. @goodfellow_ian ?
19
109
509
0
256
859
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 years
今年一番驚き謎な論文。画像認識で畳み込みを使う代わりに、画素毎に固定のノイズを加え、非線形変換を施した後、カーネル1x1の線形変換を使っても同じ精度が達成できる。空間方向で情報を明示的に混ぜなくても良い。空間方向の冗長性から周辺の情報は各画素に既にあるのか
2
234
813
@hillbig
Daisuke Okanohara / 岡野原 大輔
4 years
2020 Jun.のTop500においてPFNのMN-Coreを使ったMN-3が電力効率の高性能計算の実現を評価するGreen500で1位になりました。実現に向けて尽力したチームメンバーを誇りに思います。
Tweet media one
0
297
760
@hillbig
Daisuke Okanohara / 岡野原 大輔
2 years
前著に続き「ディープラーニングを支える技術2」を書きました。なぜDLは学習できるのか、汎化するのか、深層生成モデル(VAE/GAN/AR/NF/DM)、深層強化学習(AlphaGoシリーズ等)、今後のDLや人工知能の課題や展望について書きました。4/18電子版 4/21紙版 発売予定です
Tweet media one
0
141
755
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
強化学習の創始者の一人として知られるR. Sutton氏がこの70年のAI研究からわかったこととして、人間のドメイン知識を利用した手法改善は短期的には有効だが、長期的には計算能力の指数的な向上を活かした”学習”と"探索”に基づく汎用の手法が大きな差をつけて上回るとコメント
0
233
729
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
大規模言語モデル本のサポートページを公開しました。本書では大規模言語モデルの可能性と課題、その仕組みを一般の方でも読めるように書いています。また最新の研究成果に基づく知見や将来の展望もまとめています。6/20に発売予定ですので、ご興味ある方はご予約ください。
Tweet media one
10
173
695
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 years
GQNは複数の視点の画像だけから、対象の三次元世界を符号化し異なる視点からの視界を復元する。空間モデルを潜在変数とする潜在モデルで最適化する。Structure from MotionをNNで直接解いたものであり、この1~2年内の最大の進歩と言っていいと思う
0
270
692
@hillbig
Daisuke Okanohara / 岡野原 大輔
3 months
LLMに新しい知識をファインチューニングを用いて導入しようとすると、事前学習時に得た知識もハルシネーションするようになり性能が悪化する。事前学習時に知らない知識を獲得するのに時間がかかり複数回参照すると過学習するため。事前学習時に学んだが、使えていない知識をファインチューニングで引
1
164
696
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 months
NNで訓練誤差が0になった後も学習を続けると汎化性能が改善されるGrokkingは、非線形領域(動画中の黒線)が分類面に移動する相転移がおき、サンプル周辺領域が線形化される(敵対的摂動にも頑健になる)現象がおこるため。動画による可視化がすごい
1
135
681
@hillbig
Daisuke Okanohara / 岡野原 大輔
2 months
今のLLMを使った言語処理においてパーシングや意味解析を使うことなく必要なく、本当に解きたかった対話や機械翻訳が解けているのと同様に、画像処理において画像分類や物体検出は最終的なタスクを解くのに必要ないのではという、現代の物体検出を作ってきたGirshick氏による議論をよぶプレゼン。
0
137
681
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 months
赤ちゃん(生後6ヶ月から25ヶ月の間)にヘッドマウントカメラをつけ、何を見て聞いたのかを記録し、そのうちの60万フレーム、約3万発言を使って画像と言語の対比学習を実行。61.6%の精度(4億のウェブデータ使ったCLIPに匹敵)でin-domainの分類ができるほど対応関係を学習できる。
2
188
646
@hillbig
Daisuke Okanohara / 岡野原 大輔
8 months
Deep Learning研究の各分野を代表する人たちが「これから取り組むべき大きな問題」「DeepLearningの理解は進んでいるか」「説明可能性」「ベンチマーク」「Transformerの次はあるか」「アカデミックの立場は」などを議論。面白いオチもついている
1
115
630
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
ソートやargmaxを取る操作は離散的であり微分可能でない。しかし、これらの操作は入力とソート済みのあらかじめ決められた配列間の最適輸送問題とみなし、微分可能なSinkHornアルゴリズムで解くと、全体も微分可能な操作となる。順位やtop-k操作を微分可能で扱える
0
134
567
@hillbig
Daisuke Okanohara / 岡野原 大輔
4 years
NeRFは座標と視点方向角を与えるとそこに物体が存在する確率と輝度を返すMLPを複数の位置視点付き画像から学習し、複雑なシーンの写実的な画像を任意の視点から生成できる。画像生成、空間表現でDCGANやGQN登場時並のインパクトがある
0
180
528
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
RNNの時間遷移関数として、現在の状態と入力で定義されるODEの均衡点を返す関数を使うと、どれだけ遷移しても勾配が全く発散/消失せず、状態は均衡多様体上で安定して遷移できる。重要な問題を本質的に解決しておりRNNや深いNNのすごく大きなブレークスルーと思う。
0
134
525
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 years
強化学習と制御問題は確率の推論問題と捉えられることを示した良い解説論文。状態、行動、報酬的に最適であるかを示す最適性変数でグラフィカルモデルを構成し、最適と条件づけした上で状態と行動を求めると様々な強化学習が導出され、確率モデルの様々な技術が使える
0
133
523
@hillbig
Daisuke Okanohara / 岡野原 大輔
2 months
LLMのハルシネーションを検出するには複数の回答を生成し、同じ意味同士をまとめて一致するかを意味エントロピー(SE)で評価するのが有効だが高コストだった。代わりにSEは隠れ層から線形回帰で高精度で予測できる。LLMは生成前から自分が知っていないことを知っている
0
126
525
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 months
学習済みのLLMから、層毎に入力と出力間のcos類似度が大きい層(変化が少ない層)を間引いても精度は落ちない。特に最後の層だけ除いて深い側の層を2~4割間引いても質問応答などの精度は変わらず、知識の大部分が低い層にあることを示唆する。学習手法やモデル設計の参考にも
0
96
511
@hillbig
Daisuke Okanohara / 岡野原 大輔
2 months
人にとって言語は思考よりもコミュニケーションの道具であるという主張。20年間の神経科学の研究成果に集積に基づく。 失語症や言語を獲得していない場合でも思考能力は獲得でき、逆に言語能力が完全にあっても思考能力に問題がある場合があり、言語は思考にとって十分条件でも必要条件でもない。
2
148
506
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
いよいよ要約生成の論文の要約が提案手法で書かれる時代が来た。重要文をPointerNetworkで抜き出した後、導入、重要文、要約、本文の順に並べた文書生成を自己注意機構ベース言語モデルで学習。推論時は導入、重要文で条件付して要約を生成する。
0
174
497
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
日経ロボティクスにAI最前線という記事を2015年より連載しており、最新の話題を早く手加減せずに書くことをモットーにして書き続け気づいたらもうすぐ50回になります。過去の記事が無償で見られるようになっていますのでご興味のある方は読んでみてください
0
169
494
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
脳の大脳新皮質の学習は100ミリ秒未来の予測と実際との誤差を教師信号として学習される説を提案。視床枕が予測を映し出すスクリーンの役目を担い、α波に従って予測と実際を切り替えその誤差が各領域に伝搬され逆誤差伝搬法と同じ更新がされる
1
200
480
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 months
AlphaGeometryは国際数学オリンピックの幾何問題を従来の金メダリストと同レベルに解ける。1億問の問題を人工的に生成し、仮説と結果の後に証明を後続した文字列を作り、LLMを学習。演繹エンジンを使って証明し、それが詰まった時、有用な途中目標をLLMが追加し協力して解く
0
151
483
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
これまで画像の最大の訓練データは百万枚のImagenetのままであった。訓練データを3億枚に増やし50GPUで2ヶ月かけ学習した結果,精度はデータ数の対数に比例して向上し続け、学習済みモデルは各タスクで有効と分かった
0
210
465
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
@alfredplpl LLMがこのようなことができる(もしくはできない)ことを説明する研究は既に多くでていると思います。LLMが次の単語予測タスクを目標とした自己教師あり学習を介して様々な能力を獲得でき、特に言語については言語自体が持つ構造(特に構成性)も利用していること、またin-context
1
108
470
@hillbig
Daisuke Okanohara / 岡野原 大輔
11 months
NNの効率/精度において枝刈りと量子化のどちらが優れているか理論解析、実験結果で比較し、量子化が常に優れていることが示された。しかも、比較に使った枝刈りは非構造化枝刈りでありHWで性能が出せる構造化枝刈りではさらに制約があるため差が大きくなる。
0
76
473
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
言語モデル(LM)が意味を理解しているのかを調べるため、プログラムに対するLMを構築し、LMの内部状態からプログラムの意味を推定する実験をした結果、単語予測精度と意味推定精度の改善ペースがほぼ一致し、またLMが将来に何を生成するかを考えていることもわかった。
2
105
468
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 years
NNが学習する関数をフーリエ解析で調べた結果、NNの重みが有限ならば、周波数が大きい成分は急速に減衰していくことがわかった。NNは単純な関数を学習するようにバイアスがかかっており、複雑な関数も単純な関数の組み合わせで表現することで汎化性能の獲得に貢献している
0
154
458
@hillbig
Daisuke Okanohara / 岡野原 大輔
4 months
LLMはパラメータ一つあたり2bitの情報を様々な後続タスクに利用可能な形で格納できる。他の結果も含めべき乗則の論文以来の重要な結果と思う。人工的に三つ組(名前/属性/値)のデータを設計し様々な規模、アーキテクチャで検証。7Bモデルでもwikipediaと全教科書情報は全て覚えられる。
0
115
472
@hillbig
Daisuke Okanohara / 岡野原 大輔
2 years
拡散モデルの本のサポートページを公開しました。この本は拡散モデルの数理の本質を理解することを主眼におき、スコア、エネルギーベースモデル、潜在変数モデル、連続時間(SDE/ODE)表現、対称性との関係、また特性を活かした様々なアプリケーション例を紹介しています。
Tweet media one
1
85
465
@hillbig
Daisuke Okanohara / 岡野原 大輔
2 years
自己位置と方角を入力とし移動を目的地に到達するRNNで強化学習すると高い成功確率で到達できる上に内部状態に地図が自動的に構築される。記憶が重要な役割を果たし、一度到達した時の記憶を他に移植すると、ショートカットとかもできる。個人的今年ベスト3に入る面白い論文
1
81
462
@hillbig
Daisuke Okanohara / 岡野原 大輔
3 months
先日のAI・人工知能EXPO2024での講演資料「生成AIの進化と今後の展望」を以下に公開します。LLMの仕組み、PFNグループにおけるLLM開発の取り組み、今後の展望、特に学習データの改善、知識の取り込みなどについてまとめています。興味のある方は見てみてください。
0
108
461
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
Deep RL bootcampの講義資料、ビデオ、サンプルコードが公開されました。最新の深層強化学習を一通り学ぶことができます。(Chainerのよいサンプルコードでもあります)
0
129
452
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 years
大きなNNほど学習、汎化がうまくいくのは,その一部のネットワークが運良く高い収束性能と汎化性能を持つ構造と初期値をひく確率が高くなるからという”宝くじ仮説”を提唱。重みを大きさを元に枝刈りして同じ初期値から学習しても同じ性能を達成できる。
0
151
448
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 months
BitNet b1.58はBitNet()の重みを2値でなく3値{-1, 0, 1}で持ち学習。3BでPPLと後続タスク性能で元のLLMに匹敵か超える性能を達成。活性値は8bitで持つので行列乗算は効率的なINT8加減算に置き換えられる。 == コメント:
@hillbig
Daisuke Okanohara / 岡野原 大輔
10 months
BitNetはTransformerのLinear(MLPとProjection)の重みを1bit、活性値は8bitで学習し利用。学習後量子化に比べ高性能を達成。スケール則が成立。量子化前に正規化、学習時の重みや最適化法状態は高精度で保持し(Linearに使うのは量子化後)、学習率を大きくするなど工夫。
0
36
165
0
144
458
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
CEDEC 2023での基調講演「AIはゲームをどう変えるのか」の講演資料を公開します(講演中みせたデモ動画などは含まれていませんのでご了承ください)。言語モデル、拡散モデル、ニューラル場(NeRF)、事例などを中心に紹介しています
0
105
457
@hillbig
Daisuke Okanohara / 岡野原 大輔
9 months
LLMはたとえ訓練データが正しくてもHallucination(幻覚)を起こす。これは正しく較正された予測分布はGood-Turing推定と同じく、訓練中に1度だけ観測した事実と同じ確率を未知の事実に割り振るためである。幻覚低減には事前学習後、別の学習が必要であることを示す
1
104
453
@hillbig
Daisuke Okanohara / 岡野原 大輔
3 years
グラフを使った機械学習が2022にどうなるか予測。幾何の導入がさらに進み、曲率による特徴付けされる。まより進んだ対称性を導入するため圏論が必要となる。微分方程式を離散化した形でのGNNの定式化が進む。応用として創薬や化学に加えて強化学習やシミュレーションが増える
1
80
447
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 months
拡散モデルが表現学習できる理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習すること"のみ"重要だった(画素空間ではダメ)。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成できる
0
72
449
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 months
NNの学習はハイパーパラメータを座標軸、学習結果を色とした時、美しいフラクタル構造を作る。これは従来のフラクタル生成手法と同様、学習結果は同じ関数を反復適���した結果得られるためである。カオス的であり、勾配降下法によるメタ学習が難しいことも視覚化できている
0
110
451
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
AIと脳科学の若手サマースクール  での講演スライドをアップロードしました。深層学習の理論で なぜ学習できるのか、なぜ認識/生成できるのか, なぜ情報処理できるのかを話をしました
1
112
435
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
大規模言語モデルがIn-Context Learningをどのように実現しているかがわかってきている。Transformerは事前学習時に、プロンプトで与えられた事例を元にその場で前条件付勾配降下法による最適化した解が得られるよう学習している。(その場で学習できるよう学習している)
1
71
445
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
クロスエントロピー損失関数を使いSGDで学習した場合、訓練コストが0に近づいても学習し続けるとL2マージン最大化の解が得られ暗黙的な正則化効果で汎化する。訓練コストや検証コストが下げ止まっても学習をやめてはいけない。
1
137
431
@hillbig
Daisuke Okanohara / 岡野原 大輔
4 years
多くの物理情報(画像、動画、音声、幾何)は微分方程式の解とみなせ高次情報も構造を持つがNN陰関数表現でReLUを使うとその二次微分が0のため高次情報が失われる。sin関数を活性化関数として使うSIRENは詳細な表現ができ学習に成功する。重要な結果
1
98
433
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
ハエの嗅覚では、1層目が正規化、2層目が入力50から出力2000の疎(1個あたり6つに射影)かつ二値の乱択化射影、三層目がWinnerTakeAllで上位5%を残すことでLSHを実現。驚くことに既存のLSHより高精度。広げて疎にするアイデアのは参考になる
0
153
431
@hillbig
Daisuke Okanohara / 岡野原 大輔
3 years
バッチ正規化はなぜ汎化性能を改善できるか調べた結果、最終層直前の特徴量のノルム(EL2)が大きくなるのを抑えていたのが最も重要だった。単純にEL2を罰則項として加えるだけでバッチ正規化の汎化性能をほぼ再現できる。単純で有効な正則化方法がまだありそう
0
80
430
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 months
TransformerはKVキャッシュを状態として持つRNNとみなせ学習済みモデルもRNN化できる。従来は最も古い状態を捨てて固定サイズにするが、TOVAは毎回attentionが一��小さかったkvキャッシュを捨てる戦略で状態を固定サイズにし、元の1/8のキャッシュで同じ性能を達成できる
0
79
423
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
NNなどは関数がブラックボックスの問題があったが、テストデータの判断の際最も影響のあった訓練データを影響関数を使って求めることができる。影響関数には損失関数のヘシアンが必要だが高速に求める方法も提案。ICML ベストペーパー
1
111
419
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
深層強化学習は人の学習と比較して大量の学習データが必要だと指摘されていた。原因は逐次的なパラメータ更新と弱い帰納バイアスにある。しかし近年は、前者はノンパラに近いエピソード記憶を使った手法、後者はRNNが暗黙的に実現するメタ学習で解決されてきている
0
95
414
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
機械学習が生物学、医学、健康にどのように使われるかについてのチュートリアル。これらのデータを扱う際の注意点, DNA, RNA, タンパク質の解析/理解にどのように使えるのか、診断、逐次的意思決定で強化学習がどのように使えるのか 。深層学習が多くの問題で使われてきている
0
107
409
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
従来の機械学習の考えでは過学習しない適度な大きさのモデルが最適だが、ある条件下では訓練誤差ゼロからさらにモデルを大きくしたほうがテスト誤差が小さくなる二重降下現象が起きる。NN以外の他の多くのモデルでも起きる
0
80
409
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
様々な形状の点群の生成モデルとしてPointFlowを提案。形状を表す潜在変数を生成し、それから連続正規化フローのダイナミクスを作り、それに基づき事前分布の点群を目的の形状に変化させる。変分法を使った最尤推定で直接学習可能
0
98
398
@hillbig
Daisuke Okanohara / 岡野原 大輔
20 days
大規模言語モデルPLaMoの学習が終わり日本語向けベンチマークなどでGPT-4を超える性能を達成しました()。事前学習からフルスクラッチで構築しています。この成果を元にしたモデルのトライアル利用を本日より開始します。是非試してみてください
0
113
392
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
GANの学習で低解像度から徐々に解像度を上げ、生成器と識別器も層を増やしていくと学習が高速、安定化し高解像度の画像が生成できる。よいアイデア。いよいよ現実と見分けがつかない。
0
147
375
@hillbig
Daisuke Okanohara / 岡野原 大輔
4 years
多くの科学領域でシミュレーションが作られてきたが、尤度が計算できず、観測からの推論が困難で非効率なABCしか使えなかった。近年のML/DLの発展で高次元でも尤度や事後確率分布の代理関数を推定でき、微分可能なシミュレータを使って高度な推論ができるようになった
0
92
379
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
機械学習研究へのアドバイス。どの問題に取り組むかをよく考える。アイデアはいくらでもあり重要ではない。アイデアより目的志向の方が差別化しやすい。うまくいかないからといってすぐ別の問題に切り替えるのはよくない。新しい知識を得るため教科書や博論をたくさん読む。
1
66
383
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
“Chainer を振り返って” @beam2d Chainerのプロトタイプを見せてもらった時や、名前を考えてた時(一応erをつける貢献しました)、様々な概念を名前から1から作りあげていった当時の様子を鮮明に覚えています。彼なしではなし得なかったことだと思います。
2
113
377
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
LLMの生成テキストに電子透かしを入れる手法。直前のトークンから計算したハッシュ値と、乱数生成種を元に、次のトークンを生成する際に、トークン候補をグリーン集合(G)とレッド集合(R)に分け、Gに属するトークンの生成確率のlogitを定数分増やす。このようにして生成された文はGに属するトークン
1
102
377
@hillbig
Daisuke Okanohara / 岡野原 大輔
11 months
PFNは大規模言語モデル PLaMO-13Bを公開しました(技術詳細はこちら )。また、今回公開したモデルより大規模で高機能なマルチモーダル基盤モデルの開発と提供を行う新子会社Preferred Elementsを設立し、2024年度中の商用サービス提供を目指していきます。
@PreferredNetJP
Preferred Networks
11 months
【発表】PFNが開発した大規模言語モデル(LLM) PLaMo™︎ー13Bをオープンソースで公開しました。また、PLaMoの知見をもとにマルチモーダル基盤モデルを開発・提供する新子会社Preferred Elementsを11月に設立します。10月の #CEATEC2023 ではLLMを使ったデモも出展します。
3
243
803
0
116
379
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
マルチモーダルLLM(特に画像)についてのサーベイ。データ構築、モーダル間接続方法、学習方法、評価方法がまとまっている。LLMはタスク指示、結果取得のインターフェース以外にタスクの制御(タスク分解、ツール選定)、判断、言語由来知識による改善などで使える。
0
53
377
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
word2vecや最近の教師なし学習で使われる、関連があるペアを関連がないペアよりも近づけるcontrastive学習が、その後の教師あり学習タスクで役に立つ表現を獲得できることをいくつかの仮定をおくと理論的に示すことができる。役に立つ表現学習の理論解析に向けての第一歩
0
71
374
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
現在のNNは入力の小さなノイズに脆弱であり頑健ではない。マウスに複数の画像を見せた時の脳の活動を2光子顕微鏡でスキャンし画像間の活動の類似度行列を得、それとNNの活性値の類似度が似るよう正則化を加えることで頑健性を大きく改善。実際の脳を帰納バイアスとして利用
0
119
373
@hillbig
Daisuke Okanohara / 岡野原 大輔
9 months
Geminiは最初からマルチモーダルで学習を行なうことで性能改善。代表的ベンチマークMMLUで90%に(但し確信度が一定以上なら多数決、そうでないなら貪欲法で解を出す新推論の効果も大きい)。多くのタスクで最高精度を達成。複数DCで学習し、障害時にインメモリから復帰する
0
93
375
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
CNNの関数形自体が強力な事前知識になっており、学習をしてないCNNを使い、与えられた画像を生成するようにパラメータを調整するだけで、画像の超解像、修復が驚くほどできる。
0
115
368
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
NNの学習問題の殆ど全ての局所最適解は最適解であることが次の条件下で示された (いずれかの層のパラメータ数が学習事例より大きい または いずれかの層で訓練事例が線形分類可能) かつ 出力層に行くにしたがって層が小さくなる
0
140
361
@hillbig
Daisuke Okanohara / 岡野原 大輔
4 years
統計や機械学習でよく使われる白色化前処理や、ニュートン法など二次情報を使った最適化は、最初の層に総結合層(CNNも含む)を使ったモデルでは汎化性能を悪化させることが理論的に示せる。これらの操作がテストデータ予測時に有用な情報を破壊してしまうため
0
79
362
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
宝くじ仮説を進めてNNは初期化時点で重みを調整しなくても任意の(半分の深さの)NNをうまく近似できるサブネットワークが存在する、つまり初期化後、枝の刈り取りだけで学習できることが理論的に示された。勾配ベースでなく刈り取りベースの効率的な学習手法が待望される
0
96
368
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
3層の総結合層とReLUからなるNNは任意のN個の訓練データを幅が2N^{1/2}さえあれば全て丸暗記できる表現力を持ち、100万個、1000クラスからなるImageNetも4層、幅が2k~4kあれば丸暗記できる。これらの解は初期値が近ければSGDを使って高速に見つけることができる
0
87
367
@hillbig
Daisuke Okanohara / 岡野原 大輔
8 months
従来の画像認識は識別モデルだが、生成モデルが進展し生成モデルで高精度で認識することも現実的に可能となった。識別モデルがテキスチャを見て認識するのに対し、生成モデルによる認識は人と同様に形状を重視して識別し、人と間違え方が似ていることが示された。
0
70
369
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
GPT-4は問題解決能力を改善し、模試司法試験などでゼロショットで人の上位10%を達成。画像も扱える。従来モデル(LLM+RLHF)をスケールし、より長い文脈を扱える(32kトークン,
1
112
361
@hillbig
Daisuke Okanohara / 岡野原 大輔
10 months
大規模言語モデルを中心としたマルチモーダル基盤モデルの開発、販売を行う新会社Preferred ElementsをPFNからの会社分割により本日、設立しました。私が代表を努めます(引き続きPFN, PFCCの代表も努めます)。来年の商用サービス提供にむけ準備を鋭意進めていきます。
0
89
361
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
時系列モデルで、状態などの不確実性を含めた推定手法としてカルマンフィルタが広く使われている。Recurrent Kalman Networksは学習で得られた高次元の潜在状態上でカルマンフィルタを動かし、依存関係に制約を設け逆行列計算を必要としない効率的な学習を可能とする
0
74
354
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
LLMの学習ではデータの質が重要であり、明確、自己完結、有益でバランスされている「教科書」のようなデータと微調整用「練習問題」を既存LLMによるフィルタリングと生成で用意。結果のphi-1は1/10のモデルサイズ、1/100のデータ量でコード向け既存OSS LLMを超える性能を達成
0
88
364
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
「ニューラルネットの逆襲」をブログに書いてから、ちょうど5年が経ったので振り返りと今後についてのブログを書きました。
0
158
359
@hillbig
Daisuke Okanohara / 岡野原 大輔
2 years
拡散モデルの本を2月17日に岩波書店から出版します。驚くような多様性、表現力を持つ生成を実現する拡散モデルの背後にある美しい数理的構造やアルゴリズム、高次元データ生成の何が難しかったのか、なぜ実現できたのかについて踏み込んで解説しています。本の詳細についてはおって公開していきます。
@IwanamiNatura
岩波書店自然科学書
2 years
岡野原大輔著『拡散モデル――データ生成技術の数理』 2月17日の刊行に向けて印刷工程に入ります! 目次より 第1章 生成モデル 第2章 拡散モデル 第3章 連続時間化拡散モデル 第4章 拡散モデルの発展 第5章 アプリケーション 付録
Tweet media one
0
240
1K
0
85
362
@hillbig
Daisuke Okanohara / 岡野原 大輔
10 months
今年2月に岩波書店から出版した「拡散モデル」が、本年度の大川出版賞を受賞しました。大変名誉ある賞を頂き光栄です。
@IwanamiNatura
岩波書店自然科学書
10 months
【受賞】 岡野原大輔著『拡散モデルーーデータ生成技術の数理』 が本年度の第32回大川出版賞を受賞いたしました。
Tweet media one
0
37
174
2
48
363
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 years
CNNの出力でk-meansのクラスタリングをend-to-endで学習すると、画像特徴の教師なし学習が実現でき、分類、検出、セグメンテーションでImageNetのラベルを使った教師あり学習に近い精度を達成できる。CNNはランダムな重みでも粗く分類でき、それでブートストラップするため
0
77
352
@hillbig
Daisuke Okanohara / 岡野原 大輔
4 years
PFNという会社はどういう考えで運営されてるか、各状況でどんな決断をして行動してきたか、今後をどう考えているかをまとめた本を西川と書きました。会社は現在進行形でまだ成功したわけでありませんが、混沌とした世界を生き抜いていく中で何か参考になればと思います
0
101
350
@hillbig
Daisuke Okanohara / 岡野原 大輔
5 years
構造化行列(FFT, アダマール等)は高速行列積を実現できるが人手で設計していた。万華鏡行列(Kaleidoscope行列)は既知の殆どの構造化行列、疎行列をほぼ最適な空間/時間計算量で表現でき、微分可能であり実際高速である。離散的な操作(置換)も高速に学習できる
0
88
357
@hillbig
Daisuke Okanohara / 岡野原 大輔
6 months
NLP2024ワークショップで話した「大規模言語モデル開発の展望と今後の課題」の講演資料を公開します。PFN/PFEのLLM開発予定、LLM開発における様々なトピック(学習データ整備、MoE、Mamba、LongContext、推論効率化)などを紹介しています。
0
76
360
@hillbig
Daisuke Okanohara / 岡野原 大輔
3 years
コード自動生成を行うGithub Copilot(Codex)の論文。GPTを使いdocstringで条件付けして関数を生成、159GBのpythonコードで学習、複数サンプルしunittest通過率で評価。トークン平均対数尤度が高いサンプルが有効。説明が長い、変数が多い、処理が長くなる場合に精度が落ちる
1
93
355
@hillbig
Daisuke Okanohara / 岡野原 大輔
4 years
与えられた画像セット対から画像から画像への変換(c.f. CycleGAN)を学習する場合、NNを使う場合が多いが、(驚くことに)多くの変換は直交変換に制限した線形変換で実現でき、画像セットをPCAで低次元射影した上で対応関係を求めるだけで実現できる
1
84
355
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
数十万クラスからなる画像分類タスクの学習では、一つの分類器で分類する”万能家を直接学習させるよりも、特定のグループ(家、車、飛行機など)毎に”専門家”集団を学習させ、その専門家集団を一つの万能家に蒸留させた方が性能が良い
0
107
354
@hillbig
Daisuke Okanohara / 岡野原 大輔
7 years
深層学習は非凸最適化であり、非凸性は活性化関数と多層の二つから構成される。一方学習によって見つかる局所最適解は最適解に近いと予想されている。少なくとも多層によって生み出される非凸性に基づく局所最適解は全て最適解と同じことが示された
0
147
349
@hillbig
Daisuke Okanohara / 岡野原 大輔
1 year
LLMでChain-of-Thought(CoT)がなぜ必要かの理論解析。特定の数学の問題(他問題でも考えは適用可能)では、NNはモデルサイズが入力長に対し急激に大きくしないと解けないことが証明でき、CoT+自己回帰は有効な深さを仮想的に増やすことで解けるようにしている
0
56
347