Daisuke Okanohara / 岡野原大輔 @hillbig profile

Daisuke Okanohara / 岡野原大輔

@hillbig

Followers

31,132

Following

649

Media

270

Statuses

5,580

Co-founder and Representative Director of Preferred Networks (PFN). CEO of Preferred Computational Chemistry and Preferred Element. Interested in AI and science

https://t.co/xPj811MRdO

Japan Tokyo

Joined January 2008

Don't wanna be here? Send us removal request.

Explore tweets Explore followers Explore following

Explore trending content on Musk Viewer

Oasis • 450763 Tweets

P-POP IWAGAYWAY ANG WATAWAT • 198793 Tweets

#SB19atGENTOsaKorea • 188625 Tweets

台風の影響 • 178614 Tweets

Ugarte • 93904 Tweets

#SB19atBillboardKPower100 • 84342 Tweets

SB19 GRACES BILLBOARD KOREA • 61893 Tweets

オアシス • 43428 Tweets

PS5値上げ • 42859 Tweets

周辺機器 • 30975 Tweets

#Startend • 27143 Tweets

月見バーガー • 24275 Tweets

ニンダイ • 23924 Tweets

ゲーミングPC • 19176 Tweets

#STAWIN • 15838 Tweets

中国外務省 • 12688 Tweets

ゲーム機 • 11352 Tweets

スタテン • 11243 Tweets

インテグラル

ブリーダーズゴールドカップ

危機契約

バント失敗

転売ヤー

PCの方

シークレットステッカー

カリステ

川村記念美術館

Switch後継機

ミミッキュライト

オーサムリザルト

ナイスタイムリー

自動ログアウト

伊藤将司

デスパイネ

澤井くん

全モデル7万円超え

モンハンのため

UMA Summer

فهد المولد

花火ボイス

幻想薬セール

كومان

レイエス

モイネロ

プレステ5

値上げ前

#神域リーグ2024

Amrabat

稲刈りツアー

イトマサ

Last Seen Profiles

@SAsomedey

@galgitron

@UNA_NIKA

@Tip_____xx

@Beti_Satguru_Ki

@sotwecom

@Akechi_Toumabot

@NN_8888_n

@tchourmeni

@rody_

@ireinnv

@doll_kavipriya

@snlester

@heather_us93328

@NN0URR

@lavchase

@charis_ellwo

@nchrysoloras

@TWO__TIME

@OvuncAslan

Pinned Tweet

Daisuke Okanohara / 岡野原大輔

@hillbig

6 days

（画像修正して再掲） PLaMo β版のトライアル版をリリースして2週間経ち、多くの方に試していただいております。フルスクラッチで作ったモデルであり主要な日本語ベンチマークなどで最も高い性能を達成しています。トライアル利用を募集してますのでぜひ試してください。

0

3

6

Daisuke Okanohara / 岡野原大輔

@hillbig

8 years

ロボカップにはいろいろなロボットがそこら中いますが、一番すごかったのが羽ばたいて飛ぶロボット。450g、一番重いのがバッテリー、10分飛べるそうです

2

5K

4K

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

微分、積分、微分方程式などのシンボリックな数学方程式はNNで驚くほどの精度で解ける。方程式を木表現経由のポーランド記法で表し、Transformerを使ったseq2seqで教師あり学習する。MathematicaやMatlabを超える求解率を達成できる他、有効な解を一つだけでなく多く列挙できる

Deep Learning For Symbolic Mathematics

We train a neural network to compute function integrals, and to solve complex differential equations.

openreview.net

2

726

2K

Daisuke Okanohara / 岡野原大輔

@hillbig

3 years

「ディープラーニングを支える技術」という本を書きました。各手法やアイディアの背後にある原理や考え方を詳しく説明し、最新トピックもカバーしてます。また人工知能の簡単な歴史、DLの位置付け、今後についてもまとめています。電子版は12/24、紙版は1/8に発売予定です。

0

294

1K

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

鈴木大慈先生による深層学習の理論解析、特に表現能力、汎化能力、最適化理論について。重要なトピックを幅広くカバーしており、最新のNeural Tangent Kernelや二重効果なども解説されている。英語でもこれほど充実しているのは無いと思う。

深層学習の数理

深層学習の数理 - Download as a PDF or view online for free

www.slideshare.net

0

372

1K

Daisuke Okanohara / 岡野原大輔

@hillbig

8 years

@hillbig 鳥が好評だったので、そのアップの動画も。全体を軽くしたのと、エネルギー効率を良くするためになめらかに動かす部分、バランスをとって向きを変えるためにいろんなところが連動する

1

2K

1K

Daisuke Okanohara / 岡野原大輔

@hillbig

6 years

多層NNの最適化が難しそうなのになぜ成功するかについて、reluを使ったNNに対しデータが退化してなく、NNが過剰に多くのパラメータを備えていればSGDを使った学習は最適解に多項式時間で収束することが証明された。NNの未解決問題の一つが（おそらく）解かれた

A Convergence Theory for Deep Learning via Over-Parameterization

Deep neural networks (DNNs) have demonstrated dominating performance in many fields; since AlexNet, networks used in practice are going wider and deeper. On the theoretical side, a long line of...

arxiv.org

1

507

1K

Daisuke Okanohara / 岡野原大輔

@hillbig

8 years

深層学習がうまくいくのは、自然界の対象の問題の特徴に低次元、局所影響性、対称性がみられ、データ生成過程にマルコフ性が成り立ち、逆向きに推論できるから。自然にみられるデータの特徴付けに物理の考えで切り込んだ物理界20歳すごい。

Why does deep and cheap learning work so well?

We show how the success of deep learning could depend not only on mathematics but also on physics: although well-known mathematical theorems guarantee that neural networks can approximate...

arxiv.org

0

565

1K

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

最小二乗法を解くには共分散行列を求める必要がある。カラテオドリの定理を使えば、d次元入力の共分散行列はd^2+1点の重み付き入力の共分散行列で近似無（!）に表せ、これらは観測点数、次元数に比例する計算量で求められる。最小二乗法を使った多くの手法を劇的に高速化可能

Fast and Accurate Least-Mean-Squares Solvers

Least-mean squares (LMS) solvers such as Linear / Ridge / Lasso-Regression, SVD and Elastic-Net not only solve fundamental machine learning problems, but are also the building blocks in a variety...

arxiv.org

1

281

1K

Daisuke Okanohara / 岡野原大輔

@hillbig

6 months

来日中のZuckerberg氏にお会いし、有意義な議論ができました。ありがとうございました。I met Mr. Zuckerberg during his visit to Japan and had a fruitful discussion. Thank you very much.

4

138

1K

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

大規模言語モデルのHallucination（幻覚、誤った事実）の起源について。人手で作った対話ベンチマークの60%に既に幻覚が含まれており、多くが主観的な意見、または啓発的な内容に基づくもの。これを学習して作った対話モデルは幻覚を増幅、露出バイアス、最尤推定が主な原因

On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models?

Nouha Dziri, Sivan Milton, Mo Yu, Osmar Zaiane, Siva Reddy. Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technol...

aclanthology.org

1

388

1K

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

大規模言語モデル（ChatGPT等）についての本を岩波書店より6/20に出版します。何ができるか、課題はなにか、実現技術（自己教師あり学習、機械学習のべき乗則、本文中学習、RLHF）、言語や知識獲得の謎、今後の展望についてです。私の従来本と違い専門知識を必要とせず読んでいだけるよう書いています

岩波書店

@Iwanamishoten

1 year

【新刊予告】 #ChatGPT を支える大規模言語モデルの仕組みとは。何が可能となり、どんな影響が考えられるのか。新たな知能の正負両面をみつめ今後の付き合い方を考えます。岡野原大輔『大規模言語モデルは新たな知能か――ChatGPTが変えた世界』（6/20発売予定、予約受付中）☞

0

113

417

3

353

1K

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

強化学習の代表手法であるモンテカルロ法、TD法、SARSA、Q学習の違いを、わかりやすく可視化。異なる状態遷移軌跡が合流する位置で価値関数をどのように更新するかで各手法の違いが説明できる

The Paths Perspective on Value Learning

A closer look at how Temporal Difference Learning merges paths of experience for greater statistical efficiency

distill.pub

0

202

894

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

統計数理シンポジウム2023（）での講演資料を公開します。大規模言語モデルや拡散モデルなどの生成モデルが世界をどのように理解しているのかについてです。自己教師あり学習、メタ学習（in-context learning）などの話題をとりあげています。

1

227

878

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

GANの作者であるGoodfellow がGANの論文たくさんあって何から追えばいいかわからない人向けに10個の論文を推薦しています。理論、符号化、差分プライバシー、高精細、多クラス、条件付けなど

@[email protected] on Mastodon

@timnitGebru

7 years

Does someone have a list like the 10 or even 20 GAN related papers I should read this year or something like this? I can't keep up. @goodfellow_ian ?

19

109

509

0

256

859

Daisuke Okanohara / 岡野原大輔

@hillbig

6 years

今年一番驚き謎な論文。画像認識で畳み込みを使う代わりに、画素毎に固定のノイズを加え、非線形変換を施した後、カーネル1x1の線形変換を使っても同じ精度が達成できる。空間方向で情報を明示的に混ぜなくても良い。空間方向の冗長性から周辺の情報は各画素に既にあるのか

Perturbative Neural Networks

Convolutional neural networks are witnessing wide adoption in computer vision systems with numerous applications across a range of visual recognition tasks. Much of this progress is fueled through...

arxiv.org

2

234

813

Daisuke Okanohara / 岡野原大輔

@hillbig

2 years

本の紹介。ファイザーの新型コロナワクチンの開発9ヶ月間の内情を細やかにCEO自身が書いた。従来数年かかる開発/治験を9ヶ月で終わらせ1年で数十億本を製造/流通する体制を構築したのはアポロ計画に並ぶ偉業であり、それを国でなく一企業が実現した。面白くて一気に読んだ。

Moonshot（ムーンショット）～ファイザー不可能を可能にする9か月間の闘いの内幕～

新型コロナワクチン開発の舞台裏を、ファイザー会長兼CEOが自ら語る。著者のビジョンあるリーダーシップのもと、ファイザーの科学者たちとパートナーのビオンテック社が共闘した2020年の濃密な9か月間。それは、彼らが安全で有効な新型コロナワクチンの開発、治験、製造という従来であれば何年もかかるプロセスをわずか9か月で達成し、「不可能を可能にする」までの物語だった。

www.amazon.co.jp

1

105

799

Daisuke Okanohara / 岡野原大輔

@hillbig

4 years

2020 Jun.のTop500においてPFNのMN-Coreを使ったMN-3が電力効率の高性能計算の実現を評価するGreen500で1位になりました。実現に向けて尽力したチームメンバーを誇りに思います。

0

297

760

Daisuke Okanohara / 岡野原大輔

@hillbig

2 years

前著に続き「ディープラーニングを支える技術２」を書きました。なぜDLは学習できるのか、汎化するのか、深層生成モデル（VAE/GAN/AR/NF/DM)、深層強化学習（AlphaGoシリーズ等）、今後のDLや人工知能の課題や展望について書きました。4/18電子版 4/21紙版発売予定です

0

141

755

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

強化学習の創始者の一人として知られるR. Sutton氏がこの70年のAI研究からわかったこととして、人間のドメイン知識を利用した手法改善は短期的には有効だが、長期的には計算能力の指数的な向上を活かした”学習”と"探索”に基づく汎用の手法が大きな差をつけて上回るとコメント

0

233

729

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

大規模言語モデル本のサポートページを公開しました。本書では大規模言語モデルの可能性と課題、その仕組みを一般の方でも読めるように書いています。また最新の研究成果に基づく知見や将来の展望もまとめています。6/20に発売予定ですので、ご興味ある方はご予約ください。

10

173

695

Daisuke Okanohara / 岡野原大輔

@hillbig

6 years

GQNは複数の視点の画像だけから、対象の三次元世界を符号化し異なる視点からの視界を復元する。空間モデルを潜在変数とする潜在モデルで最適化する。Structure from MotionをNNで直接解いたものであり、この1~2年内の最大の進歩と言っていいと思う

Neural Scene Representation and Rendering

More info: https://deepmind.com/blog/neural-scene-representation-and-rendering/

www.youtube.com

0

270

692

Daisuke Okanohara / 岡野原大輔

@hillbig

3 months

LLMに新しい知識をファインチューニングを用いて導入しようとすると、事前学習時に得た知識もハルシネーションするようになり性能が悪化する。事前学習時に知らない知識を獲得するのに時間がかかり複数回参照すると過学習するため。事前学習時に学んだが、使えていない知識をファインチューニングで引

1

164

696

Daisuke Okanohara / 岡野原大輔

@hillbig

6 months

NNで訓練誤差が0になった後も学習を続けると汎化性能が改善されるGrokkingは、非線形領域（動画中の黒線）が分類面に移動する相転移がおき、サンプル周辺領域が線形化される（敵対的摂動にも頑健になる）現象がおこるため。動画による可視化がすごい

Grokking Visualized for MLP trained on MNIST

Supplementary Video for paper:Grokking Happens All the Time and Here is Whybit.ly/grok-adversarialWe train a 4 layer MLP with 256 width, on 1000 training sam...

www.youtube.com

1

135

681

Daisuke Okanohara / 岡野原大輔

@hillbig

2 months

今のLLMを使った言語処理においてパーシングや意味解析を使うことなく必要なく、本当に解きたかった対話や機械翻訳が解けているのと同様に、画像処理において画像分類や物体検出は最終的なタスクを解くのに必要ないのではという、現代の物体検出を作ってきたGirshick氏による議論をよぶプレゼン。

0

137

681

Daisuke Okanohara / 岡野原大輔

@hillbig

6 months

赤ちゃん（生後6ヶ月から25ヶ月の間）にヘッドマウントカメラをつけ、何を見て聞いたのかを記録し、そのうちの60万フレーム、約3万発言を使って画像と言語の対比学習を実行。61.6%の精度（4億のウェブデータ使ったCLIPに匹敵）でin-domainの分類ができるほど対応関係を学習できる。

2

188

646

Daisuke Okanohara / 岡野原大輔

@hillbig

8 months

Deep Learning研究の各分野を代表する人たちが「これから取り組むべき大きな問題」「DeepLearningの理解は進んでいるか」「説明可能性」「ベンチマーク」「Transformerの次はあるか」「アカデミックの立場は」などを議論。面白いオチもついている

Perspectives on the State and Future of Deep Learning - 2023

The goal of this series is to chronicle opinions and issues in the field of machine learning as they stand today and as they change over time. The plan is to host this survey periodically until...

arxiv.org

1

115

630

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

ソートやargmaxを取る操作は離散的であり微分可能でない。しかし、これらの操作は入力とソート済みのあらかじめ決められた配列間の最適輸送問題とみなし、微分可能なSinkHornアルゴリズムで解くと、全体も微分可能な操作となる。順位やtop-k操作を微分可能で扱える

Differentiable Ranks and Sorting using Optimal Transport

Sorting an array is a fundamental routine in machine learning, one that is used to compute rank-based statistics, cumulative distribution functions (CDFs), quantiles, or to select closest...

arxiv.org

0

134

567

Daisuke Okanohara / 岡野原大輔

@hillbig

4 years

NeRFは座標と視点方向角を与えるとそこに物体が存在する確率と輝度を返すMLPを複数の位置視点付き画像から学習し、複雑なシーンの写実的な画像を任意の視点から生成できる。画像生成、空間表現でDCGANやGQN登場時並のインパクトがある

NeRF: Neural Radiance Fields

A method for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views.

www.matthewtancik.com

0

180

528

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

RNNの時間遷移関数として、現在の状態と入力で定義されるODEの均衡点を返す関数を使うと、どれだけ遷移しても勾配が全く発散/消失せず、状態は均衡多様体上で安定して遷移できる。重要な問題を本質的に解決しておりRNNや深いNNのすごく大きなブレークスルーと思う。

RNNs Evolving on an Equilibrium Manifold: A Panacea for Vanishing...

Recurrent neural networks (RNNs) are particularly well-suited for modeling long-term dependencies in sequential data, but are notoriously hard to train because the error backpropagated in time...

arxiv.org

0

134

525

Daisuke Okanohara / 岡野原大輔

@hillbig

6 years

強化学習と制御問題は確率の推論問題と捉えられることを示した良い解説論文。状態、行動、報酬的に最適であるかを示す最適性変数でグラフィカルモデルを構成し、最適と条件づけした上で状態と行動を求めると様々な強化学習が導出され、確率モデルの様々な技術が使える

Reinforcement Learning and Control as Probabilistic Inference:...

The framework of reinforcement learning or optimal control provides a mathematical formalization of intelligent decision making that is powerful and broadly applicable. While the general form of...

arxiv.org

0

133

523

Daisuke Okanohara / 岡野原大輔

@hillbig

2 months

LLMのハルシネーションを検出するには複数の回答を生成し、同じ意味同士をまとめて一致するかを意味エントロピー（SE）で評価するのが有効だが高コストだった。代わりにSEは隠れ層から線形回帰で高精度で予測できる。LLMは生成前から自分が知っていないことを知っている

Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs

We propose semantic entropy probes (SEPs), a cheap and reliable method for uncertainty quantification in Large Language Models (LLMs). Hallucinations, which are plausible-sounding but factually...

arxiv.org

0

126

525

Daisuke Okanohara / 岡野原大輔

@hillbig

5 months

学習済みのLLMから、層毎に入力と出力間のcos類似度が大きい層（変化が少ない層）を間引いても精度は落ちない。特に最後の層だけ除いて深い側の層を2~4割間引いても質問応答などの精度は変わらず、知識の大部分が低い層にあることを示唆する。学習手法やモデル設計の参考にも

The Unreasonable Ineffectiveness of the Deeper Layers

We empirically study a simple layer-pruning strategy for popular families of open-weight pretrained LLMs, finding minimal degradation of performance on different question-answering benchmarks...

arxiv.org

0

96

511

Daisuke Okanohara / 岡野原大輔

@hillbig

2 months

人にとって言語は思考よりもコミュニケーションの道具であるという主張。20年間の神経科学の研究成果に集積に基づく。失語症や言語を獲得していない場合でも思考能力は獲得でき、逆に言語能力が完全にあっても思考能力に問題がある場合があり、言語は思考にとって十分条件でも必要条件でもない。

2

148

506

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

いよいよ要約生成の論文の要約が提案手法で書かれる時代が来た。重要文をPointerNetworkで抜き出した後、導入、重要文、要約、本文の順に並べた文書生成を自己注意機構ベース言語モデルで学習。推論時は導入、重要文で条件付して要約を生成する。

On Extractive and Abstractive Neural Document Summarization with...

We present a method to produce abstractive summaries of long documents that exceed several thousand words via neural abstractive summarization. We perform a simple extractive step before...

arxiv.org

0

174

497

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

日経ロボティクスにAI最前線という記事を2015年より連載しており、最新の話題を早く手加減せずに書くことをモットーにして書き続け気づいたらもうすぐ50回になります。過去の記事が無償で見られるようになっていますのでご興味のある方は読んでみてください

AI最前線

世界レベルのAIの動向を知るためのコラム。ファナックやトヨタ自動車が出資するAIベンチャー Preferred Networksの共同創業者、岡野原大輔氏がAIの先端動向を解説しています。

xtech.nikkei.com

0

169

494

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

脳の大脳新皮質の学習は100ミリ秒未来の予測と実際との誤差を教師信号として学習される説を提案。視床枕が予測を映し出すスクリーンの役目を担い、α波に従って予測と実際を切り替えその誤差が各領域に伝搬され逆誤差伝搬法と同じ更新がされる

Deep Predictive Learning: A Comprehensive Model of Three Visual Streams

How does the neocortex learn and develop the foundations of all our high-level cognitive abilities? We present a comprehensive framework spanning biological, computational, and cognitive levels,...

arxiv.org

1

200

480

Daisuke Okanohara / 岡野原大輔

@hillbig

7 months

AlphaGeometryは国際数学オリンピックの幾何問題を従来の金メダリストと同レベルに解ける。1億問の問題を人工的に生成し、仮説と結果の後に証明を後続した文字列を作り、LLMを学習。演繹エンジンを使って証明し、それが詰まった時、有用な途中目標をLLMが追加し協力して解く

AlphaGeometry: An Olympiad-level AI system for geometry

Our AI system surpasses the state-of-the-art approach for geometry problems, advancing AI reasoning in mathematics

deepmind.google

0

151

483

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

これまで画像の最大の訓練データは百万枚のImagenetのままであった。訓練データを3億枚に増やし50GPUで2ヶ月かけ学習した結果，精度はデータ数の対数に比例して向上し続け、学習済みモデルは各タスクで有効と分かった

Revisiting Unreasonable Effectiveness of Data in Deep Learning Era

The success of deep learning in vision can be attributed to: (a) models with high capacity; (b) increased computational power; and (c) availability of large-scale labeled data. Since 2012, there...

arxiv.org

0

210

465

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

@alfredplpl LLMがこのようなことができる（もしくはできない）ことを説明する研究は既に多くでていると思います。LLMが次の単語予測タスクを目標とした自己教師あり学習を介して様々な能力を獲得でき、特に言語については言語自体が持つ構造（特に構成性）も利用していること、またin-context

1

108

470

Daisuke Okanohara / 岡野原大輔

@hillbig

11 months

NNの効率/精度において枝刈りと量子化のどちらが優れているか理論解析、実験結果で比較し、量子化が常に優れていることが示された。しかも、比較に使った枝刈りは非構造化枝刈りでありHWで性能が出せる構造化枝刈りではさらに制約があるため差が大きくなる。

Pruning vs Quantization: Which is Better?

Neural network pruning and quantization techniques are almost as old as neural networks themselves. However, to date only ad-hoc comparisons between the two have been published. In this paper, we...

arxiv.org

0

76

473

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

言語モデル（LM）が意味を理解しているのかを調べるため、プログラムに対するLMを構築し、LMの内部状態からプログラムの意味を推定する実験をした結果、単語予測精度と意味推定精度の改善ペースがほぼ一致し、またLMが将来に何を生成するかを考えていることもわかった。

Emergent Representations of Program Semantics in Language Models...

We present evidence that language models (LMs) of code can learn to represent the formal semantics of programs, despite being trained only to perform next-token prediction. Specifically, we train...

arxiv.org

2

105

468

Daisuke Okanohara / 岡野原大輔

@hillbig

6 years

NNが学習する関数をフーリエ解析で調べた結果、NNの重みが有限ならば、周波数が大きい成分は急速に減衰していくことがわかった。NNは単純な関数を学習するようにバイアスがかかっており、複雑な関数も単純な関数の組み合わせで表現することで汎化性能の獲得に貢献している

On the Spectral Bias of Neural Networks

Neural networks are known to be a class of highly expressive functions able to fit even random input-output mappings with $100\%$ accuracy. In this work, we present properties of neural networks...

arxiv.org

0

154

458

Daisuke Okanohara / 岡野原大輔

@hillbig

4 months

LLMはパラメータ一つあたり2bitの情報を様々な後続タスクに利用可能な形で格納できる。他の結果も含めべき乗則の論文以来の重要な結果と思う。人工的に三つ組（名前/属性/値）のデータを設計し様々な規模、アーキテクチャで検証。7Bモデルでもwikipediaと全教科書情報は全て覚えられる。

0

115

472

Daisuke Okanohara / 岡野原大輔

@hillbig

2 years

拡散モデルの本のサポートページを公開しました。この本は拡散モデルの数理の本質を理解することを主眼におき、スコア、エネルギーベースモデル、潜在変数モデル、連続時間（SDE/ODE）表現、対称性との関係、また特性を活かした様々なアプリケーション例を紹介しています。

1

85

465

Daisuke Okanohara / 岡野原大輔

@hillbig

2 years

自己位置と方角を入力とし移動を目的地に到達するRNNで強化学習すると高い成功確率で到達できる上に内部状態に地図が自動的に構築される。記憶が重要な役割を果たし、一度到達した時の記憶を他に移植すると、ショートカットとかもできる。個人的今年ベスト3に入る面白い論文

Emergence of Maps in the Memories of Blind Navigation Agents

‘Blind’ AI navigation agents (with only egomotion sensing) can learn to navigate new environments and build map-like representations (supporting the ability to take shortcuts, follow walls, and...

openreview.net

1

81

462

Daisuke Okanohara / 岡野原大輔

@hillbig

3 months

先日のAI・人工知能EXPO2024での講演資料「生成AIの進化と今後の展望」を以下に公開します。LLMの仕組み、PFNグループにおけるLLM開発の取り組み、今後の展望、特に学習データの改善、知識の取り込みなどについてまとめています。興味のある方は見てみてください。

0

108

461

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

Deep RL bootcampの講義資料、ビデオ、サンプルコードが公開されました。最新の深層強化学習を一通り学ぶことができます。（Chainerのよいサンプルコードでもあります）

Deep RL Bootcamp - Labs

Labs

sites.google.com

0

129

452

Daisuke Okanohara / 岡野原大輔

@hillbig

6 years

大きなNNほど学習、汎化がうまくいくのは，その一部のネットワークが運良く高い収束性能と汎化性能を持つ構造と初期値をひく確率が高くなるからという”宝くじ仮説”を提唱。重みを大きさを元に枝刈りして同じ初期値から学習しても同じ性能を達成できる。

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

Neural network pruning techniques can reduce the parameter counts of trained networks by over 90%, decreasing storage requirements and improving computational performance of inference without...

arxiv.org

0

151

448

Daisuke Okanohara / 岡野原大輔

@hillbig

6 months

BitNet b1.58はBitNet()の重みを2値でなく3値{-1, 0, 1}で持ち学習。3BでPPLと後続タスク性能で元のLLMに匹敵か超える性能を達成。活性値は8bitで持つので行列乗算は効率的なINT8加減算に置き換えられる。 == コメント：

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single...

arxiv.org

Daisuke Okanohara / 岡野原大輔

@hillbig

10 months

BitNetはTransformerのLinear（MLPとProjection）の重みを1bit、活性値は8bitで学習し利用。学習後量子化に比べ高性能を達成。スケール則が成立。量子化前に正規化、学習時の重みや最適化法状態は高精度で保持し（Linearに使うのは量子化後）、学習率を大きくするなど工夫。

0

36

165

0

144

458

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

CEDEC 2023での基調講演「AIはゲームをどう変えるのか」の講演資料を公開します（講演中みせたデモ動画などは含まれていませんのでご了承ください）。言語モデル、拡散モデル、ニューラル場（NeRF）、事例などを中心に紹介しています

0

105

457

Daisuke Okanohara / 岡野原大輔

@hillbig

9 months

LLMはたとえ訓練データが正しくてもHallucination（幻覚）を起こす。これは正しく較正された予測分布はGood-Turing推定と同じく、訓練中に1度だけ観測した事実と同じ確率を未知の事実に割り振るためである。幻覚低減には事前学習後、別の学習が必要であることを示す

Calibrated Language Models Must Hallucinate

Recent language models generate false but plausible-sounding text with surprising frequency. Such "hallucinations" are an obstacle to the usability of language-based AI systems and can harm people...

arxiv.org

1

104

453

Daisuke Okanohara / 岡野原大輔

@hillbig

3 years

グラフを使った機械学習が2022にどうなるか予測。幾何の導入がさらに進み、曲率による特徴付けされる。まより進んだ対称性を導入するため圏論が必要となる。微分方程式を離散化した形でのGNNの定式化が進む。応用として創薬や化学に加えて強化学習やシミュレーションが増える

Predictions and hopes for Geometric & Graph ML in 2022

Leading researchers in Geometric & Graph ML summarise the progress in 2021 and make predictions for 2022

towardsdatascience.com

1

80

447

Daisuke Okanohara / 岡野原大輔

@hillbig

7 months

拡散モデルが表現学習できる理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習すること"のみ"重要だった（画素空間ではダメ）。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成できる

Deconstructing Denoising Diffusion Models for Self-Supervised Learning

In this study, we examine the representation learning abilities of Denoising Diffusion Models (DDM) that were originally purposed for image generation. Our philosophy is to deconstruct a DDM,...

arxiv.org

0

72

449

Daisuke Okanohara / 岡野原大輔

@hillbig

7 months

NNの学習はハイパーパラメータを座標軸、学習結果を色とした時、美しいフラクタル構造を作る。これは従来のフラクタル生成手法と同様、学習結果は同じ関数を反復適��した結果得られるためである。カオス的であり、勾配降下法によるメタ学習が難しいことも視覚化できている

Neural network training makes beautiful fractals

This blog is intended to be a place to share ideas and results that are too weird, incomplete, or off-topic to turn into an academic paper, but that I think may be important. Let me know what you...

sohl-dickstein.github.io

0

110

451

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

AIと脳科学の若手サマースクール　での講演スライドをアップロードしました。深層学習の理論でなぜ学習できるのか、なぜ認識/生成できるのか, なぜ情報処理できるのかを話をしました

Deep Learning Practice and Theory

Deep Learning Practice and Theory - Download as a PDF or view online for free

www.slideshare.net

1

112

435

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

大規模言語モデルがIn-Context Learningをどのように実現しているかがわかってきている。Transformerは事前学習時に、プロンプトで与えられた事例を元にその場で前条件付勾配降下法による最適化した解が得られるよう学習している。（その場で学習できるよう学習している）

1

71

445

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

クロスエントロピー損失関数を使いSGDで学習した場合、訓練コストが0に近づいても学習し続けるとL2マージン最大化の解が得られ暗黙的な正則化効果で汎化する。訓練コストや検証コストが下げ止まっても学習をやめてはいけない。

The Implicit Bias of Gradient Descent on Separable Data

We examine gradient descent on unregularized logistic regression problems, with homogeneous linear predictors on linearly separable datasets. We show the predictor converges to the direction of...

arxiv.org

1

137

431

Daisuke Okanohara / 岡野原大輔

@hillbig

4 years

多くの物理情報（画像、動画、音声、幾何）は微分方程式の解とみなせ高次情報も構造を持つがNN陰関数表現でReLUを使うとその二次微分が0のため高次情報が失われる。sin関数を活性化関数として使うSIRENは詳細な表現ができ学習に成功する。重要な結果

1

98

433

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

ハエの嗅覚では、1層目が正規化、2層目が入力50から出力2000の疎（1個あたり6つに射影）かつ二値の乱択化射影、三層目がWinnerTakeAllで上位5%を残すことでLSHを実現。驚くことに既存のLSHより高精度。広げて疎にするアイデアのは参考になる

0

153

431

Daisuke Okanohara / 岡野原大輔

@hillbig

3 years

バッチ正規化はなぜ汎化性能を改善できるか調べた結果、最終層直前の特徴量のノルム（EL2）が大きくなるのを抑えていたのが最も重要だった。単純にEL2を罰則項として加えるだけでバッチ正規化の汎化性能をほぼ再現できる。単純で有効な正則化方法がまだありそう

Deconstructing the Regularization of BatchNorm

Batch normalization (BatchNorm) has become a standard technique in deep learning. Its popularity is in no small part due to its often positive effect on generalization. Despite this success, the...

openreview.net

0

80

430

Daisuke Okanohara / 岡野原大輔

@hillbig

7 months

TransformerはKVキャッシュを状態として持つRNNとみなせ学習済みモデルもRNN化できる。従来は最も古い状態を捨てて固定サイズにするが、TOVAは毎回attentionが一��小さかったkvキャッシュを捨てる戦略で状態を固定サイズにし、元の1/8のキャッシュで同じ性能を達成できる

Transformers are Multi-State RNNs

Transformers are considered conceptually different from the previous generation of state-of-the-art NLP models - recurrent neural networks (RNNs). In this work, we demonstrate that decoder-only...

arxiv.org

0

79

423

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

NNなどは関数がブラックボックスの問題があったが、テストデータの判断の際最も影響のあった訓練データを影響関数を使って求めることができる。影響関数には損失関数のヘシアンが必要だが高速に求める方法も提案。ICML ベストペーパー

Understanding Black-box Predictions via Influence Functions

How can we explain the predictions of a black-box model? In this paper, we use influence functions -- a classic technique from robust statistics -- to trace a model's prediction through the...

arxiv.org

1

111

419

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

深層強化学習は人の学習と比較して大量の学習データが必要だと指摘されていた。原因は逐次的なパラメータ更新と弱い帰納バイアスにある。しかし近年は、前者はノンパラに近いエピソード記憶を使った手法、後者はRNNが暗黙的に実現するメタ学習で解決されてきている

Reinforcement Learning, Fast and Slow

Deep reinforcement learning (RL) methods have driven impressive advances in artificial intelligence in recent years, exceeding human performance in domains ranging from Atari to Go to no-limit poker....

www.cell.com

0

95

414

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

機械学習が生物学、医学、健康にどのように使われるかについてのチュートリアル。これらのデータを扱う際の注意点, DNA, RNA, タンパク質の解析/理解にどのように使えるのか、診断、逐次的意思決定で強化学習がどのように使えるのか。深層学習が多くの問題で使われてきている

0

107

409

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

従来の機械学習の考えでは過学習しない適度な大きさのモデルが最適だが、ある条件下では訓練誤差ゼロからさらにモデルを大きくしたほうがテスト誤差が小さくなる二重降下現象が起きる。NN以外の他の多くのモデルでも起きる

Benefit of Interpolation in Nearest Neighbor Algorithms

The over-parameterized models attract much attention in the era of data science and deep learning. It is empirically observed that although these models, e.g. deep neural networks, over-fit the...

arxiv.org

0

80

409

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

様々な形状の点群の生成モデルとしてPointFlowを提案。形状を表す潜在変数を生成し、それから連続正規化フローのダイナミクスを作り、それに基づき事前分布の点群を目的の形状に変化させる。変分法を使った最尤推定で直接学習可能

0

98

398

Daisuke Okanohara / 岡野原大輔

@hillbig

20 days

大規模言語モデルPLaMoの学習が終わり日本語向けベンチマークなどでGPT-4を超える性能を達成しました（）。事前学習からフルスクラッチで構築しています。この成果を元にしたモデルのトライアル利用を本日より開始します。是非試してみてください

PFEが開発する大規模言語モデルPLaMo β版の無料トライアルの申込受付を開始 - 株式会社Preferred Networks

追記 PLaMo β版トライアルのご利用申し込みおよび参加者ログインはこちら: https://plamo.preferredai.jp/ 株式会社Preferred Networks（本社：東京都千代田区、代表取締役 […]

www.preferred.jp

0

113

392

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

GANの学習で低解像度から徐々に解像度を上げ、生成器と識別器も層を増やしていくと学習が高速、安定化し高解像度の画像が生成できる。よいアイデア。いよいよ現実と見分けがつかない。

0

147

375

Daisuke Okanohara / 岡野原大輔

@hillbig

4 years

多くの科学領域でシミュレーションが作られてきたが、尤度が計算できず、観測からの推論が困難で非効率なABCしか使えなかった。近年のML/DLの発展で高次元でも尤度や事後確率分布の代理関数を推定でき、微分可能なシミュレータを使って高度な推論ができるようになった

The frontier of simulation-based inference | PNAS

Many domains of science have developed complex simulations to describe phenomena of interest. While these simulations provide high-fidelity models,...

www.pnas.org

0

92

379

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

機械学習研究へのアドバイス。どの問題に取り組むかをよく考える。アイデアはいくらでもあり重要ではない。アイデアより目的志向の方が差別化しやすい。うまくいかないからといってすぐ別の問題に切り替えるのはよくない。新しい知識を得るため教科書や博論をたくさん読む。

1

66

383

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

“Chainer を振り返って” @beam2d Chainerのプロトタイプを見せてもらった時や、名前を考えてた時（一応erをつける貢献しました）、様々な概念を名前から1から作りあげていった当時の様子を鮮明に覚えています。彼なしではなし得なかったことだと思います。

2

113

377

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

LLMの生成テキストに電子透かしを入れる手法。直前のトークンから計算したハッシュ値と、乱数生成種を元に、次のトークンを生成する際に、トークン候補をグリーン集合（G）とレッド集合（R）に分け、Gに属するトークンの生成確率のlogitを定数分増やす。このようにして生成された文はGに属するトークン

1

102

377

Daisuke Okanohara / 岡野原大輔

@hillbig

11 months

PFNは大規模言語モデル PLaMO-13Bを公開しました（技術詳細はこちら）。また、今回公開したモデルより大規模で高機能なマルチモーダル基盤モデルの開発と提供を行う新子会社Preferred Elementsを設立し、2024年度中の商用サービス提供を目指していきます。

PLaMo-13Bを公開しました - Preferred Networks Research & Development

Preferred Networksでは、9月28日にPLaMo-13Bという大規模な言語モデル (LLM)

tech.preferred.jp

Preferred Networks

@PreferredNetJP

11 months

【発表】PFNが開発した大規模言語モデル(LLM) PLaMo™︎ｰ13Bをオープンソースで公開しました。また、PLaMoの知見をもとにマルチモーダル基盤モデルを開発・提供する新子会社Preferred Elementsを11月に設立します。10月の #CEATEC2023 ではLLMを使ったデモも出展します。

3

243

803

0

116

379

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

マルチモーダルLLM（特に画像）についてのサーベイ。データ構築、モーダル間接続方法、学習方法、評価方法がまとまっている。LLMはタスク指示、結果取得のインターフェース以外にタスクの制御（タスク分解、ツール選定）、判断、言語由来知識による改善などで使える。

A Survey on Multimodal Large Language Models

Recently, Multimodal Large Language Model (MLLM) represented by GPT-4V has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal...

arxiv.org

0

53

377

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

word2vecや最近の教師なし学習で使われる、関連があるペアを関連がないペアよりも近づけるcontrastive学習が、その後の教師あり学習タスクで役に立つ表現を獲得できることをいくつかの仮定をおくと理論的に示すことができる。役に立つ表現学習の理論解析に向けての第一歩

A Theoretical Analysis of Contrastive Unsupervised Representation Learning

Recent empirical works have successfully used unlabeled data to learn feature representations that are broadly useful in downstream classification tasks. Several of these methods are reminiscent...

arxiv.org

0

71

374

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

現在のNNは入力の小さなノイズに脆弱であり頑健ではない。マウスに複数の画像を見せた時の脳の活動を2光子顕微鏡でスキャンし画像間の活動の類似度行列を得、それとNNの活性値の類似度が似るよう正則化を加えることで頑健性を大きく改善。実際の脳を帰納バイアスとして利用

Learning From Brains How to Regularize Machines

Despite impressive performance on numerous visual tasks, Convolutional Neural Networks (CNNs) --- unlike brains --- are often highly sensitive to small perturbations of their input, e.g....

arxiv.org

0

119

373

Daisuke Okanohara / 岡野原大輔

@hillbig

9 months

Geminiは最初からマルチモーダルで学習を行なうことで性能改善。代表的ベンチマークMMLUで90%に（但し確信度が一定以上なら多数決、そうでないなら貪欲法で解を出す新推論の効果も大きい）。多くのタスクで最高精度を達成。複数DCで学習し、障害時にインメモリから復帰する

0

93

375

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

CNNの関数形自体が強力な事前知識になっており、学習をしてないCNNを使い、与えられた画像を生成するようにパラメータを調整するだけで、画像の超解像、修復が驚くほどできる。

0

115

368

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

NNの学習問題の殆ど全ての局所最適解は最適解であることが次の条件下で示された (いずれかの層のパラメータ数が学習事例より大きいまたはいずれかの層で訓練事例が線形分類可能) かつ出力層に行くにしたがって層が小さくなる

The loss surface of deep and wide neural networks

While the optimization problem behind deep neural networks is highly non-convex, it is frequently observed in practice that training deep networks seems possible without getting stuck in...

arxiv.org

0

140

361

Daisuke Okanohara / 岡野原大輔

@hillbig

4 years

統計や機械学習でよく使われる白色化前処理や、ニュートン法など二次情報を使った最適化は、最初の層に総結合層（CNNも含む）を使ったモデルでは汎化性能を悪化させることが理論的に示せる。これらの操作がテストデータ予測時に有用な情報を破壊してしまうため

Whitening and second order optimization both make information in...

Machine learning is predicated on the concept of generalization: a model achieving low error on a sufficiently large training set should also perform well on novel samples from the same...

arxiv.org

0

79

362

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

宝くじ仮説を進めてNNは初期化時点で重みを調整しなくても任意の（半分の深さの）NNをうまく近似できるサブネットワークが存在する、つまり初期化後、枝の刈り取りだけで学習できることが理論的に示された。勾配ベースでなく刈り取りベースの効率的な学習手法が待望される

Proving the Lottery Ticket Hypothesis: Pruning is All You Need

The lottery ticket hypothesis (Frankle and Carbin, 2018), states that a randomly-initialized network contains a small subnetwork such that, when trained in isolation, can compete with the...

arxiv.org

0

96

368

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

3層の総結合層とReLUからなるNNは任意のN個の訓練データを幅が2N^{1/2}さえあれば全て丸暗記できる表現力を持ち、100万個、1000クラスからなるImageNetも4層、幅が2k~4kあれば丸暗記できる。これらの解は初期値が近ければSGDを使って高速に見つけることができる

Small ReLU networks are powerful memorizers: a tight analysis of...

We study finite sample expressivity, i.e., memorization power of ReLU networks. Recent results require $N$ hidden nodes to memorize/interpolate arbitrary $N$ data points. In contrast, by...

arxiv.org

0

87

367

Daisuke Okanohara / 岡野原大輔

@hillbig

8 months

従来の画像認識は識別モデルだが、生成モデルが進展し生成モデルで高精度で認識することも現実的に可能となった。識別モデルがテキスチャを見て認識するのに対し、生成モデルによる認識は人と同様に形状を重視して識別し、人と間違え方が似ていることが示された。

Intriguing Properties of Generative Classifiers

What is the best paradigm to recognize objects---discriminative inference (fast but potentially prone to shortcut learning) or using a generative model (slow but potentially more robust)? We build...

openreview.net

0

70

369

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

GPT-4は問題解決能力を改善し、模試司法試験などでゼロショットで人の上位10%を達成。画像も扱える。従来モデル（LLM+RLHF）をスケールし、より長い文脈を扱える（32kトークン,

GPT-4

We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less...

openai.com

1

112

361

Daisuke Okanohara / 岡野原大輔

@hillbig

10 months

大規模言語モデルを中心としたマルチモーダル基盤モデルの開発、販売を行う新会社Preferred ElementsをPFNからの会社分割により本日、設立しました。私が代表を努めます（引き続きPFN, PFCCの代表も努めます）。来年の商用サービス提供にむけ準備を鋭意進めていきます。

マルチモーダル基盤モデルの開発、販売を行う新会社Preferred Elementsを設立 - 株式会社Preferred Networks

PFNは、2023年9月28日のお知らせのとおり、マルチモーダル基盤モデルの開発、販売を行う、株式会社Preferred Elements（本社：東京都千代田区、代表取締役社長：岡野原大輔、プリファードエレメンツ、以下、 […]

www.preferred.jp

0

89

361

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

時系列モデルで、状態などの不確実性を含めた推定手法としてカルマンフィルタが広く使われている。Recurrent Kalman Networksは学習で得られた高次元の潜在状態上でカルマンフィルタを動かし、依存関係に制約を設け逆行列計算を必要としない効率的な学習を可能とする

Recurrent Kalman Networks: Factorized Inference in...

In order to integrate uncertainty estimates into deep time-series modelling, Kalman Filters (KFs) (Kalman et al., 1960) have been integrated with deep learning models, however, such approaches...

arxiv.org

0

74

354

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

LLMの学習ではデータの質が重要であり、明確、自己完結、有益でバランスされている「教科書」のようなデータと微調整用「練習問題」を既存LLMによるフィルタリングと生成で用意。結果のphi-1は1/10のモデルサイズ、1/100のデータ量でコード向け既存OSS LLMを超える性能を達成

Textbooks Are All You Need

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8...

arxiv.org

0

88

364

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

「ニューラルネットの逆襲」をブログに書いてから、ちょうど5年が経ったので振り返りと今後についてのブログを書きました。

ニューラルネットの逆襲から５年後 - Preferred Networks Research & Development

私が2012年にニューラルネットの逆襲（当時のコメント）というのをブログに書いてからちょうど5年が経ちました。当時はまだDeep

tech.preferred.jp

0

158

359

Daisuke Okanohara / 岡野原大輔

@hillbig

2 years

拡散モデルの本を2月17日に岩波書店から出版します。驚くような多様性、表現力を持つ生成を実現する拡散モデルの背後にある美しい数理的構造やアルゴリズム、高次元データ生成の何が難しかったのか、なぜ実現できたのかについて踏み込んで解説しています。本の詳細についてはおって公開していきます。

岩波書店自然科学書

@IwanamiNatura

2 years

岡野原大輔著『拡散モデル――データ生成技術の数理』 2月17日の刊行に向けて印刷工程に入ります！目次より第1章　生成モデル第2章　拡散モデル第3章　連続時間化拡散モデル第4章　拡散モデルの発展第5章　アプリケーション付録

0

240

1K

0

85

362

Daisuke Okanohara / 岡野原大輔

@hillbig

10 months

今年2月に岩波書店から出版した「拡散モデル」が、本年度の大川出版賞を受賞しました。大変名誉ある賞を頂き光栄です。

拡散モデルサポートページ

hillbig.github.io

岩波書店自然科学書

@IwanamiNatura

10 months

【受賞】岡野原大輔著『拡散モデルーーデータ生成技術の数理』が本年度の第32回大川出版賞を受賞いたしました。

0

37

174

2

48

363

Daisuke Okanohara / 岡野原大輔

@hillbig

6 years

CNNの出力でk-meansのクラスタリングをend-to-endで学習すると、画像特徴の教師なし学習が実現でき、分類、検出、セグメンテーションでImageNetのラベルを使った教師あり学習に近い精度を達成できる。CNNはランダムな重みでも粗く分類でき、それでブートストラップするため

Deep Clustering for Unsupervised Learning of Visual Features

Clustering is a class of unsupervised learning methods that has been extensively applied and studied in computer vision. Little work has been done to adapt it to the end-to-end training of visual...

arxiv.org

0

77

352

Daisuke Okanohara / 岡野原大輔

@hillbig

4 years

PFNという会社はどういう考えで運営されてるか、各状況でどんな決断をして行動してきたか、今後をどう考えているかをまとめた本を西川と書きました。会社は現在進行形でまだ成功したわけでありませんが、混沌とした世界を生き抜いていく中で何か参考になればと思います

書籍『Learn or Die 死ぬ気で学べ　プリファードネットワークスの挑戦』を刊行 - 株式会社Preferred Networks

このたび、株式会社Preferred Networks（PFN）代表取締役社長西川徹、代表取締役副社長岡野原大輔は、初の著書となる『Learn or Die　死ぬ気で学べ　プリファードネットワークスの挑戦』を刊行する […]

www.preferred.jp

0

101

350

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

強化学習について網羅的に扱いつつコンパクトにまとまった良書の翻訳本（PFNの前田さんも訳者参加）。疑似コードによる解説が充実しており、直感的に理解しながら読める。付録には最新の強化学習の紹介が充実している。

速習強化学習 ―基礎理論とアルゴリズム―

GoogleのAlphaGoによるプロ棋士打破は,人工知能がヒトを超えた学習を行った歴史的出来事として認識された。強化学習はここで重要な役割を果たしてているだけでなく,自動運転やロボット制御などの重要な分野への応用も知られ,いま世間の強い関心を集めている。その一方,日本語で強化学習を体系的に学べる教科書は多くはなく,代表的な教科書であるSutton and Barto (1998)とその訳書...

www.amazon.co.jp

0

85

354

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

構造化行列（FFT, アダマール等）は高速行列積を実現できるが人手で設計していた。万華鏡行列（Kaleidoscope行列）は既知の殆どの構造化行列、疎行列をほぼ最適な空間/時間計算量で表現でき、微分可能であり実際高速である。離散的な操作（置換）も高速に学習できる

Kaleidoscope: An Efficient, Learnable Representation For All...

We propose a differentiable family of "kaleidoscope matrices," prove that all structured matrices can be represented in this form, and use them to replace hand-crafted linear maps in deep learning...

openreview.net

0

88

357

Daisuke Okanohara / 岡野原大輔

@hillbig

6 months

NLP2024ワークショップで話した「大規模言語モデル開発の展望と今後の課題」の講演資料を公開します。PFN/PFEのLLM開発予定、LLM開発における様々なトピック（学習データ整備、MoE、Mamba、LongContext、推論効率化）などを紹介しています。

0

76

360

Daisuke Okanohara / 岡野原大輔

@hillbig

3 years

コード自動生成を行うGithub Copilot（Codex）の論文。GPTを使いdocstringで条件付けして関数を生成、159GBのpythonコードで学習、複数サンプルしunittest通過率で評価。トークン平均対数尤度が高いサンプルが有効。説明が長い、変数が多い、処理が長くなる場合に精度が落ちる

Evaluating Large Language Models Trained on Code

We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities. A distinct production version of Codex powers GitHub...

arxiv.org

1

93

355

Daisuke Okanohara / 岡野原大輔

@hillbig

4 years

与えられた画像セット対から画像から画像への変換（c.f. CycleGAN）を学習する場合、NNを使う場合が多いが、（驚くことに）多くの変換は直交変換に制限した線形変換で実現でき、画像セットをPCAで低次元射影した上で対応関係を求めるだけで実現できる

The Surprising Effectiveness of Linear Unsupervised Image-to-Image...

Unsupervised image-to-image translation is an inherently ill-posed problem. Recent methods based on deep encoder-decoder architectures have shown impressive results, but we show that they only...

arxiv.org

1

84

355

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

数十万クラスからなる画像分類タスクの学習では、一つの分類器で分類する”万能家を直接学習させるよりも、特定のグループ（家、車、飛行機など）毎に”専門家”集団を学習させ、その専門家集団を一つの万能家に蒸留させた方が性能が良い

Knowledge Concentration: Learning 100K Object Classifiers in a Single CNN

Fine-grained image labels are desirable for many computer vision applications, such as visual search or mobile AI assistant. These applications rely on image classification models that can produce...

arxiv.org

0

107

354

Daisuke Okanohara / 岡野原大輔

@hillbig

7 years

深層学習は非凸最適化であり、非凸性は活性化関数と多層の二つから構成される。一方学習によって見つかる局所最適解は最適解に近いと予想されている。少なくとも多層によって生み出される非凸性に基づく局所最適解は全て最適解と同じことが示された

Depth Creates No Bad Local Minima

In deep learning, \textit{depth}, as well as \textit{nonlinearity}, create non-convex loss surfaces. Then, does depth alone create bad local minima? In this paper, we prove that without...

arxiv.org

0

147

349

Daisuke Okanohara / 岡野原大輔

@hillbig

1 year

LLMでChain-of-Thought（CoT）がなぜ必要かの理論解析。特定の数学の問題（他問題でも考えは適用可能）では、NNはモデルサイズが入力長に対し急激に大きくしないと解けないことが証明でき、CoT+自己回帰は有効な深さを仮想的に増やすことで解けるようにしている

Towards Revealing the Mystery behind Chain of Thought: A...

Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks...

arxiv.org

0

56

347