Shinichi Takaŷanagi Profile Banner
Shinichi Takaŷanagi Profile
Shinichi Takaŷanagi

@_stakaya

Followers
5,827
Following
559
Media
246
Statuses
3,681

Principal AI Engineer @BCG . 徳島大学デザイン型AI教育センター客員准教授・情報処理学会 ビッグデータ研究グループ幹事・株式会社ホクソエムの妖精を兼任. 博士(統計科学). 著訳/監修書: 評価指標入門, データ分析失敗事例集, 効果検証入門 等

Tokyo, Japan
Joined February 2016
Don't wanna be here? Send us removal request.
Explore trending content on Musk Viewer
@_stakaya
Shinichi Takaŷanagi
2 years
技術者が面接の際に会社にすると良さそうな逆質問が分類ごとにまとまっているレポジトリ。便利。
0
321
2K
@_stakaya
Shinichi Takaŷanagi
2 years
メチャクチャ良い資料でした。。。オススメされていた”世界標準のデータ戦略完全ガイド”を拝読します! データ活用が事業貢献していることを示すための取り組み
0
82
805
@_stakaya
Shinichi Takaŷanagi
3 months
”LLMは英語に偏って学習してるから、入力を英語翻訳してLLMに投げると精度向上”という点を再評価したGoogle ResearchのBlog。結果、108言語中94言語で元の言語のままの方が良いという結果に。 Pre-translation vs. direct inference in multilingual LLM applications
0
164
657
@_stakaya
Shinichi Takaŷanagi
11 months
損害保険ジャパンさんのRAG解説記事、とても良かった… RAGにおけるドキュメント検索精度向上について(概要編)
0
83
647
@_stakaya
Shinichi Takaŷanagi
3 years
実務で役に立つ100超の最適化問題に対する定式化とPython言語を用いた解決法の紹介。 Python言語による実務で使える100+の最適化問題
0
83
616
@_stakaya
Shinichi Takaŷanagi
8 months
RAGにおいて、Microsoft Azure AI Searchだと、全文検索とベクトル検索を組合せたHybrid検索に、セマンティックランキングを組合せた方法が一番精度出る。 ※毎度どこかに行ってしまう情報源なのでメモ
Tweet media one
0
68
594
@_stakaya
Shinichi Takaŷanagi
2 years
Googleの機械学習エンジニアリングに関するベストプラクティス集。 まずは機械学習なしで問題解決出来ないか考えよ、初期のモデルはパイプライン確認も兼ねてできるだけシンプルにせよ、など実践を意識しており何度も読み返したい内容。 Best Practices for ML Engineering
0
76
581
@_stakaya
Shinichi Takaŷanagi
5 years
博士(統計科学)の学位を取得しました、皆さんも是非ッ!!!
Tweet media one
20
40
566
@_stakaya
Shinichi Takaŷanagi
4 years
弊チームで行っている標準的なPythonの開発方法についてまとめた研修資料を公開します! ナウいPythonを書きたい皆さん、カジュアルに転職相談連絡是非ッ!!! 「【2020年新人研修資料】 ナウでヤングなPython開発入門」
@_stakaya
Shinichi Takaŷanagi
4 years
データ/機械学習/自然言語処理等の力で、嘘のない最高のビジネスモデルであるSaaS事業を進化させたいデータサイエンティスト職に興味ある方! 転職相談/カジュアル面談/お気軽に連絡(DM or 返信etc)是非ッ! ※経営統合によりポジション復活です
1
25
105
0
83
570
@_stakaya
Shinichi Takaŷanagi
4 months
RAGにおいて、ベクトル検索だけじゃなく全文検索も加えたハイブリッド検索じゃないとパフォーマンスが出ないことを試してみた、というMicrosoft方の記事。RAG =ベクトル検索という風潮があるが、そうではない、と。
0
80
528
@_stakaya
Shinichi Takaŷanagi
3 years
「SpaceXのロケット🚀自動着陸も実は凸二次計画で制御されてる」というのを最近知りました。"Pythonではじめる数理最適化 7章"で凸二次計画の学習を皆さん是非ッ!!! > SpaceX uses CVXGEN…(中略) which enables very high-speed onboard convex optimization
@_stakaya
Shinichi Takaŷanagi
3 years
"Pythonではじめる数理最適化"を @pseudo_finite さんから献本頂きました! 平易な連立一次方程式の例からはじまり、ビジネスでの応用例としてキャンペーン効果最大化、また類書では例のない数理最適化API開発の手法まで盛りだくさんで勉強になる書籍です。 皆さん、是非ッ!
Tweet media one
1
13
126
0
114
487
@_stakaya
Shinichi Takaŷanagi
9 months
Microsoftより「Fine TuningとRAGのどちらが高精度か?」に答えた論文。 結論、既存/新規知識の両方においてRAGが良好な結果に。Fine Tuningは継続事前学習、評価はMMLUをLM-Evaluation-Harnessで実施。 Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs
1
85
492
@_stakaya
Shinichi Takaŷanagi
1 year
大規模言語モデル(LLM)のサーベイ。LLMの系譜はまったく追えていなかったのでありがたい(図左)。各LLMモデルの性能・学習環境や、また学習データソースの内訳(書籍・Webページ・会話など)も記載があり(図右)。図は論文より引用。 A Survey of Large Language Models
Tweet media one
Tweet media two
0
78
486
@_stakaya
Shinichi Takaŷanagi
7 months
宇宙怪人しまりす統計よりも重要なことを学ぶ、ユル系の表紙と本の薄さとゆるゆるしたストーリー展開で騙されそうになるが中身はガチで、背後仮定、統計家の誠実さ、交絡要因、データマネジメントまで載っててとても良い。個人的にはサリドマイド事件関連の分析が特に面白かった。過去の岩波版も買う
Tweet media one
1
64
481
@_stakaya
Shinichi Takaŷanagi
2 years
引用されていた論文。”初手XGBoost”は、推論の実行時間はさておき、学習時間の観点からはコスパが非常に高いと言って良さそう。 ※図4より引用 Deep Neural Networks and Tabular Data: A Survey
Tweet media one
@_stakaya
Shinichi Takaŷanagi
2 years
「何故、表データでは木ベースのモデルが深層学習をアウトパフォームするか?」を調べたベンチマーク調査論文。使用データは 、CodeはGithubで公開されており再現性も担保 Why do tree-based models still outperform deep learning on tabular data?
2
58
357
1
52
465
@_stakaya
Shinichi Takaŷanagi
3 years
最近考えていたことをシュッとまとめてみました。コメント・ご意見是非ッ!!! 機械学習とビジネスを橋渡しする���のこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察 - 株式会社ホクソエムのブログ
9
80
448
@_stakaya
Shinichi Takaŷanagi
3 years
”仕事ではじめる機械学習”的な内容の論文。「運用が難しいモデルはやめとけ」や「MLモデルにもテストをちゃんと書け」など大学での教育では見落としがちな内容を示唆している Return on Investment in Machine Learning: Crossing the Chasm between Academia and Business on
1
81
435
@_stakaya
Shinichi Takaŷanagi
7 months
データサイエンティストにありがちな"Jupyterノートブック一本打法"から抜け出すための自学素材。オブジェクト指向の基礎、原理原則、アンチパターン、Spotifyの音楽人気予測のコードリファクタリングと話題豊富。 Beyond Jupyter
0
68
434
@_stakaya
Shinichi Takaŷanagi
5 months
カーネギーメロン大学のチームが”時系列”の基盤モデルをMITライセンスで論文、データ(The Time-series Pile)とともに公開。予測・分類・異常検知等のタスクが可能。
2
69
439
@_stakaya
Shinichi Takaŷanagi
7 months
Manning社(日本だとよくオライリーの皮を被る出版社)からフルスクラッチで大規模言語モデルを作る本が出る模様。GitHubに公開あり
0
82
425
@_stakaya
Shinichi Takaŷanagi
2 years
悪戦苦闘の末、なんとか形になりました! 評価指標やビジネス改善に興味ある皆さん、是非ッ!!!
@gihyo_hansoku
技術評論社販売促進部
2 years
【新刊】2023年2月18日発売『評価指標入門〜データサイエンスとビジネスをつなぐ架け橋』本体2,720円+税,高柳慎一,長田怜士 著,株式会社ホクソエム 監修,予測精度0.001%の改善をビジネスの成果に!
Tweet media one
0
148
831
2
70
413
@_stakaya
Shinichi Takaŷanagi
2 years
深層学習とそれに関連するアルゴリズムのPyTorch実装を集めたRepository。Codeはジャンルごとに分類されていて探しやすい。また、Codeとその処理内容を対比できる形で文書化もされており便利。
0
47
407
@_stakaya
Shinichi Takaŷanagi
10 months
RAGのサーベイ論文。研究の進化やFine-Tuningとの比較(図引用)、分類学(Naive、Adv、Modular)、評価観点・フレームワーク(RAGAS、ARES等)等、幅広なトピックをカバーしておりとても参考になる。 Retrieval-Augmented Generation for Large Language Models: A Survey
Tweet media one
Tweet media two
1
48
382
@_stakaya
Shinichi Takaŷanagi
5 years
社会人博士課程に行くべきかどうか、の結論はこちらになります
Tweet media one
2
88
371
@_stakaya
Shinichi Takaŷanagi
2 years
機械学習モデルの結果を用いたWebアプリケーションを簡単に作れるライブラリ。streamlitよりも簡便な印象。
0
32
375
@_stakaya
Shinichi Takaŷanagi
2 years
機械学習エンジニア向け面接対策の想定問答集。深層学習とタイトルにあるがそれ以外のデータサイエンス分野に有用な話も多数あり。細かい話も多い印象。 Deep Learning Interviews: Hundreds of fully solved job interview questions from a wide range of key topics in AI
0
50
356
@_stakaya
Shinichi Takaŷanagi
2 years
「何故、表データでは木ベースのモデルが深層学習をアウトパフォームするか?」を調べたベンチマーク調査論文。使用データは 、CodeはGithubで公開されており再現性も担保 Why do tree-based models still outperform deep learning on tabular data?
2
58
357
@_stakaya
Shinichi Takaŷanagi
3 years
本番環境における機械学習モデルやデータサイエンスついての情報のテックブログや論文をまとめたもの。データ品質・探索から特徴量ストア、推薦システムや倫理までと豊富なトピックがある。
0
53
351
@_stakaya
Shinichi Takaŷanagi
1 year
PythonでLLMのアプリを数分で構築するためのOSSフレームワーク Chainlit。 今までStreamlitでやっていたチャット画面構築はこちらを使うほうが楽そう。
0
34
353
@_stakaya
Shinichi Takaŷanagi
4 years
データサイエンティストになる魅力がなくなってきた理由を4つの理由(ジュニアのポジションが減っている、アナリスト職種で良い、データサイエンスを簡単だと思いすぎ、AutoML出てきた)とともに紹介。 Why Is Data Science Losing Its Charm? by @iamharshitahuja
0
74
340
@_stakaya
Shinichi Takaŷanagi
3 months
リクルートの木村さんによる「ホテル予約キャンセル予測モデルによりどれくらい収益があがるか?」を研究した学会発表。結論、10%の精度改善で動的プライシングを通じ2%の収益向上との見立て。 Boosting Hotel Profits: The Power of Enhanced Cancellation Predictions
0
51
340
@_stakaya
Shinichi Takaŷanagi
10 months
LLMのRAGアプリケーションをチューニングするための12戦略を書いたブログ記事。具体的にはデータクリーニング、埋込み、チャンク化、インデクシング、クエリ変換、リランキング等、実践的な戦略。 A Guide on 12 Tuning Strategies for Production-Ready RAG Applications
2
56
336
@_stakaya
Shinichi Takaŷanagi
1 year
書籍"データ分析失敗事例集(仮)"が出ます🎉尾花山さんと最高のシャチョー牧山が率いる株式会社ホクソエム、また執筆頂いた著者の方々との手に汗握る涙なしには読めないデータ分析失敗冒険譚です👾 皆さん是非ッ🙇🙇🙇
2
69
332
@_stakaya
Shinichi Takaŷanagi
2 years
QuoraのData TeamのA/Bテストと因果推論に関するBlogポスト。他社事例をこれでもか!というくらいまとめてくれているのでとりあえずブックマークしておくのが良さそう。
0
59
321
@_stakaya
Shinichi Takaŷanagi
8 months
Googleから時系列予測のための基盤モデル(二億パラメータ、1000億データ点で学習)が出た模様。ゼロショットでの使用想定なのでベースラインとして使うと便利そう。 A decoder-only foundation model for time-series forecasting
0
48
314
@_stakaya
Shinichi Takaŷanagi
10 months
OpenAIの公式に良い結果を得るためのプロンプト6戦略とその戦術があることに今更気がついた。 戦略 1: 明確な指示を書く 2: 参照テキストを付与(RAG) 3: 難しい問題を簡単なサブ問題に分割 4:モデルに思考時間を付与 5: 外部ツールを使用 6: システム的なテスト体制を構築
0
25
301
@_stakaya
Shinichi Takaŷanagi
9 months
LLMが突然賢くなる現象(創発、emergent)は評価指標の選び方がそう見せているだけではないのか?を分析した論文。巷でよく言う"すべてのKPIはハックされる"に通ずるものがあって面白い Are Emergent Abilities of Large Language Models a Mirage?
0
62
309
@_stakaya
Shinichi Takaŷanagi
3 months
時系列予測パケージが百花繚乱状態なのをまとめた記事(ありがたい。。。) The explosion in time series forecasting packages in data science ()
0
38
302
@_stakaya
Shinichi Takaŷanagi
6 months
RAGのサーベイ論文。「pre-検索、検索、post-検索、生成」の4つの切り口で手法を分類(図引用)。RAGアプリケーショの改善手法やアイデアを探している場合はチェックしてみると良さそう。 A Survey on Retrieval-Augmented Text Generation for Large Language Models
Tweet media one
0
44
299
@_stakaya
Shinichi Takaŷanagi
9 months
Microsoftより「GPT-4等の基盤モデルよりも、領域を絞ったモデルの方がその領域で高性能なのではないか?」を調べた論文。結果、医療の問題でGPT-4がMed-PaLM2を上回る結果に Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
2
50
295
@_stakaya
Shinichi Takaŷanagi
2 years
FANG筆頭にビッグテック企業がどうやってプロジェクトマネジメントしてるか?をまとめた記事。意外とスクラムが使われていないという話や、プロダクトマネージャーとプロジェクトマネージャーの違い、エンジニアへの調査結果からのあるべき体制紹介など盛り沢山の記事。
0
43
287
@_stakaya
Shinichi Takaŷanagi
1 year
「生成AIで情報検索 = RAG = ベクトルストア」な流れがある中、「OpenAIで埋込したLuceneでも十分性能良くない?」と主張した論文。新規にベクトルストアを導入するのはコスパが悪いと指摘。 Vector Search with OpenAI Embeddings: Lucene Is All You Need
0
45
288
@_stakaya
Shinichi Takaŷanagi
10 months
GPTsより精度の高いRAGシステムの構築
1
25
284
@_stakaya
Shinichi Takaŷanagi
3 years
GoogleのLife-Time-Value(LTV)推定論文。LTV推定をゼロ過剰対数正規(not ポアソン)として問題を定式化し、線形モデルとDNNで比較。評価指標としては正規化Gini係数とデシル分析でせよと提言。 A Deep Probabilistic Model for Customer Lifetime Value Prediction
1
35
281
@_stakaya
Shinichi Takaŷanagi
1 year
大規模言語モデル(LLM)において大切な論文のまとめ。よくまとまっていてありがたい&コツコツ読む
0
24
267
@_stakaya
Shinichi Takaŷanagi
9 months
ベクトルDB管理のサーベイ論文。ベクトルDB管理特有の問題(ベクトルの類似性、ベクトルサイズ、インデックス作成)について説明。 またベクトル圧縮やクエリ最適化戦略、クエリ処理・保存・インデックス作成技術を詳しく報告 Survey of Vector Database Management Systems
0
50
267
@_stakaya
Shinichi Takaŷanagi
4 months
Google DeepMindよりLLM出力の"不確かさ"定量化の研究。モデルの認知(Epistemic)とランダムネス(Aleatoric)起因の2つの不確かさに対し、前者の場合に有用な情報理論的計量を導出。モデル出力が信頼できるか?を定量的に判断可能に。 To Believe or Not to Believe Your LLM
0
46
264
@_stakaya
Shinichi Takaŷanagi
9 months
ハルシネーションを軽減するための32種の手法のサーベイ論文。特にRAG、Knowledge Retrieval、CoNLI、CoVeが有用とのこと。その他の手法も構造化・分類されている(図1)。 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models
Tweet media one
0
50
262
@_stakaya
Shinichi Takaŷanagi
6 months
機械学習システム設計の80社以上の300 件の実践的なユースケース紹介記事。Netflix、Airbnb、Doordashなどの大手企業含め、機械学習システムの設計と運用におけるベストプラクティスがまとまっている
0
40
262
@_stakaya
Shinichi Takaŷanagi
9 months
損害保険ジャパンさんのRAG記事、続編が出ていた🙏🙏🙏 RAGにおけるドキュメント検索精度向上について(実践編)
@_stakaya
Shinichi Takaŷanagi
11 months
損害保険ジャパンさんのRAG解説記事、とても良かった… RAGにおけるドキュメント検索精度向上について(概要編)
0
83
647
0
25
262
@_stakaya
Shinichi Takaŷanagi
2 years
文章と単語を同じ空間に埋め込み文章のトピックを抽出するTop2Vecという手法の提唱。埋め込み, 次元削減, クラスタリングを順に行いトピックを抽出。arXivに論文もあるがアルゴリズムを大まかに把握するにはGithubが良い。事前にトピック数を決める必要がない点も良い。
0
49
257
@_stakaya
Shinichi Takaŷanagi
1 month
NVIDIAよりRAGの新手法Order-Preserve RAG提案。 手法はシンプルで検索スコアではなく元文書の順序で入力するもの。∞Bench(,)で長コンテキストLLMを超える性能 Defense of RAG in the Era of Long-Context Language Models
0
41
257
@_stakaya
Shinichi Takaŷanagi
8 months
RAGを用いたLLMアプリケーションで性能が出ない場合に見るべき評価指標とその 考え方についてまとまっている良記事。 同話題は @hiro_gamo さんらのドーナツ🍩本(Azure OpenAI ServiceではじめるChatGPT/LLMシステム構築入門)の5章にあるので興味があれば見ると良い
1
24
254
@_stakaya
Shinichi Takaŷanagi
2 months
LINEヤフーで内製展開してるRAGの品質評価記事。評価はLLM-as-a-Judgeで行い、評価指標は「含有性、相反性、一致性、案内性」の4つ、またRAG用データ生成ETLで出たChunkを再利用しLLMで想定質問と回答ペアを自動生成等、話題が豊富で大変良い RAGの回答を自動評価する手法
0
27
252
@_stakaya
Shinichi Takaŷanagi
1 year
DeepMindより"LLMを最適化ツールと見做し最適化問題を自然言語で記述し解く"画期的な手法OPRO(Optimization by PROmpting)の提案。 「逐次、解をプロンプトに組込み新しい解を生成」を繰返し計算。線形回帰と巡回セールスマン問題で例示 LARGE LANGUAGE MODELS AS OPTIMIZER
1
46
248
@_stakaya
Shinichi Takaŷanagi
6 years
Rでの最近のイケてる欠損(NA)の取り扱い、Rユーザならとりあえず今回のuseR! 2018のチュートリアルの資料(R Markdown)見ておけばよさそうです。HTML版もUPされてます。 #yutaniR
0
61
243
@_stakaya
Shinichi Takaŷanagi
1 year
RAGベースのプロダクション��ベルのLLMアプリケーションを作るためのガイド記事。内容はdata chunking、vector management、fine-tuning、data flywheels, lexical searchなど多岐にわたっている。
0
27
244
@_stakaya
Shinichi Takaŷanagi
1 year
差の差分法(DID)による分析で、ChatGPTのリリース後にStack Overflowへの週間投稿数が16%減少と顕著に低下したことを実証分析(論文より図1引用)。 Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow
Tweet media one
3
48
242
@_stakaya
Shinichi Takaŷanagi
5 months
CyberAgent石上さんの「LLM評価の落とし穴~開発者目線で気をつけるポイント~」スライド。 日本語の主要ベンチマークと気をつけるポイントがまとまっていて大変よかった。
0
35
240
@_stakaya
Shinichi Takaŷanagi
1 year
NIVIDIAが推論中にLLMをファインチューニングできる機能を搭載したSteerLMを公表。AI出力をユーザニーズに合わせてカスタマイズ可能に。オープンソースソフトウェアとして入手可とのこと
0
50
238
@_stakaya
Shinichi Takaŷanagi
7 months
マイクロソフトが初心者のための生成AIアプリ開発教材を公開。言語はTypeScriptとPython 18 Lessons teaching everything you need to know to start building Generative AI applications
0
30
236
@_stakaya
Shinichi Takaŷanagi
10 months
GPT-4でも使われてると噂されているMixture of Experts(MoE)の詳細な解説記事。私も理解が浅かったのでとても勉強になる。 Mixture of Experts Explained
0
35
237
@_stakaya
Shinichi Takaŷanagi
7 years
あのKDD Cupで2位に入った(※チームに所属していた)Awesomeデータサイエンティストこと本橋智光氏が執筆した "前処理大全[データ分析のためのSQL/R/Python実践テクニック]" が遂に出ます! 皆さん、是非ッ!!!
0
81
231
@_stakaya
Shinichi Takaŷanagi
2 years
UberのA/Bテスト基盤(Morpheus)をフルスクラッチで置き換えた話。ABテスト用の処理がアプリに埋まっていたので実験が遅くなる、皆バラバラなKPIを見ていたため意思決定に問題が生じる、など問題を解決。アーキテクチャ紹介自体は簡易に Supercharging A/B Testing at Uber
0
31
235
@_stakaya
Shinichi Takaŷanagi
1 year
ベクトルDBの比較表。 比較されるベクトルDBは「Pinecone、Weaviate、Milvus、Qdrant、Chroma、Elasticsearch、PGvector」の7つ。 Picking a vector database: a comparison and guide for 2023
0
41
232
@_stakaya
Shinichi Takaŷanagi
3 years
AIを社会に適用した際のつまづきポイントを構造化&整理してくれた論文。確率モデル・予測モデルとその説明性(Not解釈性)、モデル精度に分類しそれぞれまとめてくれている。必要な時に必要な箇所を参照すると良さそう。 A Hierarchy of Limitations in Machine Learning
1
38
228
@_stakaya
Shinichi Takaŷanagi
1 year
大規模言語モデル(LLM)のモデルではなく”評価”に関するサーベイ論文。モデルを「何のタスクで(What)どのデータで(Where)どういうプロセスで(How)評価するのか?」で構造化(図は論文より引用)しサーベイを実施。 A Survey on Evaluation of Large Language Models
Tweet media one
2
45
226
@_stakaya
Shinichi Takaŷanagi
5 years
今日も一日
Tweet media one
16
9
227
@_stakaya
Shinichi Takaŷanagi
2 years
機械学習でのモデル(評価|選択)、アルゴリズム選択のベストプラクティスを解説。CVやホールドアウト検証で「何時どのデータ(Train, Validation, Test)を使うのか?」がまとめられていて便利. Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning
1
23
220
@_stakaya
Shinichi Takaŷanagi
1 year
LLMをプロダクションで使うための色々なTipsがまとまった記事 by @chipro 。レイテンシーや互換性にまで言及してる点、またユースケースがあるので自身の産業応用をイメージ出来て良い。 9月に「機械学習システムデザイン(翻訳)」がオライリーから出るのも楽しみ, Thanks!
Tweet media one
0
20
219
@_stakaya
Shinichi Takaŷanagi
1 year
大規模言語モデル(LLM)を用いたシステムやプロダクトのデザインパターンをまとめた記事。ベタベタなファインチューニングの話からあまり例を見ないガードレールやキャッシュの持たせ方周りも書いてあり大変参考になる Patterns for Building LLM-based Systems & Products
1
38
218
@_stakaya
Shinichi Takaŷanagi
1 year
200社以上の機械学習システムユースケースをまとめてリスト化したもの。類似したものを開発する際に大変参考になりそう。 ML system design: 200 case studies to learn from
0
36
215
@_stakaya
Shinichi Takaŷanagi
2 years
18人のMLエンジニアへのインタビュー論文。まとめとしてMLシステムの成功要因は3つのV(Velocity, Vaildation, Versioning)と提唱。読み物として良い。4.4.4が拙著「評価指標入門」の主題と同じで"悩みは国問わず同じだな"と安心しました🤗 Operationalizing Machine Learning
1
28
209
@_stakaya
Shinichi Takaŷanagi
3 years
めちゃめちゃレビューさせてもらった施策デザインのための機械学習入門と、機械学習を解釈する技術もうちに届きました! バイアスに惑わされたくない皆さん是非ッ!!! ※制作協力者プロフィールにもあるように能管をお持ちの方は連絡是非!
Tweet media one
Tweet media two
0
44
201
@_stakaya
Shinichi Takaŷanagi
2 months
GraphRAGの「インデックス作成・検索・生成」に焦点をあてたサーベイ論文。また、応用分野、評価手法とベンチマーク、産業界での応用事例も記載あり Graph Retrieval-Augmented Generation: A Survey
1
38
203
@_stakaya
Shinichi Takaŷanagi
2 years
KDD2022よりA/Bテストで誤解しがちな5つの罠(3~7節タイトル)を数式と共に指摘しA/Bテストプラットフォームが持つべき機能を提案した論文。話題はP値から前処理まで幅広。第一著者は書籍「A/Bテスト実践ガイド(和訳)」なので合わせて読むと良い A/B Testing Intuition Busters
0
26
203
@_stakaya
Shinichi Takaŷanagi
2 months
BlackRockとNVIDIAより、金融業での応用を目的とし、ベクトル検索と(全文検索ではなく!)ナレッジグラフ検索を組合せたRAG手法が提案された HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction
1
33
201
@_stakaya
Shinichi Takaŷanagi
8 months
BCG Xから大規模言語モデルを使ったAgentを楽に作るためのフレームワークAgentKitがOSSとして出ました〜。 Nextjs, FastAPI, Langchainのモダンなテックスタックです、是非ッ!!!
1
27
199
@_stakaya
Shinichi Takaŷanagi
2 months
LLM実践で出る質問とその回答集。「Q: 企業が独自LLMを持つ必要性は? Q: Fine TuneとRAGの使い分けは?」等のQ&Aを「計算資源、SWアーキテクチャ、データ資源、応用シナリオ、脳科学」の5分類で整理 Challenges and Responses in the Practice of Large Language Models
0
31
199
@_stakaya
Shinichi Takaŷanagi
8 months
日本語訳もある「プロンプトエンジニアリング」で有名な @dair_ai が、同サイトに ”RAG for LLMs” としてRAGの情報をまとめてくれている。
1
20
196
@_stakaya
Shinichi Takaŷanagi
3 years
斎藤( @usait0 )さんと"効果検証入門"の安井( @housecat442 )さんのコラボ本です。問題の誤設定やBiasにどう立ち向えば良いのかが焦点の類書無き本です、皆さん是非ッ! 施策デザインのための機械学習入門~データ分析技術のビジネス活用における正しい考え方 斎藤優太、安井翔太
2
61
192
@_stakaya
Shinichi Takaŷanagi
1 year
機械学習パイプラインのデザインパターンを10個まとめたもの。単純なバッチ形式のものから、埋め込みを活用した場合や連合学習(Federated Learning)を活用した場合までと幅広に記載。 ML Pipeline Architecture Design Patterns (With 10 Real-World Examples)
0
22
193
@_stakaya
Shinichi Takaŷanagi
1 year
ベクトルDBのトレードオフを分析した記事。挿入vs読取速度、取りこぼし(Recall)vsレイテンシー、インメモリvsオンディスク、全文検索vsベクトルハイブリッド検索等の観点から比較・分析を実質。 Vector databases (Part 4): Analyzing the trade-offs
0
31
191
@_stakaya
Shinichi Takaŷanagi
2 years
私の手元にも見本誌が届きました🥳🎉🥳
Tweet media one
0
15
190
@_stakaya
Shinichi Takaŷanagi
1 year
databricksの方々がRAG(Retrieval Augmented Geneneration)の評価、特に"LLMを使った時代評価の観点"からベストプラクティスをまとめてくれている Best Practices for LLM Evaluation of RAG Applications A Case Study on the Databricks Documentation Bot
1
25
190
@_stakaya
Shinichi Takaŷanagi
4 months
マルチモーダル大規模言語モデル(特にVision)のハルシネーションに関するサーベイ論文。ハルシネーションの特定/評価/軽減に関するレビューと、その原因/評価ベンチマーク/測り方、及び対策を紹介。 Hallucination of Multimodal Large Language Models: A Survey
Tweet media one
1
30
189
@_stakaya
Shinichi Takaŷanagi
3 months
LLM(活用アプリ)の精度を最適化についてのOpenAIの解説記事。まずプロンプトエンジニアリングからはじめ、コンテキスト/LLM最適化の2軸で次に打つ手を(RAG/FT)を考える。またビジネスインパクト試算にコストセンシティブ学習に近い考え方を使う点も参考になる
1
20
186
@_stakaya
Shinichi Takaŷanagi
1 year
「LLMがどう機能しているか?」を適切に説明したリンクのみを厳選して集めているGist。誇大広告やベンダーのコンテンツは含まないようにしている。 Anti-hype LLM reading list
0
23
187
@_stakaya
Shinichi Takaŷanagi
2 months
表形式データに対するサーベイ論文。 表形式データ構造/型の分類、学習と評価用のデータセット、モデリング技術と学習の目的、データ処理手法、ーキテクチャ等、幅広トピックを記載 Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution
1
32
186