”LLMは英語に偏って学習してるから、入力を英語翻訳してLLMに投げると精度向上”という点を再評価したGoogle ResearchのBlog。結果、108言語中94言語で元の言語のままの方が良いという結果に。
Pre-translation vs. direct inference in multilingual LLM applications
「何故、表データでは木ベースのモデルが深層学習をアウトパフォームするか?」を調べたベンチマーク調査論文。使用データは 、CodeはGithubで公開されており再現性も担保
Why do tree-based models still outperform deep learning on tabular data?
”仕事ではじめる機械学習”的な内容の論文。「運用が難しいモデルはやめとけ」や「MLモデルにもテストをちゃんと書け」など大学での教育では見落としがちな内容を示唆している
Return on Investment in Machine Learning: Crossing the Chasm between Academia and Business on
RAGのサーベイ論文。研究の進化やFine-Tuningとの比較(図引用)、分類学(Naive、Adv、Modular)、評価観点・フレームワーク(RAGAS、ARES等)等、幅広なトピックをカバーしておりとても参考になる。
Retrieval-Augmented Generation for Large Language Models: A Survey
機械学習エンジニア向け面接対策の想定問答集。深層学習とタイトルにあるがそれ以外のデータサイエンス分野に有用な話も多数あり。細かい話も多い印象。
Deep Learning Interviews: Hundreds of fully solved job interview questions from a wide range of key topics in AI
「何故、表データでは木ベースのモデルが深層学習をアウトパフォームするか?」を調べたベンチマーク調査論文。使用データは 、CodeはGithubで公開されており再現性も担保
Why do tree-based models still outperform deep learning on tabular data?
データサイエンティストになる魅力がなくなってきた理由を4つの理由(ジュニアのポジションが減っている、アナリスト職種で良い、データサイエンスを簡単だと思いすぎ、AutoML出てきた)とともに紹介。
Why Is Data Science Losing Its Charm? by
@iamharshitahuja
リクルートの木村さんによる「ホテル予約キャンセル予測モデルによりどれくらい収益があがるか?」を研究した学会発表。結論、10%の精度改善で動的プライシングを通じ2%の収益向上との見立て。
Boosting Hotel Profits: The Power of Enhanced Cancellation Predictions
LLMのRAGアプリケーションをチューニングするための12戦略を書いたブログ記事。具体的にはデータクリーニング、埋込み、チャンク化、インデクシング、クエリ変換、リランキング等、実践的な戦略。
A Guide on 12 Tuning Strategies for Production-Ready RAG Applications
LLMが突然賢くなる現象(創発、emergent)は評価指標の選び方がそう見せているだけではないのか?を分析した論文。巷でよく言う"すべてのKPIはハックされる"に通ずるものがあって面白い
Are Emergent Abilities of Large Language Models a Mirage?
RAGのサーベイ論文。「pre-検索、検索、post-検索、生成」の4つの切り口で手法を分類(図引用)。RAGアプリケーショの改善手法やアイデアを探している場合はチェックしてみると良さそう。
A Survey on Retrieval-Augmented Text Generation for Large Language Models
Microsoftより「GPT-4等の基盤モデルよりも、領域を絞ったモデルの方がその領域で高性能なのではないか?」を調べた論文。結果、医療の問題でGPT-4がMed-PaLM2を上回る結果に
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
「生成AIで情報検索 = RAG = ベクトルストア」な流れがある中、「OpenAIで埋込したLuceneでも十分性能良くない?」と主張した論文。新規にベクトルストアを導入するのはコスパが悪いと指摘。
Vector Search with OpenAI Embeddings: Lucene Is All You Need
GoogleのLife-Time-Value(LTV)推定論文。LTV推定をゼロ過剰対数正規(not ポアソン)として問題を定式化し、線形モデルとDNNで比較。評価指標としては正規化Gini係数とデシル分析でせよと提言。
A Deep Probabilistic Model for Customer Lifetime Value Prediction
ベクトルDB管理のサーベイ論文。ベクトルDB管理特有の問題(ベクトルの類似性、ベクトルサイズ、インデックス作成)について説明。 またベクトル圧縮やクエリ最適化戦略、クエリ処理・保存・インデックス作成技術を詳しく報告
Survey of Vector Database Management Systems
Google DeepMindよりLLM出力の"不確かさ"定量化の研究。モデルの認知(Epistemic)とランダムネス(Aleatoric)起因の2つの不確かさに対し、前者の場合に有用な情報理論的計量を導出。モデル出力が信頼できるか?を定量的に判断可能に。
To Believe or Not to Believe Your LLM
ハルシネーションを軽減するための32種の手法のサーベイ論文。特にRAG、Knowledge Retrieval、CoNLI、CoVeが有用とのこと。その他の手法も構造化・分類されている(図1)。
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models
NVIDIAよりRAGの新手法Order-Preserve RAG提案。
手法はシンプルで検索スコアではなく元文書の順序で入力するもの。∞Bench(,)で長コンテキストLLMを超える性能
Defense of RAG in the Era of Long-Context Language Models
DeepMindより"LLMを最適化ツールと見做し最適化問題を自然言語で記述し解く"画期的な手法OPRO(Optimization by PROmpting)の提案。
「逐次、解をプロンプトに組込み新しい解を生成」を繰返し計算。線形回帰と巡回セールスマン問題で例示
LARGE LANGUAGE MODELS AS OPTIMIZER
差の差分法(DID)による分析で、ChatGPTのリリース後にStack Overflowへの週間投稿数が16%減少と顕著に低下したことを実証分析(論文より図1引用)。
Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow
AIを社会に適用した際のつまづきポイントを構造化&整理してくれた論文。確率モデル・予測モデルとその説明性(Not解釈性)、モデル精度に分類しそれぞれまとめてくれている。必要な時に必要な箇所を参照すると良さそう。
A Hierarchy of Limitations in Machine Learning
大規模言語モデル(LLM)のモデルではなく”評価”に関するサーベイ論文。モデルを「何のタスクで(What)どのデータで(Where)どういうプロセスで(How)評価するのか?」で構造化(図は論文より引用)しサーベイを実施。
A Survey on Evaluation of Large Language Models
機械学習でのモデル(評価|選択)、アルゴリズム選択のベストプラクティスを解説。CVやホールドアウト検証で「何時どのデータ(Train, Validation, Test)を使うのか?」がまとめられていて便利.
Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning
大規模言語モデル(LLM)を用いたシステムやプロダクトのデザインパターンをまとめた記事。ベタベタなファインチューニングの話からあまり例を見ないガードレールやキャッシュの持たせ方周りも書いてあり大変参考になる
Patterns for Building LLM-based Systems & Products
BlackRockとNVIDIAより、金融業での応用を目的とし、ベクトル検索と(全文検索ではなく!)ナレッジグラフ検索を組合せたRAG手法が提案された
HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction
LLM実践で出る質問とその回答集。「Q: 企業が独自LLMを持つ必要性は? Q: Fine TuneとRAGの使い分けは?」等のQ&Aを「計算資源、SWアーキテクチャ、データ資源、応用シナリオ、脳科学」の5分類で整理
Challenges and Responses in the Practice of Large Language Models
databricksの方々がRAG(Retrieval Augmented Geneneration)の評価、特に"LLMを使った時代評価の観点"からベストプラクティスをまとめてくれている
Best Practices for LLM Evaluation of RAG Applications
A Case Study on the Databricks Documentation Bot
マルチモーダル大規模言語モデル(特にVision)のハルシネーションに関するサーベイ論文。ハルシネーションの特定/評価/軽減に関するレビューと、その原因/評価ベンチマーク/測り方、及び対策を紹介。
Hallucination of Multimodal Large Language Models: A Survey
表形式データに対するサーベイ論文。
表形式データ構造/型の分類、学習と評価用のデータセット、モデリング技術と学習の目的、データ処理手法、ーキテクチャ等、幅広トピックを記載
Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution