Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2403.04652

lshort-transformers

Papers useful when writing the paper: "The Not So Short Transfromers"

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Paper • 2403.03853 • Published Mar 6 • 61
SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Paper • 2401.15024 • Published Jan 26 • 62
Your Transformer is Secretly Linear

Paper • 2405.12250 • Published 14 days ago • 136
Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59

A little guide to building Large Language Models in 2024

Resources mentioned by @thomwolf in https://x.com/Thom_Wolf/status/1773340316835131757

Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59
A Survey on Data Selection for Language Models

Paper • 2402.16827 • Published Feb 26 • 3
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Paper • 2402.00159 • Published Jan 31 • 55
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

Paper • 2306.01116 • Published Jun 1, 2023 • 28

Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU

Paper • 2403.06504 • Published Mar 11 • 52
Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

Paper • 2403.03507 • Published Mar 6 • 176

Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59

Papers I find interesting

Scaling Instruction-Finetuned Language Models

Paper • 2210.11416 • Published Oct 20, 2022 • 5
Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Paper • 2312.00752 • Published Dec 1, 2023 • 131
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Paper • 2403.05530 • Published Mar 8 • 50
Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59

Pix2Gif: Motion-Guided Diffusion for GIF Generation

Paper • 2403.04634 • Published Mar 7 • 13
StableDrag: Stable Dragging for Point-based Image Editing

Paper • 2403.04437 • Published Mar 7 • 24
Teaching Large Language Models to Reason with Reinforcement Learning

Paper • 2403.04642 • Published Mar 7 • 43
Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

Paper • 2403.03507 • Published Mar 6 • 176
Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59

Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59
tinyBenchmarks: evaluating LLMs with fewer examples

Paper • 2402.14992 • Published Feb 22 • 11

about 19 hours ago

ibm/AttaQ

Viewer • Updated Jan 26 • 1.56k • 5
ibm/merlinite-7b

Text Generation • Updated Mar 5 • 12k • 101
microsoft/Orca-2-13b

Text Generation • Updated Nov 22, 2023 • 19.3k • 651
snorkelai/snorkel-curated-instruction-tuning

Preview • Updated Mar 11 • 4 • 9

Multi modal foundational models

Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59

Previous
1
2
3
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs