toread - a CCMat Collection

CCMat 's Collections

Adapters & Controls

Personalization

Vision

Video

Moe

Transformers & Attention

Gaming

StateSpaceModels

VisualDocUnderstanding

LLMs

TryOn

Audio

Agents

Code

Data

Img Gen Foundational

UI

tosort

toread

toread

updated 3 days ago

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

Paper • 2311.17049 • Published Nov 28, 2023
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Paper • 2405.04434 • Published 26 days ago • 10
A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision

Paper • 2303.17376 • Published Mar 30, 2023
Sigmoid Loss for Language Image Pre-Training

Paper • 2303.15343 • Published Mar 27, 2023 • 4
Better & Faster Large Language Models via Multi-token Prediction

Paper • 2404.19737 • Published Apr 30 • 62
Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Paper • 2401.10774 • Published Jan 19 • 50
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation

Paper • 2404.19427 • Published Apr 30 • 65
CogVLM: Visual Expert for Pretrained Language Models

Paper • 2311.03079 • Published Nov 6, 2023 • 19
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

Paper • 2404.06512 • Published Apr 9 • 29
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

Paper • 2401.16420 • Published Jan 29 • 54
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation

Paper • 2404.02733 • Published Apr 3 • 19
Demonstration-Regularized RL

Paper • 2310.17303 • Published Oct 26, 2023
Vision Transformers Need Registers

Paper • 2309.16588 • Published Sep 28, 2023 • 73
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

Paper • 2405.01434 • Published about 1 month ago • 44
Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

Paper • 2404.19752 • Published Apr 30 • 19
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Paper • 2405.01535 • Published about 1 month ago • 103
LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

Paper • 2405.00732 • Published Apr 29 • 115
RLHF Workflow: From Reward Modeling to Online RLHF

Paper • 2405.07863 • Published 20 days ago • 57
What matters when building vision-language models?

Paper • 2405.02246 • Published 30 days ago • 87
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

Paper • 2405.08748 • Published 19 days ago • 17
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection

Paper • 2405.10300 • Published 17 days ago • 24
Many-Shot In-Context Learning in Multimodal Foundation Models

Paper • 2405.09798 • Published 17 days ago • 25
CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Paper • 2405.10314 • Published 17 days ago • 37
LoRA Learns Less and Forgets Less

Paper • 2405.09673 • Published 18 days ago • 73
Chameleon: Mixed-Modal Early-Fusion Foundation Models

Paper • 2405.09818 • Published 17 days ago • 95
Layer-Condensed KV Cache for Efficient Inference of Large Language Models

Paper • 2405.10637 • Published 16 days ago • 16
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

Paper • 2405.11143 • Published 14 days ago • 33
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

Paper • 2405.12130 • Published 13 days ago • 41
FIFO-Diffusion: Generating Infinite Videos from Text without Training

Paper • 2405.11473 • Published 14 days ago • 50
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

Paper • 2405.12970 • Published 12 days ago • 20
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

Paper • 2405.12981 • Published 12 days ago • 23
Diffusion for World Modeling: Visual Details Matter in Atari

Paper • 2405.12399 • Published 13 days ago • 25
Your Transformer is Secretly Linear

Paper • 2405.12250 • Published 14 days ago • 135
ReVideo: Remake a Video with Motion and Content Control

Paper • 2405.13865 • Published 11 days ago • 21
Matryoshka Multimodal Models

Paper • 2405.17430 • Published 6 days ago • 29
An Introduction to Vision-Language Modeling

Paper • 2405.17247 • Published 6 days ago • 64
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

Paper • 2405.15738 • Published 9 days ago • 41