Nandan Thakur's picture

1 3 35

Nandan Thakur

nthakur

·

https://thakur-nandan.github.io

AI & ML interests

NLP, IR, QA

Organizations

Posts 1

Post

2914

🦢 The SWIM-IR dataset contains 29 million text-retrieval training pairs across 27 diverse languages. It is one of the largest synthetic multilingual datasets generated using PaLM 2 on Wikipedia! 🔥🔥

SWIM-IR dataset contains three subsets :
- Cross-lingual:nthakur/swim-ir-cross-lingual
- Monolingual: nthakur/swim-ir-monolingual
- Indic Cross-lingual: nthakur/indic-swim-ir-cross-lingual

Check it out:
nthakur/swim-ir-dataset-662ddaecfc20896bf14dd9b7

Collections 2

Papers 9

arxiv:2312.11361

arxiv:2311.05800

arxiv:2307.16883

arxiv:2306.07471

models 24

nthakur/Mistral-7B-Instruct-v0.2-miracl-raft-sft-v2.0

Updated 12 days ago • 19

nthakur/Meta-Llama-3-8B-Instruct-miracl-raft-sft-v2.0

Updated 14 days ago • 19

nthakur/Meta-Llama-3-8B-Instruct-miracl-mix-raft-sft-30th-apr-v1.0-test

Updated 15 days ago

nthakur/Meta-Llama-3-8B-Instruct-miracl-mix-raft-sft-25th-apr-v1.0

Updated 17 days ago • 22

nthakur/mistral-7b-instruct-v0.2-miracl-raft-sft-25th-apr-v1.0

Updated 19 days ago

nthakur/mistral-7b-instruct-v0.2-miracl-raft-sft-9th-apr-v1.0

nthakur/mistral-7b-v0.2-multilingual-full-sft-27th-mar-basilisk

Text Generation • Updated Apr 2 • 4

nthakur/mistral-7b-instruct-v0.2-dpo-multilingual-mix-1st-apr-final

Updated Apr 2 • 1

nthakur/mistral-7b-instruct-v0.2-dpo-full-multilingual-mix-1st-apr

nthakur/mistral-7b-instruct-v0.2-dpo-multilingual-mix-1st-apr

datasets 38

nthakur/miracl-raft-instruct-v0.3

Updated about 14 hours ago • 57

nthakur/miracl-raft-instruct-v0.3-old

Viewer • Updated about 15 hours ago

nthakur/orpo-dpo-mix-40k-flat

Viewer • Updated 1 day ago

nthakur/miracl-raft-instruct-v0.2

Viewer • Updated 14 days ago • 71

nthakur/nomiracl-raft-instruct-v0.2

Viewer • Updated 14 days ago

nthakur/miracl-raft-sft-instruct-v0.2

Viewer • Updated 15 days ago • 99 • 2

nthakur/swim-ir-monolingual

Viewer • Updated 17 days ago • 6 • 2

nthakur/swim-ir-cross-lingual

Viewer • Updated 17 days ago • 3

nthakur/indic-swim-ir-cross-lingual

Viewer • Updated 17 days ago • 15 • 2

nthakur/xtreme-up-retrieval-cross-lang

Viewer • Updated 18 days ago