Model Introduction

360Zhinao-search uses the self-developed BERT model as the base for multi-task fine-tuning, which has an average score of 75.05 on the Retrieval task on the C-MTEB-Retrieval benchmark, currently ranking first.

C-MTEB-Retrieval leaderboard contains a total of 8 [query, passage] similarity retrieval subtasks in different fields, using NDCG@10 (Normalized Discounted Cumulative Gain @ 10) as the evaluation index.

Model	T2Retrieval	MMarcoRetrieval	DuRetrieval	CovidRetrieval	CmedqaRetrieval	EcomRetrieval	MedicalRetrieval	VideoRetrieval	Avg
360Zhinao-search	87.12	83.32	87.57	85.02	46.73	68.9	63.69	78.09	75.05
AGE_Hybrid	86.88	80.65	89.28	83.66	47.26	69.28	65.94	76.79	74.97
OpenSearch-text-hybrid	86.76	79.93	87.85	84.03	46.56	68.79	65.92	75.43	74.41
piccolo-large-zh-v2	86.14	79.54	89.14	86.78	47.58	67.75	64.88	73.1	74.36
stella-large-zh-v3-1792d	85.56	79.14	87.13	82.44	46.87	68.62	65.18	73.89	73.6

Optimization points

Data filtering: Strictly prevent the C-MTEB-Retrieval test data from leaking, and clean all queries and passages in the test set;
Data source enhancement: Use open source data and LLM synthetic data to improve data diversity;
Negative example mining: Use multiple methods to deeply mine difficult-to-distinguish negative examples to improve information gain;
Training efficiency: multi-machine multi-GPU training + Deepspeed method to optimize GPU memory utilization.

Usage

from typing import cast, List, Dict, Union
from transformers import AutoModel, AutoTokenizer
import torch
import numpy as np

tokenizer = AutoTokenizer.from_pretrained('qihoo360/360Zhinao-search')
model = AutoModel.from_pretrained('qihoo360/360Zhinao-search')
sentences = ['天空是什么颜色的', '天空是蓝色的']
inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt', max_length=512)

if __name__ == "__main__":

    with torch.no_grad():
        last_hidden_state = model(**inputs, return_dict=True).last_hidden_state
        embeddings = last_hidden_state[:, 0]
        embeddings = torch.nn.functional.normalize(embeddings, dim=-1)
        embeddings = embeddings.cpu().numpy()

    print("embeddings:")
    print(embeddings)

    cos_sim = np.dot(embeddings[0], embeddings[1])
    print("cos_sim:", cos_sim)

Reference

bge fine-tuning code

C-MTEB official test script

License

The source code of this repository follows the open-source license Apache 2.0.

360Zhinao open-source models support commercial use. If you wish to use these models or continue training them for commercial purposes, please contact us via email (g-zhinao-opensource@360.cn) to apply. For the specific license agreement, please see <<360 Zhinao Open-Source Model License>>.

Downloads last month: 565

Unable to determine this model’s pipeline type. Check the docs .

Evaluation results

map on MTEB CMedQAv1
test set self-reported

87.005
mrr on MTEB CMedQAv1
test set self-reported

89.347
map on MTEB CMedQAv2
test set self-reported

88.483
mrr on MTEB CMedQAv2
test set self-reported

90.578
map on MTEB MMarcoReranking
self-reported

32.409
mrr on MTEB MMarcoReranking
self-reported

31.487
map on MTEB T2Reranking
self-reported

67.803
mrr on MTEB T2Reranking
self-reported

78.145
map_at_1 on MTEB CmedqaRetrieval
self-reported

27.171
map_at_10 on MTEB CmedqaRetrieval
self-reported

40.109
map_at_100 on MTEB CmedqaRetrieval
self-reported

41.938
map_at_1000 on MTEB CmedqaRetrieval
self-reported

42.051
map_at_3 on MTEB CmedqaRetrieval
self-reported

35.883
map_at_5 on MTEB CmedqaRetrieval
self-reported

38.220
mrr_at_1 on MTEB CmedqaRetrieval
self-reported

41.285
mrr_at_10 on MTEB CmedqaRetrieval
self-reported

49.247
mrr_at_100 on MTEB CmedqaRetrieval
self-reported

50.199
mrr_at_1000 on MTEB CmedqaRetrieval
self-reported

50.245
mrr_at_3 on MTEB CmedqaRetrieval
self-reported

46.837
mrr_at_5 on MTEB CmedqaRetrieval
self-reported

48.223
ndcg_at_1 on MTEB CmedqaRetrieval
self-reported

41.285
ndcg_at_10 on MTEB CmedqaRetrieval
self-reported

46.727
ndcg_at_100 on MTEB CmedqaRetrieval
self-reported

53.791
ndcg_at_1000 on MTEB CmedqaRetrieval
self-reported

55.706
ndcg_at_3 on MTEB CmedqaRetrieval
self-reported

41.613
ndcg_at_5 on MTEB CmedqaRetrieval
self-reported

43.703
precision_at_1 on MTEB CmedqaRetrieval
self-reported

41.285
precision_at_10 on MTEB CmedqaRetrieval
self-reported

10.340
precision_at_100 on MTEB CmedqaRetrieval
self-reported

1.602
precision_at_1000 on MTEB CmedqaRetrieval
self-reported

0.184
precision_at_3 on MTEB CmedqaRetrieval
self-reported

23.423
precision_at_5 on MTEB CmedqaRetrieval
self-reported

16.914
recall_at_1 on MTEB CmedqaRetrieval
self-reported

27.171
recall_at_10 on MTEB CmedqaRetrieval
self-reported

57.049
recall_at_100 on MTEB CmedqaRetrieval
self-reported

86.271
recall_at_1000 on MTEB CmedqaRetrieval
self-reported

99.023
recall_at_3 on MTEB CmedqaRetrieval
self-reported

41.528
recall_at_5 on MTEB CmedqaRetrieval
self-reported

48.162
map_at_1 on MTEB CovidRetrieval
self-reported

73.762
map_at_10 on MTEB CovidRetrieval
self-reported

81.663
map_at_100 on MTEB CovidRetrieval
self-reported

81.871
map_at_1000 on MTEB CovidRetrieval
self-reported

81.877
map_at_3 on MTEB CovidRetrieval
self-reported

80.102
map_at_5 on MTEB CovidRetrieval
self-reported

81.162
mrr_at_1 on MTEB CovidRetrieval
self-reported

74.078
mrr_at_10 on MTEB CovidRetrieval
self-reported

81.745
mrr_at_100 on MTEB CovidRetrieval
self-reported

81.953
mrr_at_1000 on MTEB CovidRetrieval
self-reported

81.959
mrr_at_3 on MTEB CovidRetrieval
self-reported

80.260
mrr_at_5 on MTEB CovidRetrieval
self-reported

81.266
ndcg_at_1 on MTEB CovidRetrieval
self-reported

73.973
ndcg_at_10 on MTEB CovidRetrieval
self-reported

85.021
ndcg_at_100 on MTEB CovidRetrieval
self-reported

85.884
ndcg_at_1000 on MTEB CovidRetrieval
self-reported

86.023
ndcg_at_3 on MTEB CovidRetrieval
self-reported

82.034
ndcg_at_5 on MTEB CovidRetrieval
self-reported

83.905
precision_at_1 on MTEB CovidRetrieval
self-reported

73.973
precision_at_10 on MTEB CovidRetrieval
self-reported

9.631
precision_at_100 on MTEB CovidRetrieval
self-reported

1.000
precision_at_1000 on MTEB CovidRetrieval
self-reported

0.101
precision_at_3 on MTEB CovidRetrieval
self-reported

29.329
precision_at_5 on MTEB CovidRetrieval
self-reported

18.546
recall_at_1 on MTEB CovidRetrieval
self-reported

73.762
recall_at_10 on MTEB CovidRetrieval
self-reported

95.258
recall_at_100 on MTEB CovidRetrieval
self-reported

98.946
recall_at_1000 on MTEB CovidRetrieval
self-reported

100.000
recall_at_3 on MTEB CovidRetrieval
self-reported

87.460
recall_at_5 on MTEB CovidRetrieval
self-reported

91.939
map_at_1 on MTEB DuRetrieval
self-reported

25.967
map_at_10 on MTEB DuRetrieval
self-reported

79.928
map_at_100 on MTEB DuRetrieval
self-reported

82.764
map_at_1000 on MTEB DuRetrieval
self-reported

82.794
map_at_3 on MTEB DuRetrieval
self-reported

54.432
map_at_5 on MTEB DuRetrieval
self-reported

69.246
mrr_at_1 on MTEB DuRetrieval
self-reported

89.000
mrr_at_10 on MTEB DuRetrieval
self-reported

92.810
mrr_at_100 on MTEB DuRetrieval
self-reported

92.857
mrr_at_1000 on MTEB DuRetrieval
self-reported

92.860
mrr_at_3 on MTEB DuRetrieval
self-reported

92.467
mrr_at_5 on MTEB DuRetrieval
self-reported

92.677
ndcg_at_1 on MTEB DuRetrieval
self-reported

89.000
ndcg_at_10 on MTEB DuRetrieval
self-reported

87.570
ndcg_at_100 on MTEB DuRetrieval
self-reported

90.135
ndcg_at_1000 on MTEB DuRetrieval
self-reported

90.427
ndcg_at_3 on MTEB DuRetrieval
self-reported

84.889
ndcg_at_5 on MTEB DuRetrieval
self-reported

84.607
precision_at_1 on MTEB DuRetrieval
self-reported

89.000
precision_at_10 on MTEB DuRetrieval
self-reported

42.245
precision_at_100 on MTEB DuRetrieval
self-reported

4.834
precision_at_1000 on MTEB DuRetrieval
self-reported

0.490
precision_at_3 on MTEB DuRetrieval
self-reported

75.883
precision_at_5 on MTEB DuRetrieval
self-reported

64.880
recall_at_1 on MTEB DuRetrieval
self-reported

25.967
recall_at_10 on MTEB DuRetrieval
self-reported

89.796
recall_at_100 on MTEB DuRetrieval
self-reported

98.042
recall_at_1000 on MTEB DuRetrieval
self-reported

99.610
recall_at_3 on MTEB DuRetrieval
self-reported

57.084
recall_at_5 on MTEB DuRetrieval
self-reported

74.763
map_at_1 on MTEB EcomRetrieval
self-reported

53.600
map_at_10 on MTEB EcomRetrieval
self-reported

63.948
map_at_100 on MTEB EcomRetrieval
self-reported

64.379
map_at_1000 on MTEB EcomRetrieval
self-reported

64.392
map_at_3 on MTEB EcomRetrieval
self-reported

61.683
map_at_5 on MTEB EcomRetrieval
self-reported

63.078
mrr_at_1 on MTEB EcomRetrieval
self-reported

53.600
mrr_at_10 on MTEB EcomRetrieval
self-reported

63.948
mrr_at_100 on MTEB EcomRetrieval
self-reported

64.379
mrr_at_1000 on MTEB EcomRetrieval
self-reported

64.392
mrr_at_3 on MTEB EcomRetrieval
self-reported

61.683
mrr_at_5 on MTEB EcomRetrieval
self-reported

63.078
ndcg_at_1 on MTEB EcomRetrieval
self-reported

53.600
ndcg_at_10 on MTEB EcomRetrieval
self-reported

68.904
ndcg_at_100 on MTEB EcomRetrieval
self-reported

71.019
ndcg_at_1000 on MTEB EcomRetrieval
self-reported

71.345
ndcg_at_3 on MTEB EcomRetrieval
self-reported

64.308
ndcg_at_5 on MTEB EcomRetrieval
self-reported

66.800
precision_at_1 on MTEB EcomRetrieval
self-reported

53.600
precision_at_10 on MTEB EcomRetrieval
self-reported

8.440
precision_at_100 on MTEB EcomRetrieval
self-reported

0.943
precision_at_1000 on MTEB EcomRetrieval
self-reported

0.097
precision_at_3 on MTEB EcomRetrieval
self-reported

23.967
precision_at_5 on MTEB EcomRetrieval
self-reported

15.580
recall_at_1 on MTEB EcomRetrieval
self-reported

53.600
recall_at_10 on MTEB EcomRetrieval
self-reported

84.400
recall_at_100 on MTEB EcomRetrieval
self-reported

94.300
recall_at_1000 on MTEB EcomRetrieval
self-reported

96.800
recall_at_3 on MTEB EcomRetrieval
self-reported

71.900
recall_at_5 on MTEB EcomRetrieval
self-reported

77.900
map_at_1 on MTEB MMarcoRetrieval
self-reported

71.375
map_at_10 on MTEB MMarcoRetrieval
self-reported

80.056
map_at_100 on MTEB MMarcoRetrieval
self-reported

80.287
map_at_1000 on MTEB MMarcoRetrieval
self-reported

80.294
map_at_3 on MTEB MMarcoRetrieval
self-reported

78.479
map_at_5 on MTEB MMarcoRetrieval
self-reported

79.519
mrr_at_1 on MTEB MMarcoRetrieval
self-reported

73.739
mrr_at_10 on MTEB MMarcoRetrieval
self-reported

80.535
mrr_at_100 on MTEB MMarcoRetrieval
self-reported

80.735
mrr_at_1000 on MTEB MMarcoRetrieval
self-reported

80.742
mrr_at_3 on MTEB MMarcoRetrieval
self-reported

79.212
mrr_at_5 on MTEB MMarcoRetrieval
self-reported

80.059
ndcg_at_1 on MTEB MMarcoRetrieval
self-reported

73.739
ndcg_at_10 on MTEB MMarcoRetrieval
self-reported

83.321
ndcg_at_100 on MTEB MMarcoRetrieval
self-reported

84.350
ndcg_at_1000 on MTEB MMarcoRetrieval
self-reported

84.542
ndcg_at_3 on MTEB MMarcoRetrieval
self-reported

80.401
ndcg_at_5 on MTEB MMarcoRetrieval
self-reported

82.107
precision_at_1 on MTEB MMarcoRetrieval
self-reported

73.739
precision_at_10 on MTEB MMarcoRetrieval
self-reported

9.878
precision_at_100 on MTEB MMarcoRetrieval
self-reported

1.039
precision_at_1000 on MTEB MMarcoRetrieval
self-reported

0.106
precision_at_3 on MTEB MMarcoRetrieval
self-reported

30.053
precision_at_5 on MTEB MMarcoRetrieval
self-reported

18.954
recall_at_1 on MTEB MMarcoRetrieval
self-reported

71.375
recall_at_10 on MTEB MMarcoRetrieval
self-reported

92.846
recall_at_100 on MTEB MMarcoRetrieval
self-reported

97.498
recall_at_1000 on MTEB MMarcoRetrieval
self-reported

98.992
recall_at_3 on MTEB MMarcoRetrieval
self-reported

85.199
recall_at_5 on MTEB MMarcoRetrieval
self-reported

89.220
map_at_1 on MTEB MedicalRetrieval
self-reported

55.600
map_at_10 on MTEB MedicalRetrieval
self-reported

61.035
map_at_100 on MTEB MedicalRetrieval
self-reported

61.542
map_at_1000 on MTEB MedicalRetrieval
self-reported

61.598
map_at_3 on MTEB MedicalRetrieval
self-reported

59.683
map_at_5 on MTEB MedicalRetrieval
self-reported

60.478
mrr_at_1 on MTEB MedicalRetrieval
self-reported

55.600
mrr_at_10 on MTEB MedicalRetrieval
self-reported

61.035
mrr_at_100 on MTEB MedicalRetrieval
self-reported

61.542
mrr_at_1000 on MTEB MedicalRetrieval
self-reported

61.598
mrr_at_3 on MTEB MedicalRetrieval
self-reported

59.683
mrr_at_5 on MTEB MedicalRetrieval
self-reported

60.478
ndcg_at_1 on MTEB MedicalRetrieval
self-reported

55.600
ndcg_at_10 on MTEB MedicalRetrieval
self-reported

63.686
ndcg_at_100 on MTEB MedicalRetrieval
self-reported

66.417
ndcg_at_1000 on MTEB MedicalRetrieval
self-reported

67.924
ndcg_at_3 on MTEB MedicalRetrieval
self-reported

60.951
ndcg_at_5 on MTEB MedicalRetrieval
self-reported

62.388
precision_at_1 on MTEB MedicalRetrieval
self-reported

55.600
precision_at_10 on MTEB MedicalRetrieval
self-reported

7.200
precision_at_100 on MTEB MedicalRetrieval
self-reported

0.854
precision_at_1000 on MTEB MedicalRetrieval
self-reported

0.097
precision_at_3 on MTEB MedicalRetrieval
self-reported

21.533
precision_at_5 on MTEB MedicalRetrieval
self-reported

13.620
recall_at_1 on MTEB MedicalRetrieval
self-reported

55.600
recall_at_10 on MTEB MedicalRetrieval
self-reported

72.000
recall_at_100 on MTEB MedicalRetrieval
self-reported

85.400
recall_at_1000 on MTEB MedicalRetrieval
self-reported

97.300
recall_at_3 on MTEB MedicalRetrieval
self-reported

64.600
recall_at_5 on MTEB MedicalRetrieval
self-reported

68.100

View on Papers With Code