multilingual-e5-small fine-tuned on Dutch MS MARCO

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-small on the msmarco-qwen3-reranker-0.6_b-dutch dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for retrieval.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'BertModel'})
  (1): Pooling({'embedding_dimension': 384, 'pooling_mode': 'mean', 'include_prompt': True})
  (2): Normalize({})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("tomaarsen/multilingual-e5-small-mmarco-nl-v2")
# Run inference
queries = [
    'Welke ingrediënten bevat Wild Growth Hair die ervoor zorgen dat het haar groeit?',
]
documents = [
    'Wild Growth Haarolie bestaat uit een compromisloze rijke plantaardige formule die hydrateert, verzorgt en het haar verzacht voor een beter beheerbaar resultaat. Droog, verward en moeilijk te hanteren haar wordt zacht, gezond en minder gevoelig voor gespleten haarpunten en haarbreuk. De haarolie bevordert sterke, volle haargroei voor alle haartypen.',
    'Voor haargroei is het belangrijk om een uitgebalanceerd dieet te hebben met Vitamine C, Biotine (dus Vitamine B7 of Vitamine H) en Niacine (Vitamine B3). Als je niet genoeg van deze vitamines uit je voeding kunt halen, heb je mogelijk een vitaminesupplement nodig voor haargroei.',
    'voor haargroei is het belangrijk om een evenwichtige voeding te hebben met vitamine C, biotine (oftewel vitamine B7 of vitamine H) en niacine (vitamine B3). Als je niet genoeg van deze vitamines in je voeding kunt krijgen, heb je mogelijk een vitamine supplement nodig voor haargroei.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 384] [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.6447, 0.3463, 0.3667]])

Evaluation

Metrics

Information Retrieval

  • Dataset: beir-nl-scifact
  • Evaluated with InformationRetrievalEvaluator with these parameters:
    {
        "query_prompt_name": "query",
        "corpus_prompt_name": "document"
    }
    
Metric Value
cosine_accuracy@1 0.5333
cosine_accuracy@3 0.6633
cosine_accuracy@5 0.7067
cosine_accuracy@10 0.7733
cosine_precision@1 0.5333
cosine_precision@3 0.2356
cosine_precision@5 0.154
cosine_precision@10 0.086
cosine_recall@1 0.5065
cosine_recall@3 0.6443
cosine_recall@5 0.6935
cosine_recall@10 0.7596
cosine_ndcg@10 0.6408
cosine_mrr@10 0.6095
cosine_map@100 0.6055

Training Details

Training Dataset

msmarco-qwen3-reranker-0.6_b-dutch

  • Dataset: msmarco-qwen3-reranker-0.6_b-dutch at c191414
  • Size: 150,000 training samples
  • Columns: query, positive, negative_1, negative_2, negative_3, and negative_4
  • Approximate statistics based on the first 100 samples:
    query positive negative_1 negative_2 negative_3 negative_4
    type string string string string string string
    modality text text text text text text
    details
    • min: 5 tokens
    • mean: 11.38 tokens
    • max: 37 tokens
    • min: 26 tokens
    • mean: 98.05 tokens
    • max: 279 tokens
    • min: 23 tokens
    • mean: 82.23 tokens
    • max: 179 tokens
    • min: 20 tokens
    • mean: 84.27 tokens
    • max: 188 tokens
    • min: 17 tokens
    • mean: 81.79 tokens
    • max: 190 tokens
    • min: 20 tokens
    • mean: 85.31 tokens
    • max: 184 tokens
  • Samples:
    query positive negative_1 negative_2 negative_3 negative_4
    soorten voedsel in het mediterraan dieet Het bevat voedingsmiddelen die gegeten worden in Griekenland, Spanje, Zuid-Italië en Frankrijk, en andere landen die grenzen aan de Middellandse Zee. Het mediterraan dieet legt de nadruk op het eten van voedingsmiddelen zoals vis, fruit, groenten, bonen, volkorenbrood en volle granen, noten en olijfolie. Vlees, kaas en zoetigheden zijn zeer beperkt. De aanbevolen voedingsmiddelen zijn rijk aan enkelvoudig onverzadigde vetten, vezels en omega-3 vetzuren. Een mediterraan dieet is rijk aan fruit, groenten, noten, vis en volle granen, laag in rood vlees en vrij van bewerkte voedingsmiddelen en toegevoegde suikers. Meer dan alleen een dieet, dit is een manier van leven—door gezonde, goede ingrediënten te eten. Het mediterraan dieet is gebaseerd op verse producten en gezonde vetten, zoals die in olijfolie en bepaalde vissoorten. Vlees en snoep zijn niet volledig verboden, maar worden minder vaak gegeten. Het Mediterrane dieet benadrukt: Voornamelijk plantaardige voedingsmiddelen eten, zoals fruit en groenten, volle granen, peulvruchten en noten. Boter vervangen door gezonde vetten zoals olijfolie en raapzaadolie. Kruid- en specerij gebruik in plaats van zout om voedsel op smaak te brengen. Rode vlees beperken tot niet meer dan een paar keer per maand. Op het menu. Het traditionele mediterrane dieet vraagt om: Het dagelijks eten van een verscheidenheid aan fruit en groenten, zoals druiven, blauwe bessen, tomaten, broccoli, paprika's, vijgen, olijven, spinazie, aubergine, bonen, linzen en kikkererwten.
    waar staat tpdes voor Waar staat TPDES voor? TPDES staat voor Texaanse Afvoer van Verontreinigende Stoffen Eliminatie Systemen. Deze definitie komt zeer zelden voor. Andere bronnen: Acronym Finder heeft 1 geverifieerde definitie voor TPDES. Thermische desorptiespectroscopie, ook wel bekend als temperature programmed desorptie, is de methode om gedesorbeerde moleculen van een oppervlak te observeren wanneer de oppervlaktetemperatuur wordt verhoogd. Veel onderzoekers geven de voorkeur aan de naam TPD omdat het geen spectroscopische methode is. BPC, Artikelen en Woordenlijst. TVS: Transactieverwerkingssysteem. Definitie: Een Transactieverwerkingssysteem (TVS) is een type informatiesysteem dat de gegevensoverdrachten van een onderneming verzamelt, opslaat, wijzigt en opvraagt. Een transactie is elke gebeurtenis die de ACID-test doorstaat, waarbij gegevens worden aangemaakt of gewijzigd voordat ze worden opgeslagen in een informatiesysteem. Al deze gebeurtenissen worden transacties genoemd, en het bijhouden ervan vereist een transactie verwerkingssysteem. Een transactie verwerkingssysteem, of TPS, is een systeem om de gedetailleerde informatie vast te leggen en te verwerken die nodig is om gegevens bij te werken over de fundamentele operaties van een organisatie. Transacties zijn enkele gebeurtenissen die iets veranderen, zoals klantbestellingen, ontvangsten, facturen, betalingen, enz. Wij zijn de Telefoon Voorkeursdienst. De Telefoon Voorkeursdienst (TPS) is een gratis service. Het is het officiële centrale afmeldregister waarop u uw voorkeur kunt vastleggen om geen ongevraagde verkoop- of marketingtelefoontjes te ontvangen.
    wat geef je quails te eten Fruit en groenten. Kwartels houden ook van verschillende soorten fruit en groenten. Na zaden en granen komt een groot deel van hun dieet van verschillende soorten planten, bladeren, fruit en groenten. Een goed dieet voor kwartels zou ongeveer 20 procent groenten, fruit, bladeren en andere ruwvoer moeten bevatten. Traktatie-opties voor kwartels. Fruit zoals hierboven vermeld is een goede traktatie. Groenten zoals sprouts, maïs op de kolf, vogelzaadmengsels en meelwormen zijn ook goede opties. Groenten kunnen echter lastig zijn; de ene dag houden ze van sla en een week later maakt het ze niets meer uit. Naast roofvogels en reptielen zijn er andere dieren die ook kwartels eten. Laten we bespreken welke dieren kwartels eten. Eeters van eieren: Vanaf het moment dat ze geboren worden, worden kwartels beschouwd als prooi voor veel dieren. Echter, voordat ze geboren zijn, kunnen ze als voedsel worden geconsumeerd door veel dieren die op eieren jagen. Dit omvat kleinere dieren zoals wasberen, opossums, stinkdieren en gordeldieren. Volwassen Gambel's kwartels bestaan voor 90 procent uit een vegetarisch dieet. Insecten blijven als aanvulling in hun dieet, vooral tijdens het broedseizoen wanneer hun caloriebehoefte groter is. Vogels zoals juncos, tortelduiven, blauwborsten, mussen en kwartels zijn allemaal vogels die van nature op de grond naar voedsel zoeken. Deze zelfde vogels houden van gierst wanneer het wordt aangeboden in een voederbakje dicht bij de grond. Het is een klein, rond zaadje dat alleen of als onderdeel van een zaadmix kan worden aangeboden.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 48
  • num_train_epochs: 1
  • learning_rate: 1e-05
  • warmup_steps: 0.1
  • weight_decay: 0.01
  • bf16: True
  • per_device_eval_batch_size: 48
  • load_best_model_at_end: True
  • seed: 12
  • dataloader_num_workers: 4
  • dataloader_persistent_workers: True
  • prompts: {'query': 'query: ', 'positive': 'passage: ', 'negative_1': 'passage: ', 'negative_2': 'passage: ', 'negative_3': 'passage: ', 'negative_4': 'passage: '}
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 48
  • num_train_epochs: 1
  • max_steps: -1
  • learning_rate: 1e-05
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0.1
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 1
  • average_tokens_across_devices: True
  • max_grad_norm: 1.0
  • label_smoothing_factor: 0.0
  • bf16: True
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: None
  • trackio_bucket_id: None
  • trackio_static_space_id: None
  • per_device_eval_batch_size: 48
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 12
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 4
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: True
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_static_graph: None
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: {'query': 'query: ', 'positive': 'passage: ', 'negative_1': 'passage: ', 'negative_2': 'passage: ', 'negative_3': 'passage: ', 'negative_4': 'passage: '}
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Click to expand
Epoch Step Training Loss beir-nl-scifact_cosine_ndcg@10
-1 -1 - 0.6063
0.0003 1 3.1189 -
0.0064 20 3.0198 -
0.0128 40 2.9271 -
0.0192 60 2.7280 -
0.0256 80 2.2259 -
0.032 100 1.6482 -
0.0384 120 1.2789 -
0.0448 140 1.1040 -
0.0512 160 1.1518 -
0.0576 180 1.0647 -
0.064 200 1.1525 -
0.0704 220 1.0393 -
0.0768 240 1.1853 -
0.0832 260 1.0208 -
0.0896 280 1.0445 -
0.096 300 1.0752 -
0.1024 320 1.0446 -
0.1088 340 1.0645 -
0.1152 360 1.0009 -
0.1216 380 1.0448 -
0.128 400 1.1113 -
0.1344 420 1.0426 -
0.1408 440 1.0513 -
0.1472 460 1.0719 -
0.1536 480 1.0062 -
0.16 500 1.0296 -
0.1664 520 1.0524 -
0.1728 540 1.0089 -
0.1792 560 1.0311 -
0.1856 580 0.9817 -
0.192 600 1.0206 -
0.1984 620 1.0897 -
0.2 625 - 0.6441
0.2048 640 0.9850 -
0.2112 660 1.0030 -
0.2176 680 1.0014 -
0.224 700 1.0444 -
0.2304 720 0.9941 -
0.2368 740 1.0018 -
0.2432 760 1.0267 -
0.2496 780 0.9360 -
0.256 800 1.0316 -
0.2624 820 1.0239 -
0.2688 840 1.0194 -
0.2752 860 1.0200 -
0.2816 880 1.0152 -
0.288 900 1.0062 -
0.2944 920 0.9873 -
0.3008 940 0.9403 -
0.3072 960 0.9958 -
0.3136 980 0.9910 -
0.32 1000 1.0387 -
0.3264 1020 0.9575 -
0.3328 1040 1.0317 -
0.3392 1060 0.9859 -
0.3456 1080 0.9845 -
0.352 1100 1.0684 -
0.3584 1120 1.0216 -
0.3648 1140 0.9800 -
0.3712 1160 1.0420 -
0.3776 1180 1.0186 -
0.384 1200 0.9815 -
0.3904 1220 0.9530 -
0.3968 1240 1.0129 -
0.4 1250 - 0.6225
0.4032 1260 0.9777 -
0.4096 1280 1.0238 -
0.416 1300 0.9711 -
0.4224 1320 0.9894 -
0.4288 1340 0.9829 -
0.4352 1360 0.9899 -
0.4416 1380 1.0560 -
0.448 1400 1.0336 -
0.4544 1420 1.0208 -
0.4608 1440 0.9513 -
0.4672 1460 0.9934 -
0.4736 1480 1.0599 -
0.48 1500 1.0187 -
0.4864 1520 0.9881 -
0.4928 1540 1.0549 -
0.4992 1560 1.0228 -
0.5056 1580 0.9981 -
0.512 1600 1.0052 -
0.5184 1620 0.9759 -
0.5248 1640 1.0006 -
0.5312 1660 0.9551 -
0.5376 1680 0.9756 -
0.544 1700 0.9752 -
0.5504 1720 1.0257 -
0.5568 1740 1.0013 -
0.5632 1760 0.9489 -
0.5696 1780 0.9810 -
0.576 1800 0.9876 -
0.5824 1820 0.9381 -
0.5888 1840 1.0125 -
0.5952 1860 0.9504 -
0.6 1875 - 0.6249
0.6016 1880 0.9828 -
0.608 1900 1.0362 -
0.6144 1920 0.9065 -
0.6208 1940 0.9627 -
0.6272 1960 0.9628 -
0.6336 1980 0.9896 -
0.64 2000 0.9315 -
0.6464 2020 0.9652 -
0.6528 2040 1.0031 -
0.6592 2060 1.0235 -
0.6656 2080 0.9857 -
0.672 2100 1.0347 -
0.6784 2120 0.9524 -
0.6848 2140 0.9549 -
0.6912 2160 0.9661 -
0.6976 2180 0.9399 -
0.704 2200 1.0201 -
0.7104 2220 1.0341 -
0.7168 2240 1.0376 -
0.7232 2260 0.9322 -
0.7296 2280 0.9544 -
0.736 2300 0.9638 -
0.7424 2320 0.9542 -
0.7488 2340 1.0006 -
0.7552 2360 0.9453 -
0.7616 2380 0.9671 -
0.768 2400 0.9488 -
0.7744 2420 0.9543 -
0.7808 2440 0.9803 -
0.7872 2460 0.9709 -
0.7936 2480 0.9603 -
0.8 2500 1.0345 0.6225
0.8064 2520 1.0051 -
0.8128 2540 1.0229 -
0.8192 2560 0.9674 -
0.8256 2580 0.9806 -
0.832 2600 0.9590 -
0.8384 2620 0.9539 -
0.8448 2640 0.9475 -
0.8512 2660 0.9878 -
0.8576 2680 1.0037 -
0.864 2700 0.9339 -
0.8704 2720 1.0069 -
0.8768 2740 1.0095 -
0.8832 2760 1.0295 -
0.8896 2780 0.9675 -
0.896 2800 0.9783 -
0.9024 2820 0.9529 -
0.9088 2840 0.9365 -
0.9152 2860 0.9904 -
0.9216 2880 1.0086 -
0.928 2900 0.9829 -
0.9344 2920 1.0156 -
0.9408 2940 1.0067 -
0.9472 2960 0.9589 -
0.9536 2980 0.9113 -
0.96 3000 1.0160 -
0.9664 3020 1.0267 -
0.9728 3040 0.9343 -
0.9792 3060 1.0147 -
0.9856 3080 0.9342 -
0.992 3100 0.9330 -
0.9984 3120 0.9755 -
1.0 3125 - 0.6266
-1 -1 - 0.6408
  • The bold row denotes the saved checkpoint.

Training Time

  • Training: 30.0 minutes
  • Evaluation: 23.5 seconds
  • Total: 30.4 minutes

Framework Versions

  • Python: 3.11.6
  • Sentence Transformers: 5.5.0.dev0
  • Transformers: 5.6.2
  • PyTorch: 2.10.0+cu128
  • Accelerate: 1.13.0.dev0
  • Datasets: 4.8.4
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}
Downloads last month
14
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for tomaarsen/multilingual-e5-small-mmarco-nl-v2

Finetuned
(164)
this model

Dataset used to train tomaarsen/multilingual-e5-small-mmarco-nl-v2

Papers for tomaarsen/multilingual-e5-small-mmarco-nl-v2

Evaluation results