LingoIITGN
/

COMI-LINGUA-POS

Token Classification

Model card Files Files and versions

RajveeSheth commited on Jan 20

Commit

e1c50fb

·

verified ·

1 Parent(s): 3761c75

Update README.md

Files changed (1) hide show

README.md +1 -2

README.md CHANGED Viewed

@@ -45,8 +45,7 @@ Output: [{'मीराबाई': 'PROPN'}, {'चानू': 'PROPN'}, {'ने
 ```
 ## Training Details
 ### Training Data
-[COMI-LINGUA Dataset Card](https://huggingface.co/datasets/LingoIITGN/COMI-LINGUA): 125K+ instances (POS: 24,598 filtered usable after refinement). Sources: NDTV/ABP News, X/YouTube, politics (INC/BJP). 3× expert bilingual annotators (Fleiss’ Kappa = 0.817). Initial predictions from CodeSwitch NLP library; ~15% tokens corrected (63,002 / 427,941). Splits: Train (~19.6K), Test (5K). CMI ≈21.60 avg (higher mixing than other tasks). CC-BY-4.0.
 ### Training Procedure
 #### Preprocessing
 Tokenized with base tokenizer; instruction templates + few-shot examples. Filtered: ≥5 tokens, no hate/non-Hinglish, focused on code-mixed content.

 ```
 ## Training Details
 ### Training Data
+[COMI-LINGUA Dataset Card](https://huggingface.co/datasets/LingoIITGN/COMI-LINGUA).
 ### Training Procedure
 #### Preprocessing
 Tokenized with base tokenizer; instruction templates + few-shot examples. Filtered: ≥5 tokens, no hate/non-Hinglish, focused on code-mixed content.