语料论文 - 专知

会员服务 ·

MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

Arxiv

0+阅读 · 12月15日

EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models

Arxiv

0+阅读 · 12月4日

In Machina N400: Pinpointing Where a Causal Language Model Detects Semantic Violations

Arxiv

0+阅读 · 11月24日

Tackling a Challenging Corpus for Early Detection of Gambling Disorder: UNSL at MentalRiskES 2025

Arxiv

0+阅读 · 11月28日

ToxSyn: Reducing Bias in Hate Speech Detection via Synthetic Minority Data in Brazilian Portuguese

Arxiv

0+阅读 · 11月14日

TalkVerse: Democratizing Minute-Long Audio-Driven Video Generation

Arxiv

0+阅读 · 12月16日

Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis

Arxiv

0+阅读 · 11月28日

Leveraging Online Data to Enhance Medical Knowledge in a Small Persian Language Model

Arxiv

0+阅读 · 11月16日

Computational Analysis of Gender Depiction in the Comedias of Calderón de la Barca

Arxiv

0+阅读 · 11月14日

A new kid on the block: Distributional semantics predicts the word-specific tone signatures of monosyllabic words in conversational Taiwan Mandarin

Arxiv

0+阅读 · 11月21日

Hulu-Med: A Transparent Generalist Model towards Holistic Medical Vision-Language Understanding

Arxiv

0+阅读 · 11月5日

The Distribution of Dependency Distance and Hierarchical Distance in Contemporary Written Japanese and Its Influencing Factors

Arxiv

0+阅读 · 11月26日

MeAJOR Corpus: A Multi-Source Dataset for Phishing Email Detection

Arxiv

0+阅读 · 11月6日

LLMCARE: early detection of cognitive impairment via transformer models enhanced by LLM-generated synthetic data

Arxiv

0+阅读 · 11月10日

ARC Is a Vision Problem!

Arxiv

0+阅读 · 11月18日

参考链接

微信扫码咨询专知VIP会员