FineFreq：一个来自网络规模文本的多语言字符频率数据集 (FineFreq: A Multilingual Character Frequency Dataset from Web-Scale Text)

We present FineFreq, a large-scale multilingual character frequency dataset derived from the FineWeb and FineWeb2 corpora, covering over 1900 languages and spanning 2013-2025. The dataset contains frequency counts for 96 trillion characters processed from 57 TB of compressed text. For each language, FineFreq provides per-character statistics with aggregate and year-level frequencies, allowing fine-grained temporal analysis. The dataset preserves naturally occurring multilingual features such as cross-script borrowings, emoji, and acronyms without applying artificial filtering. Each character entry includes Unicode metadata (category, script, block), enabling domain-specific or other downstream filtering and analysis. The full dataset is released in both CSV and Parquet formats, with associated metadata, available on GitHub and HuggingFace. https://github.com/Bin-2/FineFreq

翻译：我们提出了FineFreq，这是一个从FineWeb和FineWeb2语料库衍生的大规模多语言字符频率数据集，涵盖超过1900种语言，时间跨度为2013年至2025年。该数据集包含从57 TB压缩文本中处理得到的96万亿字符的频率计数。对于每种语言，FineFreq提供每个字符的统计信息，包括聚合频率和年度频率，从而支持细粒度的时间分析。该数据集保留了自然出现的多语言特征，如跨文字借用、表情符号和首字母缩略词，未应用人工过滤。每个字符条目都包含Unicode元数据（类别、文字、区块），便于进行特定领域或其他下游的过滤与分析。完整数据集以CSV和Parquet格式发布，并附有相关元数据，可在GitHub和HuggingFace上获取。https://github.com/Bin-2/FineFreq

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日