The majority of text is stored in UTF-8, which must be validated on ingestion. We present the lookup algorithm, which outperforms UTF-8 validation routines used in many libraries and languages by more than 10 times using commonly available SIMD instructions. To ensure reproducibility, our work is freely available as open source software.


翻译:大部分文本都储存在UTF-8, 必须在摄入时验证。 我们展示了搜索算法,它比许多图书馆和语言中使用的UTF-8验证程序成功10倍以上,使用了通用的SIMD 指令。 为了确保可复制性,我们的工作可以免费作为开放源代码软件提供。

0
下载
关闭预览

相关内容

LESS 是一个开源的样式语言,受到 Sass 的影响。严格来说,LESS 是一个嵌套的元语言,符合语法规范的 CSS 语句也是符合规范的 Less 代码。
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
德先生
53+阅读 · 2019年4月28日
Approximate Cross-Validation for Structured Models
Arxiv
0+阅读 · 2020年12月1日
Arxiv
0+阅读 · 2020年11月30日
Arxiv
4+阅读 · 2020年5月25日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关主题
相关资讯
已删除
德先生
53+阅读 · 2019年4月28日
Top
微信扫码咨询专知VIP会员