Twitter contains an abundance of linguistic data from the real world. We examine Twitter for user-generated content in low-resource languages such as local Indonesian. For NLP to work in Indonesian, it must consider local dialects, geographic context, and regional culture influence Indonesian languages. This paper identifies the problems we faced when constructing a Local Indonesian NLP dataset. Furthermore, we are developing a framework for creating, collecting, and classifying Local Indonesian datasets for NLP. Using twitter's geolocation tool for automatic annotating.
翻译:Twitter包含来自真实世界的大量语言数据。 我们检查Twitter, 以便用印度尼西亚本地语等低资源语言提供用户生成的内容。 NLP要用印尼语工作,就必须考虑当地方言、地理背景和区域文化对印尼语言的影响。 本文指出了我们在建设印尼本地NLP数据集时所面临的问题。 此外, 我们正在开发一个框架,为NLP创建、收集和分类印尼本地数据集。 使用 Twitter 的地理定位工具进行自动注解 。