主题: Machine learning over real-time streaming data with TensorFlow
报告简介: 在流数据上应用机器学习来发现有用的信息一直是人们感兴趣的话题。在物联网传感器、网络交易、全球定位系统位置或社交媒体更新等许多现实应用中,不断产生大量数据。关键是要有一个能够可靠和方便地接收、预处理和提供数据的数据管道,以便进行模型推理和训练。Yong Tang使用TensorFlow开发了用于流数据处理的TensorFlow I/O包。TensorFlow I/O由TensorFlow项目的SIG IO开发,是一个软件包,主要关注TensorFlow的数据I/O、流和文件格式。除了机器学习本身之外,它还支持各种各样的开源软件和框架。在流数据领域,TensorFlow I/O为Apache Kafka、AWS kinisis和Google Cloud PubSub提供支持,这是目前应用最广泛的流框架。TensorFlow I/O构建在tf.data之上,与简洁的tf.keras API完全兼容。这意味着使用Kafka、kinisis和PubSub对流式数据进行模型推断可以像一行代码一样简单。再加上tf.data中的数据转换功能,还可以直接对成批流数据进行模型训练。除了流输入外,TensorFlow I/O还提供流输出支持,使得机器学习算法实时生成的数据可以返回到Kafka,从而允许其他应用程序连续接收数据。有了输入和输出支持,就可以用最少的组件构建以TensorFlow为中心的流媒体管道,这从长远来看大大减少了基础设施的维护。您将看到一个演示,展示了TensorFlow I/O使用的便利性,以及使用完整的流数据管道轻松进行机器学习的能力。
嘉宾介绍: 唐勇是美孚电子的工程总监。他为开源社区的不同容器和机器学习项目做出了贡献。他最近的研究重点是机器学习中的数据处理。他是TensorFlow项目的提交者和SIG I/O负责人,并因对TensorFlow的贡献而获得了谷歌的开源同行奖。除了TensorFlow,唐勇还为开源社区的许多其他项目做出了贡献,并且是Docker和CoreDNS项目的提交者。