618大促将至,用AI挖掘差评,零代码实现亿级评论观点情感分析

2022 年 6 月 7 日 夕小瑶的卖萌屋

文 | 卖萌酱

马上就要到一年一度的618大促,卖萌酱在添加购物车时,选择困难症又犯了。

如今的电商评论区,大量刷单行为淹没了重要的产品评价,有的被淹没在了追评区,有的甚至已经不分好评/中评/差评区了,而是“一眼望去好评如潮”。

▲某净水器评论区

比如某净水器的评论区,看似只有200条差评,但在1.3w条追评、10w条好评中其实隐藏着数不清的差评,这些差评往往可信度极高。

对电商平台来说,通过分析评论区中用户对商品的情感倾向,从评论中挖掘产品优缺点,能够快速了解消费者的心声,以便对产品进行针对性的优化,提升产品体验,满足用户需求。

然而,由于热门商品评论量极大,人工审核从精力、成本还是效率上都无法满足需求,而且热门商品众多,显然是无法通过人工的方式来挖掘数以亿计的评论。

但AI模型一秒看100条甚至1000条评论是不成问题的(只要有好显卡部署服务)。为了验证AI模型做这个事情的可行性,卖萌酱准备亲自打造一个“差评挖掘AI”!

说!干!就!干!

工欲善其事必先利其器

首先卖萌酱将这个“找差评”的问题抽象成NLP中的“情感极性分类”问题,进而我们的任务就变成了四步:

富集评论情感极性分类数据集 —> 训练调优情感分类模型 —> 部署模型得到API —> 调用API解决问题

富集评论情感极性数据还好说,中文社区有不少公开数据集。但AI模型的训练和部署就麻烦多了。如果基于传统的深度学习框架从头折腾,无论代码量还是调试调优成本都不低

这对于只想快速实现情感挖掘功能的我来说无疑效率太低了。

这时大佬给卖萌酱推荐了一个高效低成本的平台——EasyDL,不到一天就能完成从数据集到部署API。

AI开发可以如此简单?

半信半疑的卖萌酱开始了试用之路…

打开EasyDL官网后,首先要选择做什么任务:

▲EasyDL任务支持

好家伙,我开始以为是个high-level深度学习框架,看到上图才意识到原来这是个更上层的AI应用开发平台,涵盖了图像、文本、语音、OCR、视频、结构化数据等各种任务场景和数据场景。

这里我们关注的是里面的EasyDL-文本任务。针对本次的任务目标,我们可以选择文本分类-单标签,但卖萌酱发现还有更加具体的“情感倾向分析”任务,于是直接选择了后者(上图红框部分)。

完成任务选择后,平台给到了开发任务的流程提示:

这个流程对于一个久经沙场的算法工程师来说已经非常熟悉了,于是卖萌酱跳过指导,开始了开发。

零代码也能完成AI开发?

随着开发的进行,卖萌酱慢慢发现不对劲了。

▲数据载入与处理完成

数据载入处理完了,我没写代码?

▲模型训练完成

模型训练&效果调优完了,我依然没写代码?

▲部署完成,拿到API

部署完成,服务的远端API我也拿到了,我最终一行代码都没写??

甚至,就连调用API的client端脚本,平台都给出来了,也不用自己写。

卖萌酱进而将某商品评论区爬下来的数万条评论存到文件comments.txt中,调用我们已经部署完成的API来挖掘负面评论:

负面评论被源源不断的挖掘出来了!

最后发现某净水器商品的差评区尽管只有200条差评,但通过我们的脚本过全部的数万条评论,却挖掘出来了3300多条差评。

此时卖萌酱陷入了深深的思考——

“做了这么多年的AI算法工程师,到头来,却发现AI的训练和部署已经不需要写代码了?”

初次跑通以上全流程,本着把3天开发时间降低到1天的心态试用,结果没想到3小时就解决了,其中还包括了1个多小时的模型训练与自动调优的时间。

想体验零代码实现NLP开发全流程的小伙伴们,可以扫码报名进群,获取EasyDL官方近期组织的直播链接,进群还有更多福利哦~


入群福利

  1. 获取6月9日直播课链接
  2. 参与「新闻资讯分类」「电商评论观点分析」实战营,15分钟轻松训练高精度的NLP模型,更有精美礼品与证书免费发放

好效果来源大揭秘:文心大模型

卖萌酱还有一点不解,从最终的负面评论挖掘效果来看,是非常精准、惊艳的。但是卖萌酱却只丢了1万条标注样本给平台,是什么撑起来了模型效果呢?

卖萌酱在配置模型训练环节时,注意到了EasyDL平台有这么一个选项:

如果训练阶段是选择了高精度,那就会调用文心大模型作为backbone并完成参数热启。

关注NLP预训练进展的小伙伴对文心大模型“ERNIE”一定不陌生了。

2019年12月,文心ERNIE 2.0登顶GLUE:

2021年7月,百亿参数规模的文心ERNIE 3.0霸榜SuperGLUE:

在中文任务上,文心ERNIE 3.0更是实现了全面屠榜:

而在EasyDL文本任务中内置了文心大模型ERNIE 3.0系列模型,除了通用大模型外,还包括了抽取、匹配等专属任务模型和金融、法律、医疗等领域模型。

正是文心大模型的赋能,EasyDL文本才得以在实现极简易用性的同时,做到超高精度的模型产出。

毫不夸张的说,这个写了0行代码、花了3个小时部署得到的评论极性判别的API,可能比许多专业的算法工程师折腾数天搞出来的API都好用。

至此,作为一个AI算法工程师,卖萌酱深深的感慨:

我们开发了AI,但AI开发可能不再需要我们了。

福利时间到:

6月9日晚20:00,百度NLP产品经理将带来精彩直播讲解,剖析NLP产业应用开发不能不知的三个坑及相应解决方案,解读EasyDL如何实现NLP产业应用落地,并手把手带您进行项目实战。欢迎大家扫码进群,获取课程链接!

登录查看更多
1

相关内容

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
15+阅读 · 2021年12月25日
专知会员服务
51+阅读 · 2020年11月20日
专知会员服务
46+阅读 · 2020年8月20日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
61+阅读 · 2020年7月30日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
可解释推荐:综述与新视角
专知会员服务
112+阅读 · 2019年10月13日
自然语言处理NLP的坑到底有多大?
专知
46+阅读 · 2018年11月12日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2022年7月29日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
15+阅读 · 2021年12月25日
专知会员服务
51+阅读 · 2020年11月20日
专知会员服务
46+阅读 · 2020年8月20日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
61+阅读 · 2020年7月30日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
可解释推荐:综述与新视角
专知会员服务
112+阅读 · 2019年10月13日
相关资讯
自然语言处理NLP的坑到底有多大?
专知
46+阅读 · 2018年11月12日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员