NLP，吹爆与落地

会员服务 ·

NLP，吹爆与落地

2020 年 3 月 29 日 AINLP

作者 | zhpmatrix

整理 | NewBeeNLP

就在上个周日，我们和大家分享了：业务，工程和算法的互殴现场，最近刚关注的朋友们不要错过，极有可能是最真实的NLP算法工程师日常

今天，又是周日，聊聊一些更深刻的，关于NLP场景和技术上的问题。由于样本有限，以下思考仅代表个人「过拟合观点」，欢迎讨论交流

故事是这样的...

“卧槽，这届标注人员不行啊，打标一致性不足50%，搞个锤子！”，隔壁工位的老吴面部通红，愤愤吐槽着。听道，带着厚厚黑色眼镜框的小李凑上来，“有可能这个打标任务太难了？”。“说多了都是泪，上次我的一个标注任务，一个标注同学给所有样本都打了正标签！”，对面老王补充道。这时，慢慢走过来一个身型微胖的人，用力拍打着老吴的肩膀，“兄弟，我要基于你的数据做模型，求你千万不要挖坑埋我，我还木有妹子呢…”

“哎……“，老吴长长地叹了一口气，起身泡枸杞菊花茶去了。

上述场景应该对大多数工业界NLP团队来说，应该都挺熟悉的吧。虽说不知道何方大佬说的“NLP是人工智能皇冠上的明珠”，但是依然存在很多类似这样的问题，“为什么NLP领域难出独角兽？”等。当写下这段文字时，作为CV领域的Face++正在准备上市。

这篇博客想从场景和技术上聊一聊最近的一些观察和思考，尝试回答一下上面的问题。

"缺乏相对独立且足够大的场景"

这句话是吕正东说的，个人表示非常同意。比如，CV领域的安防就是一个符合上述两个条件的场景。杭州的海康，宇视，大华正是安防三巨头。当然，这样的场景需要添加一个外部条件，“中国特色”。国内产品的海外市场化，需要去“中国特色”。这是另外一个问题了。

那么，NLP领域有没有接近上述条件的场景？

机器翻译。可以用独立的方式提供服务，比如提供在线实时多语种的翻译功能。比如翻译专用的硬件产品。
对话系统。智能客服，对话机器人（用软的方式呈现能力），智能音箱类（用硬的方式呈现能力）。

但是，你真的需要一个机器翻译的硬件吗？你经常和小冰谈人生聊理想？遇到问题和一个客服机器人扯淡半天，还不停地问你，你要解决的是问题是A/B/C?

其实，我是不需要的。这里谈的是独立但不大的问题。

但从另外一个方面讲，搜索，广告和推荐满足非独立但场景足够大，是头部公司的现金牛业务。这里，NLP更多地担当整个技术链条中的一个环节。个人的一个观点，在这些场景下，工程要求远大于算法要求。

通过对比，就可以看到。为什么强调独立？和大业务耦合在一块儿，脱离了头部公司，玩儿个锤子。要玩儿，得先建立一个大盘子，这个能力不是所有团队都具有的。为什么强调场景足够大？不大，怎么融资、生存？

当满足上述两个条件时，可以直接做出面向C端的产品。不严格地讲，现在多数国内NLP创业公司打着做面向C端的产品，实际上是面向B端，且这种面向B端的能力无法规模化扩展。要知道，不是所有团队都有拿到大B的能力。实际上，B还是C本来也是一个大问题，是一种选择，并非哪种一定是最优的。只不过个人立场一直在C端而已。

但是，为什么会造成缺乏相对独立且足够大的场景的问题？这里想表达的一个观点是：虽然场景（这里基本等同了需求）与技术本来没有直接的关系，但是技术的突破会带来更有想象力的场景。

因此，这里的结论是：NLP的技术成熟度还不足以支撑满足上述条件的场景。

到底技术上欠了哪些债？

认知层面上的数据标注问题。

在文章开头描述的场景几乎是一个NLP团队每天都会遇到的，问一个算法工程师做什么最花时间？一般回答可能都是处理数据。在数据处理之前，需要数据标注，那么如何设计一个科学友好的标注指南可能就是一个非常重要的问题。由于大多数NLP问题是认知层面的问题，因此主观性就比较强。对于同样的输入，不同背景和经历的标注者的认知不同，因此得到的数据标签也就不同。而对于DL场景下的模型训练，Data Hungry和Data Unefficient几乎是一个无法避免的问题。

主观性导致的标注不一致，标注昂贵。老吴困晕在厕所。这几乎是工业界做NLP经常会遇到的第一个重要且难度较高的问题。对学术界刷公有数据集的读者来说，这个问题不存在的。

部分问题缺乏科学有效的评估指标。

BLEU的出现极大地推动了机器翻译的进展。但是对于一些任务，现行指标包括BLEU等仍旧不是对于相应任务的最佳指标，特别对于生成类任务。因此，多数时候，发现模型指标比较好的时候，预测结果较差，不一定是过拟合呀。

在现在绝大多数生成类任务的论文中，都会包括人类评估指标，目的是人肉评估生成文本的质量。对于黑心团队，去你大爷的。

模型，策略的进展问题。

假设有了（1）和（2）问题的解决，剩下的靠（3）就行了。多数学术界的工作目前都围绕在（3）来开展。虽然BERT流给NLP的发展带来了新一轮春天（个人围绕BERT做了很多工作），但是不得不承认，目前绝大多数模型，仍旧是黑盒模型，解释性不强。数据驱动的模型，多数情况下需要对特殊样本进行hotfix，但这种hotfix目前尚不能直接反馈在模型中。模型不够，规则来补。没写够一万条规则的人工智能工程师不是好工程师。

上述三者，均需要大量人力！所以，“有多少人力，就有多少智能”不是一句空话。回到场景下，这也是限制2B产品规模化扩展的一个方面。

技术不行，咋办？

用好的设计拟补算法的不足，是我司老板的一个观点，也是个人目前比较认同的观点。比如，在纠错场景下，由直接替换模型认为的错误文本改为推荐正确替换文本，将决定权交给人而非机器。但是，显然并非所有场景都可以用产品设计上的长处来拟补模型的短处。做不好模型，产品妹子和设计小哥都会来揍你的呀！他们就想问问，“怎么用好的设计拟补算法的不足？”，逃。

只见一产品妹子轻轻地走过来，“hi，小哥哥，小哥哥！你把这个需求做一下吧，根据用户手机壳颜色变换APP主题颜色！”

总结一下上面讨论的问题。没有理想的独立且大的场景，技术上似乎还不太行。不管怎样，在给定一个小场景下，似乎总还是可以用产品设计上的长处掩盖技术不行的短处。

对于国内目前的一些NLP领域创业公司，挂“羊头”这种事是必须的，资本应该不太会直接给“狗头”买账。不过，卖“狗肉”也是必须的，这是短期落地的一个可行方式，先活着，“羊肉”转正才有可能。

作为一个NLP技术从业人员，当然希望NLP无论在技术上还是在商业上都能取得成功。对于目前的NLP领域的创业公司，也保持有最大的敬意，他们是变革的引领者。”世之奇伟，瑰怪，非常之观，常在于险远。“如果这个世界到处都是CV的创业公司，那会多么无趣呀。

最后，真心祝愿“二十一世纪是生物的世纪”的落寞不会出现在“NLP是人工智能皇冠上的明珠”上。