一面数据：为数据迷雾开天眼，洞察消费市场秘密

一面数据：为数据迷雾开天眼，洞察消费市场秘密 | 初创公司

2018 年 2 月 12 日 动点科技 张林成

动点科技 | ID：technode

商场如战场，只有知己知彼，才能立于不败之地。对于竞争对手以及整个市场的洞察，往往决定了一家公司的生死成败，那些煮酒论英雄的商业成功者们也都深谙此道。

然而，知易行难，利用传统的问卷调查等方法洞察市场变化往往是一件非常低效且耗资巨大的事。“用传统方法每做一次市场调研都需要 30 万左右的预算，而一个大的集团每年可能需要做几十次类似的调研，总成本可能飙升到上千万了。而且在时间周期上往往也需要 3-6 个月才能出结果。”

另外，一面数据创始人任栋霓还补充认为调查问卷其实并不准，“调查问卷的结论可能会因调查样本的偏差而失实，比如，在贫民窟和富人区得到的问卷结论绝对是不同的。而且问题的设置也很难，很难让大家能够毫无保留地说出自己的心里话。”

显然，市场需要更加低成本且高效、准确的替代方案，而人工智能+大数据便是目前公认的解决此问题的最好方法。利用人工智能+大数据的方法做商业洞察，这显然是一个巨大的市场，而嗅到这个商机的企业也相当多，比如玻森数据、数据威、Clavis Insight 等，而一面数据便是其中一家起步比较早的入局者。

扎根消费领域，解决实际问题

创业从来都不是一件易事。首先要找到行业痛点，其次，也是最重要的，要找到能够解决这个问题的方法。

“行业内 90% 的公司都会选择基于自己的技术，然后去做通用的、跨行业的解决方案。而我们则选择了一条更垂直的道路——消费品领域，具体包括快消、鞋服、汽车等。”任栋霓表示他之所以如此选择，主要看重两点：

首先，需求大。“消费品领域是一个节奏非常快、竞争特别剧烈的领域。”消费品领域企业急需通过市场洞察了解行业变化趋势，并以此调整企业的生产规划。

其次，数据多。光有市场也不行，如果没有足够的数据拿来进行大数据分析，那一切也是白搭，正好，“消费品领域沉淀下来了非常丰富的数据。”

因此，任栋霓认为消费品领域才是大数据分析最容易产生价值的领域。于是，2014 年，曾就职于腾讯、华为诺亚方舟研究院（香港）、快播等企业的任栋霓绝对创业成立一面数据，据了解，这是一家旨在利用大数据与 AI 技术为消费品行业提供市场洞察服务的科技公司。

一面数据通过机器自动采集电商、社交、直播等多种类型的公开信息和数据（包括产品的描述、售价、销量、用户的评论等），与第一方数据（企业内部沉睡的用户行为、订单、物流、标签等）以及第三方的数据进行融合，分析处理得到实时的商业信号洞察，进一步实现数据驱动的智能决策。

首先，让企业知道市场上的同行以及整个行业都在发生什么事情。

“比如我们可以告诉巧克力企业，2017 年销量上升最快的巧克力口味其实是榴莲口味，上升最快的巧克力子品类是生巧克力，我们还能告诉企业到底是什么样的品牌或爆款商品主导了该品类的销量。”

其次，当客户知道了市场上发生了什么之后，一面数据还通过数据分析告诉企业应该怎么优化自己的业务，包括广告的投放、产品的迭代等。

比如，现在很多电商都是将最好卖的商品放在最显眼的地方，其余商品则按销量依次排序。然而，在任栋霓看来，这些完全依靠个人经验的摆放方案可能并不是效率最高的，为此，任栋霓找到了替代方案。“采集到所有相关数据后，我们就可以从历史数据中知道不同摆放之间的差异性，从而找到最佳的摆放方案。”而且，从这些数据中，任栋霓认为还可以找到“摆放位置与营销等怎么互动才可以增加营收”的关键信息。而这些数据都有助于企业根据市场变化及时优化自己的业务。

“类似的事情其实都是可以通过数据驱动的方法来做，以取代传统需要凭借经验或者拍脑袋做的事情。”任栋霓如此表示。

据了解，这也是传统市场调研试图解决的问题。但任栋霓表示一面数据的方法已经将市场洞察的费用降低到了传统方法的 10%-30% 左右，而且出结果的时间再也不用几个月了，“现在只需要花一周左右的时间清洗数据，之后每天都可以看见实时地数据了。”另外，任栋霓还表示传统消费者研究的方法往往只能得到 3-5 个维度的用户反馈数据，而利用自然语言处理和数据科学可以覆盖传统方法 80% 覆盖不到的领域

技术员面对海量数据，如同水手面对沧海

据任栋霓介绍，要想做出一个好的数据分析产品，关键就在于数据的收集和数据的处理，二者虽然在原理上并不难，然而一碰到庞大的数据量，那难度便直线上升了。

首先是数据收集，“爬虫本身没有什么难点，但难就难在你每天要去采集几十万个品牌，几亿个产品的数据，而且还要保证数据的准确性与完备性。”任栋霓表示他们每天就要采集 300G 到 500G 的数据，同时还要实时地将这些数据进行清洗，并跟历史数据做融合，巨大的运算量让数据的收集和清理混合都相当困难。

“而在清洗过程中，另一个困难就是如何让机器理解非结构化的文本数据。”任栋霓表示，在收集到数据之后，一面数据还需要利用机器自动地将话题、关键词等从非结构化数据中提取出来，并判断这句话是正面、负面还是中性等情感。然而，“自然语言理解在通用场景下准确率低，这是目前整个行业的难题。没有任何一个系统能够在通用环境下理解所有的对话，而这也是目前各种虚拟助手、问答机器人看起来很傻的原因。”

“不管是爬虫还是数据分析，在技术上其实都不难，但随着数据量越来越大，处理起来却会越来越复杂，比如就几行数据的时候，我们用 excel 就可以处理了，而数据几亿行时，那就需要依靠大数据平台、依靠专门的服务器了。”任栋霓如此表示。

然而，尽管如此，一面数据还是克服了这些难题，据任栋霓介绍，经过多年的语料积累和模型优化之后，一面数据已经实现了 93% 的语意识别准确率，召回率更是达到了 90%。并得到了全球前 10 消费品品牌中的 5 家的青睐。

一面数据是如何克服困难的？

对此，任栋霓重点回答了语意理解这一块。任栋霓表示，虽然要做通用型的语义理解非常难，但好在一面数据目前只专注于消费品这个相对小的细分领域，因此得以建立一个非常详细的、复杂的语义模型，来专门解决这个消费品行业内的语义理解问题。

另外，在情感识别方面最重要还是在于大量的语料标注，任栋霓表示，他们每年都会从天猫、京东、亚马逊等平台上采集超过 200 亿条的消费者评论数据，并依靠自己、品牌方以及第三方的力量对这些数据进行标注。“文本的标注是一件非常困难的事情，不像图片一眼就知道这是猫还是狗，而且文本的标注非常依赖于行业的知识图谱，你必须跟品牌在一起，才能知道如何标注。”任栋霓强调与品牌方以及第三方合作标注是至关重要的。值得一提的是，任栋霓也意识到了纯依靠人力来做数据的标注在效率上始终是不行的，因此，任栋霓介绍他们其实也在考虑利用强化学习来做自动化的数据标注，彻底解放人力。

另外，任栋霓表示他们为了更好地识别语义，还专门为不同的细分场景又单独训练特定的语义模型，“比如脱发、牙龈出血，每个不同的话题，我们都可以利用不同的模型来判断，这可以有效提高语义判断的准确率。”任栋霓如此表示。

用技术与客户信任铸就壁垒

关于竞争，任栋霓似乎并不担心，任栋霓认为一面数据有着从技术到市场占有率方面的壁垒，并不是别人想超就能超的。

首先在技术上，任栋霓认为对于一家科技公司而言，技术永远都是第一位的，“要能够为客户提供更多价值，只有这样，客户才会与你合作。”

而另一方面，任栋霓认为此前积累的庞大客户资源也是一面数据的护城河，“我们前几年已经跟大客户产生了密切的联系跟合作，未来我们的产品将由我们的客户来帮我们定义，他们会源源不断地将第一手的数据和需求给到我们。这将使得我们的能力与解决方案得到不断的提升。这对后来者而言，将是一个比较难以跨越的鸿沟。他们如果不能得到第一手的需求和数据，他们也将很难加工出比我们更好的产品。”任栋霓如此说。

一面数据目前有员工 40 余人，对于一家成立了 3 年的公司而言，这人数似乎并不多。对此，任栋霓表示，一面数据要做的是用机器代替人工，所以相对于传统市场调研企业等，人数会更佳精简。而在融资方面，16 年 9 月，一面数据已经宣布获得 1400 万元的 Pre-A 轮融资，投资方为真格基金和联想之星。

- - - - - - - - END - - - - - - - -