用户画像之用户性别识别

2017 年 7 月 7 日 Python技术博文 邓俊松
 

性别是人类差异最大的特征之一,又是群体行为、偏好和需求等方面的基本影响因子之一;性别识别的重要性和价值性不言而喻,每个用户画像产品的构建,基本都会遇到性别标签的识别需求。

目前业内用户性别识别的方法很多,最大的特点是基于用户的行为进行用户识别,识别的准确性也参差不齐。作者认为影响识别准确性的关键原因在于这些用户行为蕴含的性别影响因子有多大,如果性别的区别对这些行为没有多大的影响力,那模型和算法的准确性将会遇到明显的瓶颈。同时,基于用户行为的性别识别涉及的数据面非常广、数据依赖链条很长、数据计算复杂度很高,识别效能反而成为了痛点!

在这里,作者分享一下贝聊的用户性别识别模型:基于用户信息(姓名)的用户性别识别方法!这虽然只是一个单因素识别模型,但是实际识别准确率却高达 90% 以上,为什么效能这么高?主要是因为性别对命名的影响至关重要!下面我们分步骤来讲解下贝聊的用户性别识别模型构建过程。


一. 样本库构建:  
    1. “姓名—性别”关系库构建


因为姓名 + 性别不能大概率锁定出唯一的用户,所以姓名和性别的数据敏感度并不高,通过百度等搜索引擎可以轻松获得,这里不详述。贝聊有自身的数据样本,并且进行了数据脱敏处理,初期过滤了一个十多万条“姓名—性别“的高精度种子样本库(已足够用!),并进行分词处理,结果库如下图(图中数据并非贝聊真实用户,仅是演示案例!)


    2. “词性—性别概率”关系库构建


贝聊的用户性别识别模型对不同词在姓名中的位置做了区分,因为同一个词用在名字的不同位置的性别含义有较大区别!例如:“海”字,在用作名字的最后一个词时,男性概率高达 95%;但作为名字的中间词时,男性概率仅有 51%(基本是一个中性词)。经过样本数据的计算,统计出每个词的性别概率,结果库如下图所示(演示数据!)


二. 用户性别识别模型构建  
    1. 模型构建


基于用户信息的用户性别识别模型构建非常简洁,因为是文本数据,也不需要用到相对复杂一些的逻辑回归等算法,模型构建的思路基本上是“词性—性别概率”关系库构建的逆过程。姓名的识别概率公式如下图:

计算出用户性别的识别概率后,通过设定阈值,即可得到用户的性别标签。整体而言,模型计算量非常小,可解释度很高,模型出错时问题容易追踪,预测效能非常好!


    2. 结果分析


计算用户性别识别概率后,通过设定不同的阈值,可以得到不同的预测准确性。相对来说,阈值越低(例如预测男性概率大于 50% 时,就算男性,否则女性),则可预测的用户面较大,阈值越高(例如预测男性概率大于 60% 时,才算男性,小于 40% 才算女性),则预测的准确性得到保障,但有部分用户没法识别。

上图,我们抽取了部分贝聊员工来做模型结果验证测试(阈值设定为 50%);从数据来看,模型准确性非常高,呈现出以下特点:

  • 预测准确度和精确度,都高于 90%;其中男性的预测准确度更高,女性的预测精确度更高;说明相对而言,女性用户一般不会采用男性化字眼的名字。

  • 预测结果仍有 5%-10% 左右的误差率;这应该是男性命名女性化,女性命名男性化影响所致,或者命名性别中性化。在单因素模型下,只能通过调整阈值来解决,否则就需要引入其他因子,构建多因素识别模型。

根据作者的经验,基于用户姓名的用户性别识别模型具有较好的适用性、可部署性和延展性,在研究单因素识别方法方面提供了一定的参考价值;也可以在此基础上,引入其他因素,提高模型的准确性。

注:部分公司可能没有用户的姓名,只有用户昵称,这是数据局限性的问题,当然也期待大家进行基于用户昵称的用户性别识别模型的准确性。


推荐阅读,点击即可阅读哦:

全球变暖温度分析图

[笔记]使用Python一步一步地来进行数据分析

客户流失分析

python 数组的del ,remove,pop区别

Python 环境搭建

Python的四个挑战者:Swift、 Go、 Julia、 R

Python基础章程

用 python 实现各种排序算法

干货 :读完这100篇论文,你就能成大数据高手!


登录查看更多
7

相关内容

用户画像是真实用户的虚拟代表,是 建立在一系列真实数据(Marketing data,Usability data)之上的目标用户模型。通过用户调研去了解用户,根据他们的目标、行为和观点的差 异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,就形成了一个人物原型 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
金融风控背后的技术综述
七月在线实验室
45+阅读 · 2019年2月28日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
如何利用动态信息数据构建用户画像?
NPDP产品经理资讯
6+阅读 · 2017年10月11日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
教你 5 步画出用户画像
职人社
8+阅读 · 2017年9月13日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
谈谈用户画像
caoz的梦呓
10+阅读 · 2017年8月17日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
15+阅读 · 2019年6月25日
Arxiv
3+阅读 · 2018年5月21日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关资讯
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
金融风控背后的技术综述
七月在线实验室
45+阅读 · 2019年2月28日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
如何利用动态信息数据构建用户画像?
NPDP产品经理资讯
6+阅读 · 2017年10月11日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
教你 5 步画出用户画像
职人社
8+阅读 · 2017年9月13日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
谈谈用户画像
caoz的梦呓
10+阅读 · 2017年8月17日
Top
微信扫码咨询专知VIP会员