2018年8月,第七届全国社会媒体处理大会(SMP 2018)在哈尔滨隆重举办。其中,SMP EUPT 2018用户画像评测得到了学术界和业界的广泛参与。本次用户画像技术评测聚焦于媒体内容创作者画像问题,进行作者身份(如人类作者、机器人作者、机器人译者、自动摘要工具)的自动识别。该评测由北京字节跳动科技有限公司(今日头条)提供媒体内容数据集,评测吸引了包括腾讯AILAB等知名团队共计243支队伍,经过两个多月的角逐,最后公司硕士研究生张礼明和禤镇宇同学带领团队荣获第一名的好成绩。比赛地址:https://www.biendata.com/competition/smpeupt2018
据悉,作者身份识别任务本质上是文本分类问题,但与一般的文本分类不同,该任务更多的要考虑文章的结构,语序,逻辑表达等信息。本次比赛,广外数据挖掘实验室团队最大的亮点在于考虑到词表达与字符表达的差异性,并充分结合其特征,融入到深度学习模型当中。从评测的结果来看,该方法优于单纯的词表达与字符表达,具体思路:https://github.com/Quincy1994/smp2018。用户画像(user profiling)是指对用户的个体特征、行为模式、兴趣偏好等不同维度的属性进行标签化与自动建模的过程,它是互联网时代实现精准化推荐和个性化服务的必经之路,在网络营运、管理和安全等领域具有重要意义。