本网讯 5月14日下午,bevictor伟德官网在南教学楼C307举行关于互联网文本分析的讲座,本次讲座有幸邀请华南理工大学软件学院的蔡毅博士主讲。到场观众有bevictor伟德官网老师、研究生和本科生。
主讲博士硕果累累
主持人首先介绍蔡毅博士的经历与研究成果。他在国际学术期刊和会议上发表论文40多篇,包括国际顶级学术会议如TKDE、CIKM、ER等,大部分被三大索引检索。获得2010年国家科学技术学术著作出版基金资助出版学术专著,由高等教育出版社和Springer出版社出版全英文学术专著2本。同时蔡博士曾获得多个学术奖项,另外,2014年在美国老员工数学建模竞赛暨交叉学科数学建模竞赛(MCM/ICM)中蔡毅老师指导的陈竹天、王齐轩和胡舒悦同学的参赛论文《Influence Analysis in Network》获得一等奖。
层次分明分析到位
蔡毅博士的讲座思路非常清晰,分为问题陈述、调查分析,解决问题,结论总结四个过程。他首先展示了网络上常见的文本信息的分类现象,新浪新闻、新浪微博的自动分类为某一领域,这些都是为了在信息大爆炸时代让读者更容易阅读想要知道的信息,又提出自动检测邮件中的垃圾邮件和社交软件评论信息的识别,如今有很多的文本分析方法能实现这些功能,常见的有VSM(向量空间模型)和概率模型。而不同的分析方法都有其利弊。蔡博士通过实例和实验数据比较了tf、tf-idf、icf算法的优越性和局限性。蔡博士通过刻苦地专研得出了新的文本分析方法,dc和bcd文本分析方法,这一方法综合了词组在某一类出现的次数和概率。在其他类出现的次数、所在类的范围大小等分析出词组的权重,大大提高了文本分归类析的正确性。这一方法得到了合作公司的大力认可,该公司认为是他们见过最好的文本分析方法。
蔡毅教授在讲解
问题互动 思想碰撞
最后的提问交流环节中,院老师向蔡博士提出了关于bcd互联网文本分析方法的疑问,第一是该方法基于单独的一个词的分析归类是比较准确,但在有衔接性的文章中又该怎么做到正确分类?第二是大多数测试数据是英文,少量是中文,这能否有效运用到中国互联网中?第三四该方法在短文本中的应用结果正确性高于长文本的原因是什么?蔡博士非常谦虚,对老师们提出到位的问题和建议致以了感谢,他表示,老师提出的问题也是他正在不断摸索,通过后期的研究想要知道的答案,如bcd方法在长短文本中的测试数据的区别是他一开始也没想到的,而是在实验过程中发现这一规律。在场员工也大胆提出问题,蔡博士亲切地为同学们解答疑惑。最后,老师与同学以热烈地掌声再次感谢蔡毅博士的讲座,并期待与蔡毅博士进一步学习交流。
老师提问