当我们听到一个名字,能够根据经验和对文字的理解能够判别出这个名字属于男性还是女性。可是,对于一个冰冷的机器,它能够根据名字判断性别吗?本实验分别从基于规则的方法和基于统计的方法设计一个程序,给定一个人名,判断性别,详细介绍请参考两种方法实现性别预测。
人名的构成具有一定的规律,基于规则的方法正是在对这些规律的研究的基础上发展起来的,其主要思想就是对人名的构成和上下文的信息进行总结归纳,找出其规律,将这些规律加以总结提取,从而建立规则集。然后根据规则,对提取出的人名进行性别预测。
利用朴素贝叶斯分类,从人名样本库中对人名的各部分用字加以统计,分别得到这些用字作人名对应性别出现的概率,在真实文本中通过对人名用字串计算其概率估值进行性别预测。