网页推送方法及系统
2020-01-08

网页推送方法及系统

一种网页推送方法,包括:收集用户访问过的网页;根据所述用户访问过的网页获得所述用户的兴趣所在的类别;推送所述用户的兴趣所在的类别的网页给所述用户。上述网页推送方法结合用户问过的网页确定用户的兴趣所在的类别,再将该类别的网页推送给用户,能够根据用户的情况进行信息的推送,所推送的信息往往也是用户所需要的,提高了推送信息的有效性,有利于信息量的扩充和信息的有效传播。此外,还提供一种网页推送系统。

具体实施方式

第一关键词抽取单元630用于抽取已分类网页的关键词。因为大型网站通常都有自己对网页的分类信息,这些分类信息通常都有固定的展现形式,利用这些分类信息能够高效的实现网页分类。例如,利用网页中的导航信息来帮助网页分类,通过针对固定的大型网站预先配置的导航信息位置,解析网页的DOM树,获得导航信息的内容作为关键词。另夕卜,关键词也可以通过对网页内容进行统计提取数量最多的词作为关键词。兴趣分类模块120的第一关键词抽取单元630可以与网页分类单元330的第一关键词抽取单元410为同一单元,也可以为分别设置的不同单元。

上述网页推送系统采用置乱的方式进行分类,可以显著降低计算量,具体分析如下:

图14为第一匹配单元的示意图;

步骤S520,对需要分类的网页的关键词的集合进行η次置乱操作,获得每次置乱操作排在预定位置的关键词的集合作为需要分类的网页的置乱集合。例如,需要分类的网页的关键词的集合为=Wi=IK1,Κ2,Κ3,...,KJ,进行第一次随机打乱次序的置乱操作后,排在第一位的预定位置的关键词为K3;进行第二次随机打乱次序的置乱操作后,排在第一位的预定位置的关键词为K5;进行第三次随机打乱次序的置乱操作后,排在第一位的预定位置的关键词为κ2。则已分类网页的置乱集合为Wix={K2,K3,KJ。

兴趣分类模块,根据所述用户访问过的网页获得所述用户的兴趣所在的类别;

采用集合的方式推送网页的步骤,通过截取高频的网页和用户,这种方式的推送的网页通常是一些热门的网页,作为上述网页推送方法的补充可以使得推送的网页更加全面。并且对于没有导航信息的网页,如果通过上述网页推送方法进行网页全文关键词的提取较为消耗计算量,可以用这种补充的步骤来推送没有导航信息的网页。

传统的相似度计算分类方法,需要每个网页关键词集合与每个分类关键词集合分别计算相似度(similarity),计算公式如图8所示,对于所有网页的时间复杂度为0(N*M*L),N为网页个数,M为分类个数,L为关键词的平均个数。相似度计算的复杂度极高,对于大规模的网页,在现实情况下通常无法实际进行处理。

第二网页集单元940用于去除第一网页集中访问量低于第二阈值的网页作为第二网页集。即第一网页集中如果有的网页的访问量低,说明这些网页受欢迎程度不高,可以去除这些低访问量的网页后作为第二网页集。

采用人工预先设定的一些网页和计算机自动分类的结合的方式进行分类,既能减少人工分类的工作量(因为无穷尽的互联网网页资源使得不可能通过人工将所有网页分类完),以人工分类的网页作为基础,又能保证分类的准确度。

第二网页集单元940用于去除第一网页集中访问量低于第二阈值的网页作为第二网页集。即第一网页集中如果有的网页的访问量低,说明这些网页受欢迎程度不高,可以去除这些低访问量的网页后作为第二网页集。

根据所述用户访问过的网页获得所述用户的兴趣所在的类别;

如图17所示,作为上述网页推送系统的补充,上述网页推送系统还包括集合推送模块,所述集合推送模块包括第一用户集单元910、第二用户集单元920、第一网页集单元930、第二网页集单元940及集合推送单元950。