taozhiyaoyao_0324/
共72个网摘 [
1 2 3 ]
下一页 |
访问taozhiyaoyao_0324的个人空间
taozhiyaoyao_0324收录,使用标签:百度, 搜索技术,时间:2008-1-27 9:51:01 | 相关网摘,我也收藏
今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。
下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。
1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);
2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;
3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;
4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);
http://blog.csdn.net/malefactor/archive/2008/01/09/2032473.aspx