百度新闻后台逻辑流程分析 - malefactor''s 布拉格 - CSDNBlog
今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。
下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。
1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);
2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;
3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;
4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);
http://blog.csdn.net/malefactor/archive/2008/01/09/2032473.aspx
他们设置了哪些标签:
Baidu mw 百度 爬虫 搜索技术
谁收藏了这个网址:
时间:2008-1-10 13:10:31 | 相关网摘
使用标签:爬虫,时间:2008-1-11 10:24:05 | 相关网摘
net
时间:2008-1-11 10:32:01 | 相关网摘
使用标签:Baidu, 搜索技术,时间:2008-1-11 19:15:14 | 相关网摘
今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。
下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。
1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);
2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;
3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;
4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);
时间:2008-1-12 9:29:24 | 相关网摘
时间:2008-1-14 17:19:56 | 相关网摘
时间:2008-1-15 8:33:24 | 相关网摘
使用标签:mw,时间:2008-1-15 13:34:48 | 相关网摘
使用标签:百度, 搜索技术,时间:2008-1-15 14:51:08 | 相关网摘
今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。
下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。
1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);
2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;
3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;
4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);
使用标签:百度, 搜索技术,时间:2008-1-27 9:51:01 | 相关网摘
今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。
下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。
1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);
2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;
3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;
4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);
时间:2008-3-2 13:25:36 | 相关网摘
时间:2008-3-3 8:39:21 | 相关网摘