首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 数据库 第二书店 程序员

百度新闻后台逻辑流程分析 - malefactor''s 布拉格 - CSDNBlog


今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。

下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。

1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);

2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;

3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;

4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);



他们设置了哪些标签:


Baidu mw 百度 爬虫 搜索技术

谁收藏了这个网址:


gavingeng收录

时间:2008-1-10 13:10:31 | 相关网摘

xxpyeippx收录

使用标签:爬虫,时间:2008-1-11 10:24:05 | 相关网摘

net

hantao_wu收录

时间:2008-1-11 10:32:01 | 相关网摘

zdg收录

使用标签:Baidu, 搜索技术,时间:2008-1-11 19:15:14 | 相关网摘

今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。

下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。

1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);

2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;

3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;

4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);

fantao963收录

时间:2008-1-12 9:29:24 | 相关网摘

kaixuan489577823收录

时间:2008-1-14 17:19:56 | 相关网摘

scz26收录

时间:2008-1-15 8:33:24 | 相关网摘

kahn178收录

使用标签:mw,时间:2008-1-15 13:34:48 | 相关网摘

hcat1999收录

使用标签:百度, 搜索技术,时间:2008-1-15 14:51:08 | 相关网摘

今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。

下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。

1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);

2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;

3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;

4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);

taozhiyaoyao_0324收录

使用标签:百度, 搜索技术,时间:2008-1-27 9:51:01 | 相关网摘

今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。

下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。

1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);

2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;

3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;

4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);

cole2295收录

时间:2008-3-2 13:25:36 | 相关网摘

lwl_ls收录

时间:2008-3-3 8:39:21 | 相关网摘


网站简介广告服务网站地图帮助联系方式诚聘英才English 问题报告
北京创新乐知广告有限公司 版权所有 京 ICP 证 070598 号
Copyright © 2000-2008, CSDN.NET, All Rights Reserved