首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 数据库 第二书店 程序员

玩聚网和百度新闻的技术差异性

zdg收录,使用标签:玩聚, Baidu,时间:2008-1-11 19:18:38 | 相关网摘我也收藏

对于百度新闻来说,它比较省事儿,就是它的信息源基本上都是可以直接呈现在页面上的,毕竟都是新闻嘛,质量有保障,所以,它完全可以把一堆新闻放在队列A 中,然后每抓进来一个新闻就进行文本相似性比对,从而进行同类项合并;有多少条以上相似新闻的,就可以放出去形成静态页面了。当然,我这是简化了的说法。

而玩聚网不能这么玩的,玩聚网的信息源(几百万博客源 几十个论坛网站 几十个新闻网站)是庞杂的,文章质量是没有保障的(而techmeme则用手工建立A-List来保证源头的权威),而且抓到的新文章也数量太多,没办法像上面说的那么做,只能通过更复杂的文本挖掘技术来进行大规模计算,有点强行计算的感觉。于是玩聚网拥有了独门绝技:中文的热点自动发现技术,能够不需任何人工干预就自动计算出过去24小时内发生的热点,并得到了一个一个的精彩故事,有 博 文 有 帖子 有 图 片 有视频,互相之间还有关联。




相关网摘:



网站简介广告服务网站地图帮助联系方式诚聘英才English 问题报告
北京创新乐知广告有限公司 版权所有 京 ICP 证 070598 号
Copyright © 2000-2008, CSDN.NET, All Rights Reserved