首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 数据库 第二书店 程序员

玩聚网和百度的差异性


对于百度新闻来说,它比较省事儿,就是它的信息源基本上都是可以直接呈现在页面上的,毕竟都是新闻嘛,质量有保障,所以,它完全可以把一堆新闻放在队列A 中,然后每抓进来一个新闻就进行文本相似性比对,从而进行同类项合并;有多少条以上相似新闻的,就可以放出去形成静态页面了。当然,我这是简化了的说法。

而玩聚网不能这么玩的,玩聚网的信息源(几百万博客源 几十个论坛网站 几十个新闻网站)是庞杂的,文章质量是没有保障的(而techmeme则用手工建立A-List来保证源头的权威),而且抓到的新文章也数量太多,没办法像上面说的那么做,只能通过更复杂的文本挖掘技术来进行大规模计算,有点强行计算的感觉。于是玩聚网拥有了独门绝技:中文的热点自动发现技术,能够不需任何人工干预就自动计算出过去24小时内发生的热点,并得到了一个一个的精彩故事,有 博 文 有 帖子 有 图 片 有视频,互相之间还有关联。



他们设置了哪些标签:


Baidu 玩聚

谁收藏了这个网址:


jackjoy收录

时间:2008-1-11 12:53:01 | 相关网摘

jouwei收录

时间:2008-1-11 13:49:55 | 相关网摘

zdg收录

使用标签:玩聚, Baidu,时间:2008-1-11 19:18:38 | 相关网摘

对于百度新闻来说,它比较省事儿,就是它的信息源基本上都是可以直接呈现在页面上的,毕竟都是新闻嘛,质量有保障,所以,它完全可以把一堆新闻放在队列A 中,然后每抓进来一个新闻就进行文本相似性比对,从而进行同类项合并;有多少条以上相似新闻的,就可以放出去形成静态页面了。当然,我这是简化了的说法。

而玩聚网不能这么玩的,玩聚网的信息源(几百万博客源 几十个论坛网站 几十个新闻网站)是庞杂的,文章质量是没有保障的(而techmeme则用手工建立A-List来保证源头的权威),而且抓到的新文章也数量太多,没办法像上面说的那么做,只能通过更复杂的文本挖掘技术来进行大规模计算,有点强行计算的感觉。于是玩聚网拥有了独门绝技:中文的热点自动发现技术,能够不需任何人工干预就自动计算出过去24小时内发生的热点,并得到了一个一个的精彩故事,有 博 文 有 帖子 有 图 片 有视频,互相之间还有关联。

guofangsky收录

时间:2008-1-14 14:01:21 | 相关网摘

lzmtw收录

时间:2008-1-14 20:45:01 | 相关网摘

cole2295收录

时间:2008-3-2 13:26:27 | 相关网摘


网站简介广告服务网站地图帮助联系方式诚聘英才English 问题报告
北京创新乐知广告有限公司 版权所有 京 ICP 证 070598 号
Copyright © 2000-2008, CSDN.NET, All Rights Reserved