zdg/
共32个网摘 [
1 2 ]
下一页 |
访问zdg的个人空间
zdg收录,使用标签:玩聚, Baidu,时间:2008-1-11 19:18:38 | 相关网摘,我也收藏
对于百度新闻来说,它比较省事儿,就是它的信息源基本上都是可以直接呈现在页面上的,毕竟都是新闻嘛,质量有保障,所以,它完全可以把一堆新闻放在队列A 中,然后每抓进来一个新闻就进行文本相似性比对,从而进行同类项合并;有多少条以上相似新闻的,就可以放出去形成静态页面了。当然,我这是简化了的说法。
而玩聚网不能这么玩的,玩聚网的信息源(几百万博客源 几十个论坛网站 几十个新闻网站)是庞杂的,文章质量是没有保障的(而techmeme则用手工建立A-List来保证源头的权威),而且抓到的新文章也数量太多,没办法像上面说的那么做,只能通过更复杂的文本挖掘技术来进行大规模计算,有点强行计算的感觉。于是玩聚网拥有了独门绝技:中文的热点自动发现技术,能够不需任何人工干预就自动计算出过去24小时内发生的热点,并得到了一个一个的精彩故事,有 博 文 有 帖子 有 图 片 有视频,互相之间还有关联。
http://blog.csdn.net/zhengyun_ustc/archive/2008/01/10/2032877.aspx
zdg收录,使用标签:Baidu, 搜索技术,时间:2008-1-11 19:15:14 | 相关网摘,我也收藏
今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。
下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。
1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);
2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;
3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;
4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);
http://blog.csdn.net/malefactor/archive/2008/01/09/2032473.aspx
zdg收录,使用标签:Baidu, 管理,时间:2008-1-10 18:56:53 | 相关网摘,我也收藏
2006年以来,他开始对外界表达一种忧虑:中国在网民数量和GDP都已超过英国,但中国的搜索广告市场不过4亿美元规模,大概是英国的1/5。“媒体上报道中文的搜索量很可能已经超过了美国。这么大一个搜索量的情况下,整个付费搜索市场这么小,实际上意味着大量的搜索量被浪费掉了”,李说,中国的互联网市场不够成熟,让他颇有沮丧感。 这的确像一个两难困境。百度诚然需要专注,但略显无奈的是,它的利润比那些成立不久的网游公司还少。2007年第三季度,百度的净利润为1.817亿元人民币,而2006年才进入市场的巨人网络,靠《征途》一款游戏就在这个季度获得了2.9亿元的净利润。而且,似乎专注开发搜索相关产品,也很难给百度带来另一根利润支柱:Google将广告嵌入联盟网站的AdSense技术为其带来约40%的收入,但李彦宏觉得,如果流量质量更好的Baidu.com还有大量搜索行为没有被匹配好广告,现在去“大力开发网站联盟的流量价值,是不是一个正确的选择,都是一个问题”。
百度早年最独特的人才培养机制是让实习生像正常员工一样工作,每个人都要给自己的职位培养接班人。
几周下来,张以纬开始着眼于两个方面:技术部门员工的考核体系和激励机制。在百度,员工和团队的审评是按效率,如果产品做得快且质量稳定就能获得较高评级,这样的直接后果,是员工只能用加班来提高效率,从而忽略了产品架构的优化。“我希望他们有时间多思考,而不是陷于加班的巨大压力之中。”张说。 在此考虑下,张以纬首先在技术部的每个分部门都建立了技术委员会,由工程师担当委员,负责审评员工产品以及评定员工的技术职称。在审评标准中,增加了两个重要方面:一是技术价值,即所开发产品的质量和架构,其对公司的价值及未来价值;其二是人力资源价值。即在开发此项产品中工程师有没有提高。此项改革实施之后,首先能使工程师在开发产品时更注重其内在结构,也能使技术委员会的工程师开阔视野,获得成长。
同时,张还试图建立更科学的绩效评估体系。此前,百度员工项目进展和技术考核都由“经理”评定,而张建议让技术委员会接手员工的技术考核。另外,在上级员工的绩效评定中,也让他管理的下级员工参与打分。 最重要的是,在此基础上,张以纬可以着手下一个棘手的项目:薪酬体系调整。据说李彦宏有调整薪酬体系的想法久矣,但这牵扯的因素实在太多。首先,技术委员会对员工的考核保证了薪酬体系调整的客观性。张随后确定调薪原则,比如根据每个人的潜力而不是现有能力给员工股票,这种潜力的评价,一方面基于技术委员会的考核,另一方面在于和该员工谈的过程中张以纬对其的判断。
http://news.csdn.net/n/20080110/112607.html
zdg收录,使用标签:SEO, Baidu,时间:2007-10-8 18:14:41 | 相关网摘,我也收藏
大家都知道,百度在中文搜索引擎市场占据着绝对老大的地位。一般来说,中文网站的流量60%以上来自百度。这不得不让我们重视对百度的优化。以下是我根据自已经历总结出来的一些百度优化的技巧!
百度与众不同之处:
Google的sandbax效应,Yahoo也有类似的现象。但是百度没有新站审核机制,新站如果优化的好可以得到不错的排名。
百度对一些内部因素特别敏感,比如标题、页面靠前的代码与加粗字的索引。
被百度自己称道的中文分词技术的真实情况我们并不知道,不过关键字符合程度,直接导致排名的不同,这和google区别最大的地方,Google在排列结果时,可以容忍相近词排在前列(与网站权重有关),但是百度这种情况比较少,除非没有连词被分析到,它才会排列自己认为的分词组合。
百度虽然反向链接查询形同虚设,但是它索引反向链接的速度是非常快的,这也就解释了为什么百度排名为什么更新那么快的原因,但是百度审核外部链接的机制可能不健全,(虽然是搜索引擎的通病,但是google还是引用了NoFollow标签来抵御spam)一些垃圾或是无效的链接也可能被肯定,采取人工干预或许是无奈之举。
百度优化步骤:
标题上下工夫,最好能包含自己认为有价值的关键字,但是需要注意的是标题长度维持在20个字,而且关键字不能重复。
页面重要位置加入少量的补充说明,例如首页做上方就是一个绝佳的位置。
我们多次实验认为更新速度绝对对排名有效果,文章的质量与原创是最重要的因素。
百度认为更新频率也是衡量一个网站质量的标准。让百度空手而归的结果不仅仅是索引时间加长,对排名也有影响。
合理的链接,我们反对优化百度时候做群链,因为这个被百度删除的站长不应该诉苦。
百度排名非常不稳定,而且过度优化会被惩罚。度的把握成了百度优化最大的难点。
综合百度与Google的不同,百度比较注重网站内容价值,Google则注重网站的被认同度,优秀的网站不是一朝一夕能建立起来,有各个方面的因素决定,排名也是如此,我们介绍的百度优化只是提供一些参考意见。请参考自己网站适当调整。如果有什么好的意见可以联系我们,进行深度分析。
http://blog.csdn.net/wbuild/archive/2007/10/08/1815099.aspx
zdg收录,使用标签:SEO, BBS, Baidu,时间:2007-9-17 18:29:47 | 相关网摘,我也收藏
Kyw的百度BBS收录协议阅读笔记如下:
1. 百度BBS收录协议是一个XML文件,作用类似GOOGLE的SITEMAP.XML文件。
2. XML文件的大小控制在10M内。
3. 百度BBS收录只是对百度蜘蛛原有收录方式的一种协助和有益补充,而不是取代。
4. 采用了百度BBS收录协议后,就相当于论坛中的帖子被百度订阅。
5. 支持的编码格式有GB18030、UTF-8、GB2312、BIG5等,推荐使用GB2312和UTF-8。
6. 注意XML文件头部的encoding值必须与XML文件的实际编码类型一致。
7. XML标签内容中的一些特殊字符需要转换为XML定义的转义字符。
8. 请保持每个XML文件处于按更新周期持续自动更新的状态。
9. 一个站点不可以提交多个不同的XML,否则可能会被识别为利用《论坛开放协议》作弊。
http://www.dunsh.org/2007/08/21/baidu-bbs-xieyi/
zdg收录,使用标签:创业, Baidu,时间:2006-12-6 1:54:27 | 相关网摘,我也收藏
这是一个罕见的创业群落。这些百度的早期员工在因不同原因离开百度之后,一直保持着长期的友谊,并由于接连创业而达成了更为紧密的 联合。正因 此,在今年初段晖的婚礼上,谌振宇提议各自创业的朋友们有必要定期聚会一次,迅速得到了所有人的认同。而这个“逐鹿会”的确尽其所能:参与者不仅共享商业判断(如酷讯开通二手车版块就得益于聚会上的讨论)、经验(新近离职的前首席架构师周利民于11月首次参加聚会,就应邀向众人提供很多建议),还疏通人脉(投资酷讯后,联创策源投资基金继而找到了抓虾),寻求合作可能(如抓虾上可以订阅酷讯的资讯和一见的视频)。
http://blog.kooxoo.com/index.php/archives/86.html
zdg收录,使用标签:Baidu,时间:2005-11-10 22:12:49 | 相关网摘,我也收藏
百度贴吧:平均每天新建8000余个贴吧;平均每天新发2000000余个新帖;平均每天有80位吧主当选,走上他们的工作岗位;平均每天有6000余位新朋友来到百度贴吧安家;ID豆沙包平均每天发贴近400个,当之无愧为一代水王;被点击最多的ID:du熊;2005年第一热门贴吧:李宇春吧,拥有500000余个主题,10000000余个帖子;拥有最多回复的帖子:截止目前回复数已超过120000
http://www.baidu.com/search/postlzn.html
zdg收录,使用标签:VC, Baidu,时间:2005-9-9 1:31:17 | 相关网摘,我也收藏
DFJ在美国政府中的关系不简单.该公司的前身 – Draper投资公司 – 的创办者William H. Draper将军,曾在二战后的美国政府中担任过各种高级职务,官至美国陆军次长. 并且是主持战后日本和德国经济复兴的重要人物(马歇尔计划). 此人在美国风险投资界也颇为有名,是西海岸最初的一批风险投资专家. 该机构在此次百度上市事件中必定扮演着举足轻重的角色。像高盛(Goldman Sachs)和瑞士信贷第一波士顿(CSFB)这样的华尔街顶尖大鳄会如此卖38岁的技术青年李彦宏的帐,我想除了钱的原因外,DFJ的关系也起到了一定的作用
http://alexhuang.org/?p=35
共32个网摘 [
1 2 ]
下一页