首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 数据库 第二书店 程序员

taozhiyaoyao_0324/ 


共72个网摘 [ 1  2  3 ]  下一页  |  访问taozhiyaoyao_0324的个人空间

从HTML文件中抽取正文的简单方案

taozhiyaoyao_0324收录,使用标签:搜索技术, 萃取,时间:2008-1-27 9:51:28 | 相关网摘我也收藏

这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”,能够去除页眉、页脚和侧边栏的无关内容,非常实用。其方法简单有效而又出乎意料,看完后难免大呼原来还可以这样!行文简明易懂,虽然应用了人工神经网络这样的算法,但因为FANN良好的封装性,并不要求读者需要懂得ANN。全文示例以Python代码写成,可读性更佳,具有科普气息,值得一读。


免费的晚餐--google技术学习

taozhiyaoyao_0324收录,使用标签:google, 搜索技术,时间:2008-1-27 9:51:14 | 相关网摘我也收藏

本文只是简单的介绍Google的技术概貌,大家知道以后除了可作谈资外没有任何作用,我们真正要学习的骨血,是论文里如何解决高并发,高可靠性等的设计思路和细节.....


百度新闻后台逻辑流程分析

taozhiyaoyao_0324收录,使用标签:百度, 搜索技术,时间:2008-1-27 9:51:01 | 相关网摘我也收藏

今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细看,以为至少会用到文本聚类,但是分析结果显示好像没用到,只是使用了文本分类和文本相似性计算而已。

下面简单描述一下其可能的运行机制,纯属个人分析,不保证正确性。

1.后台若干爬虫不间断的爬取各个新闻网站的最新新闻,网页HTML TAG过滤,得到新闻正文(解析出标题,发表时间,来源等元信息);

2.所有爬虫解析到的新闻存入某个POOL内,比如内存里建立新闻队列,积攒到一定量或者每隔一定时间(按照百度说法是5分钟),开始逐一进行处理;

3.对于每个新闻N,首先进行文本分类,分到国内,国际,财经,互联网等若干类别内;

4.计算新闻N和现有每篇新闻(最近5天内的)的相似性,如果和比如已有K篇新闻相似性大于一定值(比如>0.95),判断为已有新闻,不做处理(界面上某条新闻的“相同的K条新闻"就是这么计算得到的);


Hot!Ajax - 自动为图片加投影效果

taozhiyaoyao_0324收录,使用标签:Javascript, 界面,时间:2008-1-27 9:50:43 | 相关网摘我也收藏

Reflection.js能够在你的页面的图片上添加投影效果。它的javascript很简洁不会弄乱你的代码。

它能够运行在所有流行的浏览器运行——Internet Explorer 5.5 , Mozilla Firefox 1.5 , Opera 9 和 Safari.在老版本的浏览器中,用户将不会看到效果。最重要的是他只有5kb。


网页上模拟键盘 - octverve的专栏 - CSDNBlog

taozhiyaoyao_0324收录,时间:2007-10-15 11:23:07 | 相关网摘我也收藏



网站简介广告服务网站地图帮助联系方式诚聘英才English 问题报告
北京创新乐知广告有限公司 版权所有 京 ICP 证 070598 号
Copyright © 2000-2008, CSDN.NET, All Rights Reserved