zdg收录,使用标签:spider, 搜索技术,时间:2008-4-21 18:58:34 | 相关网摘,我也收藏
一个爬虫要做的事主要有以下这些 1. 从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss; 2. 获取每个页面的源码保存在磁盘或者数据库里; 3. 遍历抓下来的网页进行处理,比如提取正文,消重等; 4. 根据用途把处理后的文本进行索引、分类、聚类等操作。
http://www.cnblogs.com/onlytiancai/archive/2008/04/19/1161425.html
zdg收录,使用标签:google, 搜索技术 | 相关网摘,我也收藏,时间:2007-1-31 20:43:26
http://blog.csdn.net/calvinxiu/archive/2007/01/31/1498597.aspx
taozhiyaoyao_0324收录,使用标签:google, 搜索技术 | 相关网摘,我也收藏,时间:2008-1-27 9:51:14
gotowqj收录,使用标签:google, 搜索技术 | 相关网摘,我也收藏,时间:2008-8-25 0:44:39
xinwusi186收录,使用标签:搜索技术 | 相关网摘,我也收藏,时间:2008-1-15 10:31:22
http://book.csdn.net/bookfiles/312/index.html
zdg收录,使用标签:搜索技术, 萃取 | 相关网摘,我也收藏,时间:2007-8-14 17:37:19
http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
taozhiyaoyao_0324收录,使用标签:搜索技术, 萃取 | 相关网摘,我也收藏,时间:2008-1-27 9:51:28
zdg收录,使用标签:搜索技术 | 相关网摘,我也收藏,时间:2007-2-26 18:25:06
http://community.csdn.net/Expert/topicview.asp?id=5305770
zdg收录,使用标签:Baidu, 搜索技术 | 相关网摘,我也收藏,时间:2008-1-11 19:15:14
http://blog.csdn.net/malefactor/archive/2008/01/09/2032473.aspx
hcat1999收录,使用标签:百度, 搜索技术 | 相关网摘,我也收藏,时间:2008-1-15 14:51:08
taozhiyaoyao_0324收录,使用标签:百度, 搜索技术 | 相关网摘,我也收藏,时间:2008-1-27 9:51:01