首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 数据库 第二书店 程序员

蛙蛙推荐:谈谈网络爬虫设计中的问题

zdg收录,使用标签:spider, 搜索技术,时间:2008-4-21 18:58:34 | 相关网摘我也收藏

一个爬虫要做的事主要有以下这些

1. 从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;
2. 获取每个页面的源码保存在磁盘或者数据库里;
3. 遍历抓下来的网页进行处理,比如提取正文,消重等;
4. 根据用途把处理后的文本进行索引、分类、聚类等操作。




相关网摘:



网站简介广告服务网站地图帮助联系方式诚聘英才English 问题报告
北京创新乐知广告有限公司 版权所有 京 ICP 证 070598 号
Copyright © 2000-2008, CSDN.NET, All Rights Reserved