hyzhx/
共46个网摘 [
1 2 ]
上一页 | |
访问hyzhx的个人空间
hyzhx收录,使用标签:数据挖掘,时间:2008-3-25 23:15:41 | 相关网摘,我也收藏
本文并非想通过分析HTML的语法然后从中解析出数据,这样做实现困难而且没有什么实际应用的意义,或者应该这样说:我们并不想自己去实现一个HTML语法的分析器。我们要做的仅仅是从HTML中提取我们所需的信息。不同于XML这种对格式要求非常严格的标志语言,HTML在推出时并没有对其格式进行严格的定义,比如HTML中标签并不一定要成对出现,但是又要求浏览器能尽量的正确显示其所要表达出来的内容。浏览器经过多年发展其适应能力越来越强,很多格式非常糟糕的HTML文件都能显示得令人满意。不过如果我们需要精确的获取HTML中包含的数据,这恐怕比显示一个HTML更令人头疼。现在终于找到治疗头疼的特效药了!
http://www-128.ibm.com/developerworks/cn/java/l-html-parser/
共46个网摘 [
1 2 ]
上一页 |