首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 数据库 第二书店 程序员

Tag/ 


共11个网摘 [ 1 ]   |  

利用Minidx Extract-Text Com组件从doc,Xls,Pdf……等读取文本内容VC Demo - 全文检索博客

stickyman收录,使用标签:C++, Com组件, doc, Extract, Text, IFilter, indexing, service, Minidx, pdf, VC.net, xls, 搜索引擎,时间:2008-1-10 1:00:44 | 相关网摘我也收藏

利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中具体的说明了Vb.Net中调用Minidx Extract-Text Com组件对Word,Excel,Pdf等各种文件进行文本抽取的用法。结果很多人都发邮件过来询问C 中如何调用(一些邮件会被Gmail判断为垃圾邮件……强烈建议有问题直接在本文后面留言或在这里提问,这样也可以减轻一点我的工作量,不必挨个回复)。抽空作了一个VC的Demo,工程用VS2005创建的,Unicode版本。下面对Demo稍微做一些说明,一些基本原理直接参照《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》就可以了,这里不再重复。


利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容 - 全文检索博客

stickyman收录,使用标签:C++, Com组件, doc, Extract, Text, IFilter, indexing, service, Minidx, pdf, VB.net, xls, 搜索引擎,时间:2007-12-31 21:28:32 | 相关网摘我也收藏

不少人对Google,Baidu等搜索引擎可以“找到”你放在服务器上的Word的Doc,Excel的xls以及Pdf等各种文件而感到惊叹不已,也有不少人发来邮件询问我Minidx文件管理器中从各种格式的文件中读取文本内容是如何实现的。Linux平台实现起来比较复杂一些,不过对于Windows用户来说,其实利用微软Ifilter的Indexing service接口,可以比较容易的实现上面的功能。Minidx支持200多种文件格式,其实也是利用了Ifilter的接口。实现的基本原理,就是写一个Com组件,去查找系统中相应文件格式的API接口所在的Dll路径,然后调用抽取文本。



共11个网摘 [ 1 ] 

Tag/相关标签



    网站简介广告服务网站地图帮助联系方式诚聘英才English 问题报告
    北京百联美达美数码科技有限公司 版权所有 京 ICP 证 020026 号
    Copyright © 2000-2006, CSDN.NET, All Rights Reserved