将其他元数据添加到搜索服务器的文件中
搜索服务器通过元标记索引 html 文档的所有元数据。对于其他文件类型(例如 Word 文档、PDF 等),元数据位于文件本身中。
假设我们有一个 CMS,其中包含数据库中每个文件的元数据,是否可以以任何方式添加此数据?
我尝试通过 httphandler 在 http 标头中添加元数据,但搜索服务器不会为它们建立索引。
Search Server is indexing all meta data for html documents through meta tags. For other file types such as Word documents, PDF's and so on the metadata is located in the file it self.
Let's say we have a CMS with meta data for each file located in a database, is it possible to add this data in any way?
I have tried adding metadata in the http headers through a httphandler, but Search Server doesn't index them.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
通过连接 http 模块并检查 useragent 字符串,我最终为爬虫程序提供了 html 页面而不是文件。 html 页面包含文件中的文本摘录以及元标记中的其他元数据。我使用 IFilters 从文件中提取内容。
I ended up servering the crawler a html page instead of the file, by hooking up a http module and the check the useragent string. The html page contained the text excerpt from the file and additional metadata in meta tags. I used IFilters to extract the content from the files.