将 GSA 配置为仅抓取文件的元数据,而不抓取内容

发布于 2025-01-08 06:09:39 字数 285 浏览 1 评论 0原文

在 GSA(Google Search Appliance)中,我正在研究如何让它只抓取元数据(名称、类型、大小、上次修改时间等),而不抓取文件的内容。虽然我意识到这会影响结果的有用性,但我有我的要求。

归根结底,文件的元数据是公开的,但文件的内容受到限制。虽然这看起来像是一个经过安全考虑的问题,但实际上它的问题有点多,因为我不希望 GSA 在索引中存储有关文件内容的任何信息。假设 GSA 服务器保存内容不受信任。这仅适用于整个数据集的一小部分。

关于如何配置 GSA 和连接器以仅抓取元数据而不抓取内容,有什么想法吗?

In GSA (Google Search Appliance), I am looking into how I can have it crawl only the metadata (name, type, size, last modified, etc) and not the content of the file. While I realize this can affect the usefulness of the results, I have my requirements.

It comes down to the metadata of the file is public, but the content of the file is restricted. While this seems like a security-trimmed question, it's slightly more because I don't want GSA to store ANY information on the content of the file in the index. Assume the GSA server is untrusted to hold the content. This is only for a small subset of the whole dataset.

Any ideas on how I could configure GSA and connectors to only crawl the metadata and not the content?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

梦过后 2025-01-15 06:09:39

不确定您是否可以通过抓取文件(在文件共享或网站上)来执行此操作
不过,您可以通过使用包含元数据的列抓取数据库,或者开发一个仅创建提供元数据的提要的连接器来实​​现此目的。

如果您将元数据存储在某处但不是一起存储在文件中,则这将起作用。

另一种选择是自定义前端,使其不提供文档链接,而仅配置要在结果中显示的元数据。 (在前端使用1自动显示元数据字段)
您还需要在搜索查询中添加“getfields”参数以包含相关元数据字段。

这适用于数据库场景。尚未使用文件元数据对其进行测试,但应该可以工作。

邓肯·德克勒克
康纳

Not sure if you can do this from crawling files(on fileshare or on website)
You can however do this by crawling a DB with the columns containing the meta data or by developing a connector that only creates a feed that provides the meta data.

This will work if you have the metadata stored somewhere, but not together in the file.

Another option is to customise your front end to not provide a link to the document and just configure the meta data to be displayed in the result. (Use 1 in the FrontEnd to automatically display the meta data fields)
You will also need to add the 'getfields' parameter in the search query to include the relevant meta data fields.

This works for a DB scenario. Have not tested it with file meta data, but should work.

Duncan de Klerk
Conor

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文