检查通过程序的 C 管道——边界情况

发布于 2024-07-22 04:16:06 字数 503 浏览 8 评论 0原文

我从套接字 A 接收数据并将其即时写入套接字 B（就像代理服务器一样）。我想检查并可能修改通过的数据。我的问题是如何处理边界情况，即我正在搜索的正则表达式在两个连续的套接字 A 读取和套接字 B 写入迭代之间匹配。

char buffer[4096]
int socket_A, socket_B

/* Setting up the connection goes here */

for(;;) {

    recv(socket_A, buffer, 4096, 0);

    /* Inspect, and possibly modify buffer */

    send(socket_B, buffer, 4096, 0);

    /* Oops, the matches I was looking for were at the end of buffer,
     * and will be at the beginning of buffer next iteration :( */

}

原文

I'm receiving from socket A and writing that to socket B on the fly (like a proxy server might). I would like to inspect and possibly modify data passing through. My question is how to handle border cases, ie where the regular expression I'm searching for would match between two successive socket A read and socket B write iterations.

char buffer[4096]
int socket_A, socket_B

/* Setting up the connection goes here */

for(;;) {

    recv(socket_A, buffer, 4096, 0);

    /* Inspect, and possibly modify buffer */

    send(socket_B, buffer, 4096, 0);

    /* Oops, the matches I was looking for were at the end of buffer,
     * and will be at the beginning of buffer next iteration :( */

}

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情归归情 2024-07-29 04:16:06

我的建议：有两个缓冲区，并在它们之间轮换：

接收缓冲区 1
接收缓冲区 2
进程。
发送缓冲区 1
接收缓冲区 1
处理，但缓冲区 2 在缓冲区 1 之前。
发送缓冲区 2
转到 2。

或者类似的事情？

回复收藏 0 原文

天邊彩虹 2024-07-29 04:16:06

假设您知道可能的正则表达式匹配的最大长度 M（或者可以使用任意值 - 或者只使用整个缓冲区），您可以通过不传递完整缓冲区但保留 M-1 字节来处理它。在下一次迭代中，将新接收到的数据放在 M-1 字节的末尾并应用正则表达式。

如果您知道传输数据的格式（例如http），您应该能够解析内容以了解何时到达通信末尾，并且应该发送出您可能已缓存的尾部字节。如果您不知道格式，那么您需要在接收中实现超时，这样您就不会在通信结束时等待太久。太长的是你必须自己决定的事情，

回复收藏 0 原文

南城旧梦 2024-07-29 04:16:06

您需要了解和/或说出一些有关您的正则表达式的信息。

根据正则表达式，您可能需要比现在缓冲更多的缓冲。

最坏的情况可能类似于正则表达式，它表示“找到所有内容，从头开始直到第一次出现“狗”一词，然后用其他内容替换它”：如果您有这样的正则表达式，那么您需要缓冲（不转发）从开始到第一次出现单词“dog”的所有内容：这可能永远不会发生，即可能需要无限量的缓冲。

回复收藏 0 原文

梦屿孤独相伴 2024-07-29 04:16:06

从这个意义上讲，您正在谈论的（以及 TCP 的所有含义）套接字都是流。从你的问题可以看出，你的数据有一定的结构。因此，您必须执行类似于以下操作的操作：

缓冲（保留）传入数据，直到达到边界。边界可能是行尾、记录尾或您知道正则表达式将匹配的任何其他方式。
当“记录”准备好时，对其进行处理并将结果放入输出缓冲区中。
写入输出缓冲区中累积的任何内容。

这可以处理大多数情况。如果您遇到真正没有“记录”的罕见情况之一，那么您必须构建某种状态机（DFA）。我的意思是你必须能够积累数据，直到 a) 它不可能与你的正则表达式匹配，或者 b) 它是一个完整的匹配。

编辑：
如果您匹配固定字符串而不是真正的正则表达式，那么您应该能够使用 Boyer-Moore 算法，该算法实际上可以在亚线性时间内运行（通过跳过字符）。如果你做得正确，当你移动输入时，你可以将之前看到的数据扔到输出缓冲区，从而显着减少延迟并提高吞吐量。

回复收藏 0 原文

笨笨の傻瓜 2024-07-29 04:16:06

基本上，您的代码的问题在于，recv/send 循环在比您的修改更低的网络层上运行。如何解决这个问题取决于您所做的修改，但它可能涉及缓冲数据，直到可以进行所有本地修改。

编辑：我不知道有任何正则表达式库可以过滤这样的流。这有多困难将取决于您的正则表达式及其过滤的协议。

回复收藏 0 原文

眼眸里的那抹悲凉 2024-07-29 04:16:06

一种替代方法是对非阻塞套接字使用类似 poll(2) 的策略。在读取事件时，从套接字抓取缓冲区，将其推送到传入队列，调用词法分析器/解析器/匹配器将缓冲区组装成流，然后将块推送到输出队列。在发生写入事件时，从输出队列中取出一个块（如果有），并将其写入套接字。这听起来有点复杂，但一旦你习惯了反向控制模型，事情就不是那么复杂了。

回复收藏 0 原文

~没有更多了~