如何使用 shell 工具从 HTML 文件中提取项目 ID?
我有一个带有目录名称的文本文件(每行一个),我需要打开并循环浏览该列表。一次获取一个名称,下载相应的 HTML 页面并提取页面上的“item_id”。
项目 ID 在 HTML 中显示如下:?item_id=55963573">
。
这是我到目前为止所得到的。
#!/bin/sh
for productID in (catIDs.txt) #I know this part is not correct
do
wget -q -U Mozilla "http://www.example.com/$productID/" -O - \
| tr '"' '\n' | grep "^item_id" | cut -d ' ' -f 4 >> itemIDs.txt
sleep 15
done
I have a text file with catalog names (one per line) and I need to open and cycle through that list. Taking one name at a time, downloading the corresponding HTML page and extracting the "item_id" that is on the page.
The item ID is displayed like this in the HTML: ?item_id=55963573">
.
This is what I have so far below.
#!/bin/sh
for productID in (catIDs.txt) #I know this part is not correct
do
wget -q -U Mozilla "http://www.example.com/$productID/" -O - \
| tr '"' '\n' | grep "^item_id" | cut -d ' ' -f 4 >> itemIDs.txt
sleep 15
done
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
这应该有效:
This should work:
如果文件很小,请使用:
If the file is small, use:
或者
or