如何提交查询以使用Python在.aspx页面中提取表。 2022

发布于 2025-02-13 23:39:47 字数 2288 浏览 4 评论 0原文

我想从 https：///www.nasdaqtrader.com/trader.aspx中？ id = Tradehalts 。我尝试了不同的方法，例如 href =“ https://stackoverflow.com/questions/18840100/how-to-to-start-a-query-from-a-a-static-website?noredirect = 1& amp;lq = 1”> this ，和<一个href =“ https://stackoverflow.com/questions/1480356/how-to-to-submit-query-to-aspx-page-in-python”> this 。

我可以删除静态页面，但仍然不太了解ASPX格式。我在这里复制我从首先

import urllib
from bs4 import BeautifulSoup

headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Origin': 'http://www.indiapost.gov.in',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko)  Chrome/24.0.1312.57 Safari/537.17',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Referer': 'http://www.nitt.edu/prm/nitreg/ShowRes.aspx',
    'Accept-Encoding': 'gzip,deflate,sdch',
    'Accept-Language': 'en-US,en;q=0.8',
    'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3'
}

class MyOpener(urllib.request.FancyURLopener):
    version = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.57 Safari/537.17'

myopener = MyOpener()
url = 'https://www.nasdaqtrader.com/Trader.aspx?id=TradeHalts'
# first HTTP request without form data
f = myopener.open(url)
soup = BeautifulSoup(f)
# parse and retrieve two vital form values
viewstate = soup.findAll("input", {"type": "hidden", "name": "__VIEWSTATE"})
eventvalidation = soup.findAll("input", {"type": "hidden", "name": "__EVENTVALIDATION"})

formData = (
     ('__EVENTVALIDATION', eventvalidation),
     ('__VIEWSTATE', viewstate),
     ('__VIEWSTATEENCRYPTED', ''),
)

encodedFields = urllib.parse.urlencode(formData)
# second HTTP request with form data
f = myopener.open(url, encodedFields)

# We use BeautifulSoup
soup = BeautifulSoup(f)

print(soup.content)

无法在内容中找到表信息。我想念什么？

原文

I want to scrape data from https://www.nasdaqtrader.com/trader.aspx?id=TradeHalts. I tried different approaches, like this, this, and this.

I could scrap static pages, but still don't understand the aspx format very well. I am copying here what I took from the first reference link:

import urllib
from bs4 import BeautifulSoup

headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Origin': 'http://www.indiapost.gov.in',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko)  Chrome/24.0.1312.57 Safari/537.17',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Referer': 'http://www.nitt.edu/prm/nitreg/ShowRes.aspx',
    'Accept-Encoding': 'gzip,deflate,sdch',
    'Accept-Language': 'en-US,en;q=0.8',
    'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3'
}

class MyOpener(urllib.request.FancyURLopener):
    version = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.57 Safari/537.17'

myopener = MyOpener()
url = 'https://www.nasdaqtrader.com/Trader.aspx?id=TradeHalts'
# first HTTP request without form data
f = myopener.open(url)
soup = BeautifulSoup(f)
# parse and retrieve two vital form values
viewstate = soup.findAll("input", {"type": "hidden", "name": "__VIEWSTATE"})
eventvalidation = soup.findAll("input", {"type": "hidden", "name": "__EVENTVALIDATION"})

formData = (
     ('__EVENTVALIDATION', eventvalidation),
     ('__VIEWSTATE', viewstate),
     ('__VIEWSTATEENCRYPTED', ''),
)

encodedFields = urllib.parse.urlencode(formData)
# second HTTP request with form data
f = myopener.open(url, encodedFields)

# We use BeautifulSoup
soup = BeautifulSoup(f)

print(soup.content)

I cannot find the table information in the content. What am I missing?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

沙与沫 2025-02-20 23:39:48

要将数据作为熊猫数据框架获取下一个示例：

import requests
import pandas as pd
from io import StringIO


url = "https://www.nasdaqtrader.com/RPCHandler.axd"

headers = {
    "Referer": "https://www.nasdaqtrader.com/trader.aspx?id=TradeHalts",
}

payload = {
    "id": 2,
    "method": "BL_TradeHalt.GetTradeHalts",
    "params": "[]",
    "version": "1.1",
}

data = requests.post(url, json=payload, headers=headers).json()
data = StringIO(data["result"])

df = pd.read_html(data)[0]
print(df.head(10).to_markdown(index=False))

打印：

停止日期	停止时间	问题符号符号	问题名称	市场	原因	暂停阈值	恢复日期恢复日期	恢复时间恢复时间	恢复时间
07/06/06/2022	15:57:38	COMSP	9.25％ SRS A CMLTV REDM PRF STK	NASDAQ	LUDP	NAN	07/06/2022	15:57:38	NAN
07/06/2022	12:51:35	BRPMU BRPMU	RILEY校长150 MERG	NASDAQ	LUDP	NAN	07/06/06/2022	12:51:35	12:56:35
B.	UT ：06	VACC	VACCITECH PLC ADS	NASDAQ	LUDP	NAN	07/06/2022	12:06:06	12:16:06
07/06/2022	11:15:10	USEA	United Maritime Corp CM ST	NASDAQ	LUDP	NAN	07/06/06/2022	11:15: 15	07/07/06/06/2022
:15:29:29: 25	10 ：28：53	Usea	United Maritime Corp CM ST	NASDAQ	LUDP	NAN	07/06/2022	10:28:53	10:43:30
07/06/2022	10:18:19	USEA	United Maritime Corp CM ST	NASDAQ	LUDP	NAN	07/06/06/2022	10:18:19 10:28:19	10:19
07/06/06/2022	09 ：41：43	gamb	gambling.com组OS	NASDAQ	LUDP	NAN	07/06/2022	09:41:43	09:46:43
07/06/2022	09:37:16	USEA	United Maritime Corp CM ST	NASDAQ	LUDP	NAN	07/06/06/2022	09	:37:37:16 10:17:17:41 07/06/2022
09/2022	09 ：31：15	JJN	IPATHA系列B彭博镍亚索引总回报ETN	NYSE ARCA	M	NAN	07/06/2022	09:36:15	09:36:15
07/06/2022	09:31:17	AMTI AMTI	APLIED分子运输CM	NASDAQ	LUDP	NAN	07/06/06/2022	09:31:17 09:36：17 09:36：09:36：09 :	36： 17

To get the data as pandas DataFrame you can use next example:

import requests
import pandas as pd
from io import StringIO


url = "https://www.nasdaqtrader.com/RPCHandler.axd"

headers = {
    "Referer": "https://www.nasdaqtrader.com/trader.aspx?id=TradeHalts",
}

payload = {
    "id": 2,
    "method": "BL_TradeHalt.GetTradeHalts",
    "params": "[]",
    "version": "1.1",
}

data = requests.post(url, json=payload, headers=headers).json()
data = StringIO(data["result"])

df = pd.read_html(data)[0]
print(df.head(10).to_markdown(index=False))

Prints:

Halt Date	Halt Time	Issue Symbol	Issue Name	Market	Reason Codes	Pause Threshold Price	Resumption Date	Resumption Quote Time	Resumption Trade Time
07/06/2022	15:57:38	COMSP	9.25% Srs A Cmltv Redm Prf Stk	NASDAQ	LUDP	nan	07/06/2022	15:57:38	nan
07/06/2022	12:51:35	BRPMU	B. Riley Principal 150 Merg Ut	NASDAQ	LUDP	nan	07/06/2022	12:51:35	12:56:35
07/06/2022	12:06:06	VACC	Vaccitech plc ADS	NASDAQ	LUDP	nan	07/06/2022	12:06:06	12:16:06
07/06/2022	11:15:10	USEA	United Maritime Corp Cm St	NASDAQ	LUDP	nan	07/06/2022	11:15:10	11:29:25
07/06/2022	10:28:53	USEA	United Maritime Corp Cm St	NASDAQ	LUDP	nan	07/06/2022	10:28:53	10:43:30
07/06/2022	10:18:19	USEA	United Maritime Corp Cm St	NASDAQ	LUDP	nan	07/06/2022	10:18:19	10:28:19
07/06/2022	09:41:43	GAMB	Gambling.com Group Os	NASDAQ	LUDP	nan	07/06/2022	09:41:43	09:46:43
07/06/2022	09:37:16	USEA	United Maritime Corp Cm St	NASDAQ	LUDP	nan	07/06/2022	09:37:16	10:17:41
07/06/2022	09:31:15	JJN	iPathA Series B Bloomberg Nickel Subindex Total Return ETN	NYSE Arca	M	nan	07/06/2022	09:36:15	09:36:15
07/06/2022	09:31:17	AMTI	Applied Molecular Transport Cm	NASDAQ	LUDP	nan	07/06/2022	09:31:17	09:36:17