gpt4 book ai didi

html - 从网页中获取数据

转载 作者:行者123 更新时间:2023-11-27 23:56:17 25 4
gpt4 key购买 nike

我正在尝试获取每个专利号对应的公开日期。

这是 Excel 表格:

enter image description here

数据库是espacenet.com

这是您在 Excel 表格中看到的第一项专利的链接:
http://worldwide.espacenet.com/searchResults?compact=false&PN=US7055777B2&ST=advanced&locale=en_EP&DB=EPODOC

在“Publication Info”标题下,我需要将专利号与 Excel 表格中的专利号匹配后获取日期。

代码如下:

Sub tryextraction()

Dim ie As New InternetExplorer
Dim sdd As String
Dim tdd() As String
Dim num0 As Integer
Dim num1 As Integer
Dim doc As HTMLDocument
Dim i As Integer
Dim j As Integer

ie.Visible = True

num1 = ActiveSheet.UsedRange.Rows.Count

For num0 = 2 To num1
ie.navigate "http://worldwide.espacenet.com/searchResults?compact=false&PN=" & Range("A" & num0) & "&ST=advanced&locale=en_EP&DB=EPODOC"

Do
DoEvents
Loop Until ie.readyState = READYSTATE_COMPLETE

Set doc = ie.document
sdd = Trim(doc.getElementsByTagName("td")(5).innerText)
tdd() = Split(sdd, vbLf)
j = UBound(tdd)

For i = 0 To j
If InStr(tdd(i), "(") <> 0 Then
tdd(i) = Replace(tdd(i), " ", "")
tdd(i) = Replace(tdd(i), "(", "")
tdd(i) = Replace(tdd(i), ")", "")

If tdd(i) = Range("A" & num0).Value Then
Range("B" & num0).Value = tdd(i + 1)
End If
End If
Next i
Next num0
ie.Quit

End Sub

代码没有给出任何错误。代码运行完成后,“发布日期”列保持空白。

已正确获取包含发布信息的 html 标签。

最佳答案

您在文档中搜索的 ID 后有一些尾随空白字符,因此 tdd(i) = Range("A"& num0).Value 永远不会计算为真。它不仅仅是一个空格,所以简单的 Trim(tdd(i)) = Range("A"& num0).Value 调用没有帮助。请尝试 InStr(tdd(i), Range("A"& num0).Value) 如果这还不够好,您必须在执行之前专门从字符串末尾删除 CRLF比较。

关于html - 从网页中获取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24061518/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com