课程:AGI_2404期_实时网页信息爬取+RAG的问答(一)网页结构问题 --林辉老师 #461
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#461
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
1、在完全不清楚网页结构的基础上,我是如何判断url = f"https://www.tianyancha.com/nsearch?key={q}" 的形式呢?
根据课程案例:天眼查网页结构: 如何判断查询的入口呢? https://www.tianyancha.com/nsearch?key=%E6%B9xxxxx, 我怎么知道是在key={q}=??
这个q=湖南中科安谷信息技术有限公司是怎么测试出来的? 当我打开这个网址,我无法找到我输入的搜索关键词:“xxxx公司” 对应源码的位置? “%E6%B9%96%E5%8D。。。。”??
这个是互联网上URL的构成规则,可以参考https://developer.mozilla.org/zh-CN/docs/Learn_web_development/Howto/Web_mechanics/What_is_a_URL,这个里面详细说明了URL是如何构成的
在天眼查中查询湖南中科安谷信息技术有限公司的时候,会发现只有nsearch这个接口返回了我们需要的数据,可以观察q是需要输入的公司的参数,这个参数实际上是经过浏览器对中文字符经过转码之后也就是%E6%B9%96%E5%8D,他的实际的参数在payload中,如下图所示