课程:AGI_2404期_实时网页信息爬取+RAG的问答(一)网页结构问题 --林辉老师 #461

Open
opened 2025-01-05 15:05:37 +08:00 by 11735802362cs · 1 comment

1、在完全不清楚网页结构的基础上,我是如何判断url = f"https://www.tianyancha.com/nsearch?key={q}" 的形式呢?

根据课程案例:天眼查网页结构: 如何判断查询的入口呢? https://www.tianyancha.com/nsearch?key=%E6%B9xxxxx, 我怎么知道是在key={q}=??
这个q=湖南中科安谷信息技术有限公司是怎么测试出来的? 当我打开这个网址,我无法找到我输入的搜索关键词:“xxxx公司” 对应源码的位置? “%E6%B9%96%E5%8D。。。。”??

1、在完全不清楚网页结构的基础上,我是如何判断url = f"https://www.tianyancha.com/nsearch?key={q}" 的形式呢? 根据课程案例:天眼查网页结构: 如何判断查询的入口呢? https://www.tianyancha.com/nsearch?key=%E6%B9xxxxx, 我怎么知道是在key={q}=?? 这个q=湖南中科安谷信息技术有限公司是怎么测试出来的? 当我打开这个网址,我无法找到我输入的搜索关键词:“xxxx公司” 对应源码的位置? “%E6%B9%96%E5%8D。。。。”??

这个是互联网上URL的构成规则,可以参考https://developer.mozilla.org/zh-CN/docs/Learn_web_development/Howto/Web_mechanics/What_is_a_URL,这个里面详细说明了URL是如何构成的
在天眼查中查询湖南中科安谷信息技术有限公司的时候,会发现只有nsearch这个接口返回了我们需要的数据,可以观察q是需要输入的公司的参数,这个参数实际上是经过浏览器对中文字符经过转码之后也就是%E6%B9%96%E5%8D,他的实际的参数在payload中,如下图所示image

这个是互联网上URL的构成规则,可以参考https://developer.mozilla.org/zh-CN/docs/Learn_web_development/Howto/Web_mechanics/What_is_a_URL,这个里面详细说明了URL是如何构成的 在天眼查中查询湖南中科安谷信息技术有限公司的时候,会发现只有nsearch这个接口返回了我们需要的数据,可以观察q是需要输入的公司的参数,这个参数实际上是经过浏览器对中文字符经过转码之后也就是%E6%B9%96%E5%8D,他的实际的参数在payload中,如下图所示![image](/attachments/a8d166b2-758c-4433-9873-17b4e95987c4)
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#461
No description provided.