AGI_2404期_实时网页信息爬取（一）网页结构问题2 --林辉老师 #462

New Issue

11735802362cs · 2025-01-05T15:08:54+08:00

11735802362cs commented

2025-01-05 15:08:54 +08:00

2、我尝试举一反三，我随便打开了一个网址，查看网页源码结构，发现完全与案例不同，找不到入口和起始点？请帮忙看下；

125.png

26 KiB

127.png

26 KiB

linhui commented

2025-01-05 17:06:54 +08:00

天眼查中的网页比较特殊，也是比较好爬取的，他的数据是以json格式返回给我们的，比较好处理
这位学员的这个网址中的数据是嵌入在html页面中，获取起来会比较麻烦，需要对每一个数据都单独进行获取，但是是有工具可以获取到的，比如老师上课使用的xpath工具，xpath的教程在这个链接中https://www.runoob.com/xpath/xpath-tutorial.html，
对于这位学员的图片中的数据在pythhon中使用xpath可以通过如下方式获取
以获取“南宋抗金名将，民族英雄”为例：
c_list = etree.HTML(r.text)
j_data = c_list.xpath('//table[@id="tjtable"]//div[@id="tctitle"]//a[@class="blue14b"]//text()')[0]
其中r.text是获取到的网页源文件，j_data为获取到的结果字符串

天眼查中的网页比较特殊，也是比较好爬取的，他的数据是以json格式返回给我们的，比较好处理这位学员的这个网址中的数据是嵌入在html页面中，获取起来会比较麻烦，需要对每一个数据都单独进行获取，但是是有工具可以获取到的，比如老师上课使用的xpath工具，xpath的教程在这个链接中https://www.runoob.com/xpath/xpath-tutorial.html，对于这位学员的图片中的数据在pythhon中使用xpath可以通过如下方式获取以获取“南宋抗金名将，民族英雄”为例： c_list = etree.HTML(r.text) j_data = c_list.xpath('//table[@id="tjtable"]//div[@id="tctitle"]//a[@class="blue14b"]//text()')[0] 其中r.text是获取到的网页源文件，j_data为获取到的结果字符串

11967980089cs commented

2025-01-07 11:55:58 +08:00

老师，这块获取需要的内容时，《//table[@id="tjtable"]//div[@id="tctitle"]//a[@class="blue14b》标签只能自己手动写吗？有没有现成的工具，输入网页内容指定需要获取的那部分数据，自动生成标签《//table[@id="tjtable"]//div[@id="tctitle"]//a[@class="blue14b》呢

linhui commented

2025-01-07 15:11:22 +08:00

如图，可以在chrome中按住F12，在Elements中，选中需要获取的内容，然后右键，会看到有一个copy的选项，然后移动鼠标到copy选项中会看到有一个copy Xpath，点击copy Xpath即可直接复制你需要获取内容的xpath

![image](/attachments/9b1de5ca-ac32-4c7d-99d6-7c3cf1fc1ddf)如图，可以在chrome中按住F12，在Elements中，选中需要获取的内容，然后右键，会看到有一个copy的选项，然后移动鼠标到copy选项中会看到有一个copy Xpath，点击copy Xpath即可直接复制你需要获取内容的xpath

image.png

483 KiB

11967980089cs commented

2025-01-07 20:25:23 +08:00

好的，多谢老师

Sign in to join this conversation.