实时网页信息爬取+RAG的问答(一)操作关联问题 --林辉老师 #454

Open
opened 2024-12-31 21:49:13 +08:00 by 11735802362cs · 1 comment

1、在使用课程的例程执行网页派取时,被天眼查侦测到账号异常,暂停了我的访问请求,请问当遇到类似这种情况如何处理?

2、JSON格式的操作技巧问题
在视频中看到老师讲上万行的网页源码信息在vscode中转化为json格式查看,我反复测试,无法复现你的操作,可以告诉我如何简单的对原始网页信息进行JSON格式转化吗?这样便于查看内部数据结构,很重要。

1、在使用课程的例程执行网页派取时,被天眼查侦测到账号异常,暂停了我的访问请求,请问当遇到类似这种情况如何处理? 2、JSON格式的操作技巧问题 在视频中看到老师讲上万行的网页源码信息在vscode中转化为json格式查看,我反复测试,无法复现你的操作,可以告诉我如何简单的对原始网页信息进行JSON格式转化吗?这样便于查看内部数据结构,很重要。
  1. 这个是天眼查的反爬机制对账号做了限制,这个时候需要更换账号,或者直接不登陆也可进行爬虫,由于反爬机制的存在,需要限制爬取的频率,比如限制每20秒爬取一次。如果学员需要大规模爬取天眼查的话,最好的解决方法是使用他们的付费接口,这个就没有反爬机制,可以自由获取天眼查的数据,付费接口地址:https://open.tianyancha.com/open/1116
  2. 首先需要将json字符串复制到vscode编辑器中,然后如果json字符串是单引号表示字符串,那么需要先将单引号替换成双引号,在vscode中有批量替换如下图image,然后如果右下角显示的不是json格式,那么需要修改成json,如下图所示,image然后在右下角按照shift+alt+f,即可进行格式化
1. 这个是天眼查的反爬机制对账号做了限制,这个时候需要更换账号,或者直接不登陆也可进行爬虫,由于反爬机制的存在,需要限制爬取的频率,比如限制每20秒爬取一次。如果学员需要大规模爬取天眼查的话,最好的解决方法是使用他们的付费接口,这个就没有反爬机制,可以自由获取天眼查的数据,付费接口地址:https://open.tianyancha.com/open/1116 2. 首先需要将json字符串复制到vscode编辑器中,然后如果json字符串是单引号表示字符串,那么需要先将单引号替换成双引号,在vscode中有批量替换如下图![image](/attachments/61712c5e-b6a2-4527-8f34-3e0f426fb0ef),然后如果右下角显示的不是json格式,那么需要修改成json,如下图所示,![image](/attachments/d5571d99-964b-4a6d-bb84-8f19e01df42b)然后在右下角按照shift+alt+f,即可进行格式化
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#454
No description provided.