【求助帖】32-25.3.25-实时网页信息爬取+RAG的舆情分析系统-林辉老师 #691

Open
opened 2025-04-12 15:23:59 +08:00 by threestraw · 13 comments

由于上节课已经创建了一个mysql的数据库,我想不重复创建mysql,就把这次的表格创建在之前的数据库中。但是pyway migrate就报错了想了解为什么。报错原因:raise RuntimeError(DIFF_CHECKSUM_ERROR % (local_migration.name,
RuntimeError: ERROR: Local file [V01_01__create_financial_news_table.sql] with diff script (5FC5465) of the database (A46C8E99)
image
本节课中,db_create中的.pyway.conf我已经做了相应的修改
image

由于上节课已经创建了一个mysql的数据库,我想不重复创建mysql,就把这次的表格创建在之前的数据库中。但是pyway migrate就报错了想了解为什么。报错原因:raise RuntimeError(DIFF_CHECKSUM_ERROR % (local_migration.name, RuntimeError: ERROR: Local file [V01_01__create_financial_news_table.sql] with diff script (5FC5465) of the database (A46C8E99) ![image](/attachments/20e254a6-5884-47a3-b4c2-f39201365ec4) 本节课中,db_create中的.pyway.conf我已经做了相应的修改 ![image](/attachments/48847729-8285-4b15-a5e1-7fd60f2a9bb5)
Author

image

我在拉取xinference的时候报错是为什么docker: error pulling image configuration: download failed after attempts=1: toomanyrequests: too many requests.
See 'docker run --help'.

代码是
docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest

![image](/attachments/2e8957dc-2097-4b4f-b283-cc2ce3365e99) 我在拉取xinference的时候报错是为什么docker: error pulling image configuration: download failed after attempts=1: toomanyrequests: too many requests. See 'docker run --help'. 代码是 docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest
  1. 首先我推荐你创建两个mysql数据库,这样不容易搞错,你这个原因是因为之前用pyway创建过数据表格,然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况,解决办法就是创建两个数据库,在另外一个数据库上执行另外一个pyway脚本,还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中,这样就可以同时在一个数据库中创建多个数据表格
  2. xiference应该是阿里云做了限制,使用这个命令之前都是可以拉取的,可以不用阿里云的这个镜像改用docker hup官网提供的:docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest
1. 首先我推荐你创建两个mysql数据库,这样不容易搞错,你这个原因是因为之前用pyway创建过数据表格,然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况,解决办法就是创建两个数据库,在另外一个数据库上执行另外一个pyway脚本,还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中,这样就可以同时在一个数据库中创建多个数据表格 2. xiference应该是阿里云做了限制,使用这个命令之前都是可以拉取的,可以不用阿里云的这个镜像改用docker hup官网提供的:docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest
Author
  1. 首先我推荐你创建两个mysql数据库,这样不容易搞错,你这个原因是因为之前用pyway创建过数据表格,然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况,解决办法就是创建两个数据库,在另外一个数据库上执行另外一个pyway脚本,还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中,这样就可以同时在一个数据库中创建多个数据表格
  2. xiference应该是阿里云做了限制,使用这个命令之前都是可以拉取的,可以不用阿里云的这个镜像改用docker hup官网提供的:docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest

根据这个代码我拉取下了这个镜像。然后我再次执行时,出现容器的ID:c8eeb7225013682b1968ff5c8edc9a4804252064aaf9929f082c767289d737f0。但是我在dock desktop上看到这个容器的status是exited状态,并且怎么试都不能启动,这是为什么

> 1. 首先我推荐你创建两个mysql数据库,这样不容易搞错,你这个原因是因为之前用pyway创建过数据表格,然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况,解决办法就是创建两个数据库,在另外一个数据库上执行另外一个pyway脚本,还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中,这样就可以同时在一个数据库中创建多个数据表格 > 2. xiference应该是阿里云做了限制,使用这个命令之前都是可以拉取的,可以不用阿里云的这个镜像改用docker hup官网提供的:docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest 根据这个代码我拉取下了这个镜像。然后我再次执行时,出现容器的ID:c8eeb7225013682b1968ff5c8edc9a4804252064aaf9929f082c767289d737f0。但是我在dock desktop上看到这个容器的status是exited状态,并且怎么试都不能启动,这是为什么
Author

是否是因为电脑内存不够,所以docker的镜像就打不开

是否是因为电脑内存不够,所以docker的镜像就打不开
Author

在具体执行的时候遇到另一个问题,main.py执行,日志显示一下内容,说明知识库链接是正常的,但是我的fastgpt里面的知识库没有内容,依旧为空。这是为什么。

zhishiku {'code': 200, 'statusText': '', 'message': '', 'data': {'collectionId': '6807aa5f9233f22a6262843d', 'results': {'insertLen': 1, 'overToken': [], 'repeat': [], 'error': []}}}
rrrrrrrrr 微博用户['开心在第一']在2025年4月22日22时39发布了一条关于电商平台全面取消仅退款的微博,其微博详情为:#电商平台全面取消仅退款#那小商品的运费险是不是要安排上​

image

在具体执行的时候遇到另一个问题,main.py执行,日志显示一下内容,说明知识库链接是正常的,但是我的fastgpt里面的知识库没有内容,依旧为空。这是为什么。 ``` zhishiku {'code': 200, 'statusText': '', 'message': '', 'data': {'collectionId': '6807aa5f9233f22a6262843d', 'results': {'insertLen': 1, 'overToken': [], 'repeat': [], 'error': []}}} rrrrrrrrr 微博用户['开心在第一']在2025年4月22日22时39发布了一条关于电商平台全面取消仅退款的微博,其微博详情为:#电商平台全面取消仅退款#那小商品的运费险是不是要安排上​ ``` ![image](/attachments/12d17b95-171e-4510-b29c-7725422e6a58)
  1. 首先我推荐你创建两个mysql数据库,这样不容易搞错,你这个原因是因为之前用pyway创建过数据表格,然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况,解决办法就是创建两个数据库,在另外一个数据库上执行另外一个pyway脚本,还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中,这样就可以同时在一个数据库中创建多个数据表格
  2. xiference应该是阿里云做了限制,使用这个命令之前都是可以拉取的,可以不用阿里云的这个镜像改用docker hup官网提供的:docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest

根据这个代码我拉取下了这个镜像。然后我再次执行时,出现容器的ID:c8eeb7225013682b1968ff5c8edc9a4804252064aaf9929f082c767289d737f0。但是我在dock desktop上看到这个容器的status是exited状态,并且怎么试都不能启动,这是为什么

你的电脑有GPU吗,如果没有GPU就使用CPU版本,在拉取容器的时候需要在镜像名称后面加CPU,然后最好就是使用linux系统来部署xinference,image

> > 1. 首先我推荐你创建两个mysql数据库,这样不容易搞错,你这个原因是因为之前用pyway创建过数据表格,然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况,解决办法就是创建两个数据库,在另外一个数据库上执行另外一个pyway脚本,还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中,这样就可以同时在一个数据库中创建多个数据表格 > > 2. xiference应该是阿里云做了限制,使用这个命令之前都是可以拉取的,可以不用阿里云的这个镜像改用docker hup官网提供的:docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest > > 根据这个代码我拉取下了这个镜像。然后我再次执行时,出现容器的ID:c8eeb7225013682b1968ff5c8edc9a4804252064aaf9929f082c767289d737f0。但是我在dock desktop上看到这个容器的status是exited状态,并且怎么试都不能启动,这是为什么 你的电脑有GPU吗,如果没有GPU就使用CPU版本,在拉取容器的时候需要在镜像名称后面加CPU,然后最好就是使用linux系统来部署xinference,![image](/attachments/91096838-cab6-4c57-9467-f550fbd9eb78)
100 KiB

在具体执行的时候遇到另一个问题,main.py执行,日志显示一下内容,说明知识库链接是正常的,但是我的fastgpt里面的知识库没有内容,依旧为空。这是为什么。

zhishiku {'code': 200, 'statusText': '', 'message': '', 'data': {'collectionId': '6807aa5f9233f22a6262843d', 'results': {'insertLen': 1, 'overToken': [], 'repeat': [], 'error': []}}}
rrrrrrrrr 微博用户['开心在第一']在2025年4月22日22时39发布了一条关于电商平台全面取消仅退款的微博,其微博详情为:#电商平台全面取消仅退款#那小商品的运费险是不是要安排上​

image

这个是你没有正确部署embedding模型,无法使用embedding模型进行向量化,然后知识库就会为空,你可以检查下embedding模型

> 在具体执行的时候遇到另一个问题,main.py执行,日志显示一下内容,说明知识库链接是正常的,但是我的fastgpt里面的知识库没有内容,依旧为空。这是为什么。 > ``` > zhishiku {'code': 200, 'statusText': '', 'message': '', 'data': {'collectionId': '6807aa5f9233f22a6262843d', 'results': {'insertLen': 1, 'overToken': [], 'repeat': [], 'error': []}}} > rrrrrrrrr 微博用户['开心在第一']在2025年4月22日22时39发布了一条关于电商平台全面取消仅退款的微博,其微博详情为:#电商平台全面取消仅退款#那小商品的运费险是不是要安排上​ > ``` > > ![image](/attachments/12d17b95-171e-4510-b29c-7725422e6a58) 这个是你没有正确部署embedding模型,无法使用embedding模型进行向量化,然后知识库就会为空,你可以检查下embedding模型
Author

dataset_name_2_dataset_id {'携程旅游': '6807ad759233f22a626288a6', '2': '680795eb60cdb83a5a1fd47f', '1': '680795dc60cdb83a5a1fd285', '舆情知识库': '6807917660cdb83a5a1fd0b7', '财经新闻': '67ed5fab3be638e5bd0aa0a7'}

我获取了知识库的列表,是有1和2的知识库的但是不知道为什么页面上没有展示出来
image

`dataset_name_2_dataset_id {'携程旅游': '6807ad759233f22a626288a6', '2': '680795eb60cdb83a5a1fd47f', '1': '680795dc60cdb83a5a1fd285', '舆情知识库': '6807917660cdb83a5a1fd0b7', '财经新闻': '67ed5fab3be638e5bd0aa0a7'}` 我获取了知识库的列表,是有1和2的知识库的但是不知道为什么页面上没有展示出来 ![image](/attachments/6e0fafe8-cf78-457a-a477-7859b5580a81)
Author

能否解释一下为什么会有crawl和interface两个文件,因为我看crawl已经实现了爬取,创建数据库,创建知识库的闭环,那interface的作用是什么。

能否解释一下为什么会有crawl和interface两个文件,因为我看crawl已经实现了爬取,创建数据库,创建知识库的闭环,那interface的作用是什么。

在工作流中需要调用接口去查询数据库中的数据,这个interface就是提供这个接口可以让工作流去调用查询数据库中的数据
crawl是从网上爬数据下来保存到数据库中

在工作流中需要调用接口去查询数据库中的数据,这个interface就是提供这个接口可以让工作流去调用查询数据库中的数据 crawl是从网上爬数据下来保存到数据库中
Author

def query_dataset(): """ 查询知识库 :return: """ dataset_dict = {} query_dataset_url = rf'{OPENAI_API_BASE_URL}/core/dataset/list' headers = {"Content-Type": "application/json", "Authorization": f"Bearer {OPENAI_API_KEY}"} result = requests.post(url=query_dataset_url, headers=headers) try: ret = result.json() print(ret)
我用这个function去查找我的知识库,里面包含{'舆情知识库': '6807917660cdb83a5a1fd0b7', '携程旅游': '6807ad759233f22a626288a6', '2': '680795eb60cdb83a5a1fd47f', '1': '680795dc60cdb83a5a1fd285', '财经新闻': '67ed5fab3be638e5bd0aa0a7'}但是实际我的页面上没有1和2这两个知识库,这是为什么。重启fastgpt容器也不行,方便的话安排远程image

`def query_dataset(): """ 查询知识库 :return: """ dataset_dict = {} query_dataset_url = rf'{OPENAI_API_BASE_URL}/core/dataset/list' headers = {"Content-Type": "application/json", "Authorization": f"Bearer {OPENAI_API_KEY}"} result = requests.post(url=query_dataset_url, headers=headers) try: ret = result.json() print(ret)` 我用这个function去查找我的知识库,里面包含{'舆情知识库': '6807917660cdb83a5a1fd0b7', '携程旅游': '6807ad759233f22a626288a6', '2': '680795eb60cdb83a5a1fd47f', '1': '680795dc60cdb83a5a1fd285', '财经新闻': '67ed5fab3be638e5bd0aa0a7'}但是实际我的页面上没有1和2这两个知识库,这是为什么。重启fastgpt容器也不行,方便的话安排远程![image](/attachments/d4729a72-da9f-4375-9790-1d1e9c634d16)

知识库1和2是不是在这个目录里面呢image

知识库1和2是不是在这个目录里面呢![image](/attachments/850a5785-5120-40a1-8785-6e2c61708886)
211 KiB
Author

知识库1和2是不是在这个目录里面呢image

不在这里面,这个文件夹里面是空的

> 知识库1和2是不是在这个目录里面呢![image](/attachments/850a5785-5120-40a1-8785-6e2c61708886) > 不在这里面,这个文件夹里面是空的
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#691
No description provided.