【求助帖】32-25.3.25-实时网页信息爬取+RAG的舆情分析系统-林辉老师 #691

New Issue

threestraw · 2025-04-12T15:23:59+08:00

threestraw commented

2025-04-12 15:23:59 +08:00

由于上节课已经创建了一个mysql的数据库，我想不重复创建mysql，就把这次的表格创建在之前的数据库中。但是pyway migrate就报错了想了解为什么。报错原因：raise RuntimeError(DIFF_CHECKSUM_ERROR % (local_migration.name,
RuntimeError: ERROR: Local file [V01_01__create_financial_news_table.sql] with diff script (5FC5465) of the database (A46C8E99)

本节课中，db_create中的.pyway.conf我已经做了相应的修改

由于上节课已经创建了一个mysql的数据库，我想不重复创建mysql，就把这次的表格创建在之前的数据库中。但是pyway migrate就报错了想了解为什么。报错原因：raise RuntimeError(DIFF_CHECKSUM_ERROR % (local_migration.name, RuntimeError: ERROR: Local file [V01_01__create_financial_news_table.sql] with diff script (5FC5465) of the database (A46C8E99) ![image](/attachments/20e254a6-5884-47a3-b4c2-f39201365ec4) 本节课中，db_create中的.pyway.conf我已经做了相应的修改 ![image](/attachments/48847729-8285-4b15-a5e1-7fd60f2a9bb5)

image.png

72 KiB

image.png

28 KiB

threestraw commented

2025-04-13 23:00:26 +08:00

我在拉取xinference的时候报错是为什么docker: error pulling image configuration: download failed after attempts=1: toomanyrequests: too many requests.
See 'docker run --help'.

代码是
docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest

![image](/attachments/2e8957dc-2097-4b4f-b283-cc2ce3365e99) 我在拉取xinference的时候报错是为什么docker: error pulling image configuration: download failed after attempts=1: toomanyrequests: too many requests. See 'docker run --help'. 代码是 docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest

image.png

76 KiB

linhui commented

2025-04-15 14:19:54 +08:00

首先我推荐你创建两个mysql数据库，这样不容易搞错，你这个原因是因为之前用pyway创建过数据表格，然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况，解决办法就是创建两个数据库，在另外一个数据库上执行另外一个pyway脚本，还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中，这样就可以同时在一个数据库中创建多个数据表格
xiference应该是阿里云做了限制，使用这个命令之前都是可以拉取的，可以不用阿里云的这个镜像改用docker hup官网提供的：docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest

1. 首先我推荐你创建两个mysql数据库，这样不容易搞错，你这个原因是因为之前用pyway创建过数据表格，然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况，解决办法就是创建两个数据库，在另外一个数据库上执行另外一个pyway脚本，还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中，这样就可以同时在一个数据库中创建多个数据表格 2. xiference应该是阿里云做了限制，使用这个命令之前都是可以拉取的，可以不用阿里云的这个镜像改用docker hup官网提供的：docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest

threestraw commented

2025-04-20 10:55:09 +08:00

首先我推荐你创建两个mysql数据库，这样不容易搞错，你这个原因是因为之前用pyway创建过数据表格，然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况，解决办法就是创建两个数据库，在另外一个数据库上执行另外一个pyway脚本，还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中，这样就可以同时在一个数据库中创建多个数据表格

xiference应该是阿里云做了限制，使用这个命令之前都是可以拉取的，可以不用阿里云的这个镜像改用docker hup官网提供的：docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest

根据这个代码我拉取下了这个镜像。然后我再次执行时，出现容器的ID：c8eeb7225013682b1968ff5c8edc9a4804252064aaf9929f082c767289d737f0。但是我在dock desktop上看到这个容器的status是exited状态，并且怎么试都不能启动，这是为什么

> 1. 首先我推荐你创建两个mysql数据库，这样不容易搞错，你这个原因是因为之前用pyway创建过数据表格，然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况，解决办法就是创建两个数据库，在另外一个数据库上执行另外一个pyway脚本，还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中，这样就可以同时在一个数据库中创建多个数据表格 > 2. xiference应该是阿里云做了限制，使用这个命令之前都是可以拉取的，可以不用阿里云的这个镜像改用docker hup官网提供的：docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest 根据这个代码我拉取下了这个镜像。然后我再次执行时，出现容器的ID：c8eeb7225013682b1968ff5c8edc9a4804252064aaf9929f082c767289d737f0。但是我在dock desktop上看到这个容器的status是exited状态，并且怎么试都不能启动，这是为什么

threestraw commented

2025-04-22 16:53:17 +08:00

是否是因为电脑内存不够，所以docker的镜像就打不开

threestraw commented

2025-04-22 22:51:22 +08:00

在具体执行的时候遇到另一个问题，main.py执行，日志显示一下内容，说明知识库链接是正常的，但是我的fastgpt里面的知识库没有内容，依旧为空。这是为什么。

zhishiku {'code': 200, 'statusText': '', 'message': '', 'data': {'collectionId': '6807aa5f9233f22a6262843d', 'results': {'insertLen': 1, 'overToken': [], 'repeat': [], 'error': []}}}
rrrrrrrrr 微博用户['开心在第一']在2025年4月22日22时39发布了一条关于电商平台全面取消仅退款的微博，其微博详情为：#电商平台全面取消仅退款#那小商品的运费险是不是要安排上

在具体执行的时候遇到另一个问题，main.py执行，日志显示一下内容，说明知识库链接是正常的，但是我的fastgpt里面的知识库没有内容，依旧为空。这是为什么。 ``` zhishiku {'code': 200, 'statusText': '', 'message': '', 'data': {'collectionId': '6807aa5f9233f22a6262843d', 'results': {'insertLen': 1, 'overToken': [], 'repeat': [], 'error': []}}} rrrrrrrrr 微博用户['开心在第一']在2025年4月22日22时39发布了一条关于电商平台全面取消仅退款的微博，其微博详情为：#电商平台全面取消仅退款#那小商品的运费险是不是要安排上 ``` ![image](/attachments/12d17b95-171e-4510-b29c-7725422e6a58)

image.png

83 KiB

linhui commented

2025-04-22 23:03:05 +08:00

首先我推荐你创建两个mysql数据库，这样不容易搞错，你这个原因是因为之前用pyway创建过数据表格，然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况，解决办法就是创建两个数据库，在另外一个数据库上执行另外一个pyway脚本，还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中，这样就可以同时在一个数据库中创建多个数据表格

xiference应该是阿里云做了限制，使用这个命令之前都是可以拉取的，可以不用阿里云的这个镜像改用docker hup官网提供的：docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest

根据这个代码我拉取下了这个镜像。然后我再次执行时，出现容器的ID：c8eeb7225013682b1968ff5c8edc9a4804252064aaf9929f082c767289d737f0。但是我在dock desktop上看到这个容器的status是exited状态，并且怎么试都不能启动，这是为什么

你的电脑有GPU吗，如果没有GPU就使用CPU版本，在拉取容器的时候需要在镜像名称后面加CPU，然后最好就是使用linux系统来部署xinference，

> > 1. 首先我推荐你创建两个mysql数据库，这样不容易搞错，你这个原因是因为之前用pyway创建过数据表格，然后使用了另外一个pyway脚本创建数据表格就会出现不兼容情况，解决办法就是创建两个数据库，在另外一个数据库上执行另外一个pyway脚本，还有一种办法就是把另外一个pyway脚本的.sql文件里面的内容复制到第一个pyway脚本的.sql中，这样就可以同时在一个数据库中创建多个数据表格 > > 2. xiference应该是阿里云做了限制，使用这个命令之前都是可以拉取的，可以不用阿里云的这个镜像改用docker hup官网提供的：docker run -d -e XINFERENCE_MODEL_SRC=modelscope -v D:\program\AItools\xinference:/root/.xinference -v D:\program\AItools\xinference/.cache/huggingface:/root/.cache/huggingface -v D:\program\AItools\xinference/.cache/modelscope:/root/.cache/modelscope -p 9997:9997 xprobe/xinference:latest > > 根据这个代码我拉取下了这个镜像。然后我再次执行时，出现容器的ID：c8eeb7225013682b1968ff5c8edc9a4804252064aaf9929f082c767289d737f0。但是我在dock desktop上看到这个容器的status是exited状态，并且怎么试都不能启动，这是为什么你的电脑有GPU吗，如果没有GPU就使用CPU版本，在拉取容器的时候需要在镜像名称后面加CPU，然后最好就是使用linux系统来部署xinference，![image](/attachments/91096838-cab6-4c57-9467-f550fbd9eb78)

image.png

100 KiB

linhui commented

2025-04-22 23:04:33 +08:00

在具体执行的时候遇到另一个问题，main.py执行，日志显示一下内容，说明知识库链接是正常的，但是我的fastgpt里面的知识库没有内容，依旧为空。这是为什么。
zhishiku {'code': 200, 'statusText': '', 'message': '', 'data': {'collectionId': '6807aa5f9233f22a6262843d', 'results': {'insertLen': 1, 'overToken': [], 'repeat': [], 'error': []}}}
rrrrrrrrr 微博用户['开心在第一']在2025年4月22日22时39发布了一条关于电商平台全面取消仅退款的微博，其微博详情为：#电商平台全面取消仅退款#那小商品的运费险是不是要安排上

这个是你没有正确部署embedding模型，无法使用embedding模型进行向量化，然后知识库就会为空，你可以检查下embedding模型

> 在具体执行的时候遇到另一个问题，main.py执行，日志显示一下内容，说明知识库链接是正常的，但是我的fastgpt里面的知识库没有内容，依旧为空。这是为什么。 > ``` > zhishiku {'code': 200, 'statusText': '', 'message': '', 'data': {'collectionId': '6807aa5f9233f22a6262843d', 'results': {'insertLen': 1, 'overToken': [], 'repeat': [], 'error': []}}} > rrrrrrrrr 微博用户['开心在第一']在2025年4月22日22时39发布了一条关于电商平台全面取消仅退款的微博，其微博详情为：#电商平台全面取消仅退款#那小商品的运费险是不是要安排上 > ``` > > ![image](/attachments/12d17b95-171e-4510-b29c-7725422e6a58) 这个是你没有正确部署embedding模型，无法使用embedding模型进行向量化，然后知识库就会为空，你可以检查下embedding模型

threestraw commented

2025-04-22 23:20:29 +08:00

dataset_name_2_dataset_id {'携程旅游': '6807ad759233f22a626288a6', '2': '680795eb60cdb83a5a1fd47f', '1': '680795dc60cdb83a5a1fd285', '舆情知识库': '6807917660cdb83a5a1fd0b7', '财经新闻': '67ed5fab3be638e5bd0aa0a7'}

我获取了知识库的列表，是有1和2的知识库的但是不知道为什么页面上没有展示出来

`dataset_name_2_dataset_id {'携程旅游': '6807ad759233f22a626288a6', '2': '680795eb60cdb83a5a1fd47f', '1': '680795dc60cdb83a5a1fd285', '舆情知识库': '6807917660cdb83a5a1fd0b7', '财经新闻': '67ed5fab3be638e5bd0aa0a7'}` 我获取了知识库的列表，是有1和2的知识库的但是不知道为什么页面上没有展示出来 ![image](/attachments/6e0fafe8-cf78-457a-a477-7859b5580a81)

image.png

62 KiB

threestraw commented

2025-04-24 09:00:13 +08:00

能否解释一下为什么会有crawl和interface两个文件，因为我看crawl已经实现了爬取，创建数据库，创建知识库的闭环，那interface的作用是什么。

linhui commented

2025-04-24 16:00:34 +08:00

在工作流中需要调用接口去查询数据库中的数据，这个interface就是提供这个接口可以让工作流去调用查询数据库中的数据
crawl是从网上爬数据下来保存到数据库中

在工作流中需要调用接口去查询数据库中的数据，这个interface就是提供这个接口可以让工作流去调用查询数据库中的数据 crawl是从网上爬数据下来保存到数据库中

threestraw commented

2025-04-24 20:57:52 +08:00

def query_dataset(): """ 查询知识库 :return: """ dataset_dict = {} query_dataset_url = rf'{OPENAI_API_BASE_URL}/core/dataset/list' headers = {"Content-Type": "application/json", "Authorization": f"Bearer {OPENAI_API_KEY}"} result = requests.post(url=query_dataset_url, headers=headers) try: ret = result.json() print(ret)
我用这个function去查找我的知识库，里面包含{'舆情知识库': '6807917660cdb83a5a1fd0b7', '携程旅游': '6807ad759233f22a626288a6', '2': '680795eb60cdb83a5a1fd47f', '1': '680795dc60cdb83a5a1fd285', '财经新闻': '67ed5fab3be638e5bd0aa0a7'}但是实际我的页面上没有1和2这两个知识库，这是为什么。重启fastgpt容器也不行，方便的话安排远程

`def query_dataset(): """ 查询知识库 :return: """ dataset_dict = {} query_dataset_url = rf'{OPENAI_API_BASE_URL}/core/dataset/list' headers = {"Content-Type": "application/json", "Authorization": f"Bearer {OPENAI_API_KEY}"} result = requests.post(url=query_dataset_url, headers=headers) try: ret = result.json() print(ret)` 我用这个function去查找我的知识库，里面包含{'舆情知识库': '6807917660cdb83a5a1fd0b7', '携程旅游': '6807ad759233f22a626288a6', '2': '680795eb60cdb83a5a1fd47f', '1': '680795dc60cdb83a5a1fd285', '财经新闻': '67ed5fab3be638e5bd0aa0a7'}但是实际我的页面上没有1和2这两个知识库，这是为什么。重启fastgpt容器也不行，方便的话安排远程![image](/attachments/d4729a72-da9f-4375-9790-1d1e9c634d16)

image.png

68 KiB

linhui commented

2025-04-24 21:01:56 +08:00

知识库1和2是不是在这个目录里面呢

知识库1和2是不是在这个目录里面呢![image](/attachments/850a5785-5120-40a1-8785-6e2c61708886)

image.png

211 KiB

threestraw commented

2025-04-24 21:06:14 +08:00