lx - 汇视威代码托管平台

12019701659cs commented on issue HswOAuth/llm_course#450

2025-01-03 15:07:33 +08:00

xinference部署失败

找到占用这个端口的进程，kill掉；或者修改部署的端口（--port修改）

12019701659cs commented on issue HswOAuth/llm_course#457

2025-01-03 14:52:39 +08:00

调用gpt-4o-mini模型报错：无该模型使用权限

gpt-4o-mini是openai提供的，如果要用它的接口，需要自己绑定api key，绑定付费的银行卡

12019701659cs commented on issue HswOAuth/llm_course#448

2024-12-28 18:20:48 +08:00

关于重复主题的新闻去重

可以尝试使用TF-IDF或者或词嵌入对文本进行向量化，然后计算每对新闻文本之间的余弦相似度，找出相似度高于阈值的新闻对，并标记其中一篇为重…

12019701659cs commented on issue HswOAuth/llm_course#447

2024-12-26 18:02:52 +08:00

如何理解这个微调命令

对，可以把这个模型接入到整个流程的函数调用部分。

12019701659cs commented on issue HswOAuth/llm_course#447

2024-12-25 19:16:45 +08:00

如何理解这个微调命令

模型提升的地方是它能够格式化地输出function和paremeters，使得我们在提供给这个模型可选function的list时，模型能够去选择最符合我们要求的function，输…

12019701659cs commented on issue HswOAuth/llm_course#441

2024-12-25 13:54:54 +08:00

【求助帖】我目前对pdf里的文字以及图片进行处理但是现在出现文字丢失以及图片模糊识别不准的情况，想请教下该如何优化才能准确识别呢，目前采用ocr，用paddle做的

主要跟你使用的数据有关系，如果向量数据量非常大，或者大部分查询只涉及向量相似度搜索，而不需要频繁访问元数据，或者对查询性能要求高，…

12019701659cs commented on issue HswOAuth/llm_course#441

2024-12-23 18:43:15 +08:00

【求助帖】我目前对pdf里的文字以及图片进行处理但是现在出现文字丢失以及图片模糊识别不准的情况，想请教下该如何优化才能准确识别呢，目前采用ocr，用paddle做的

PDF 预处理: 可以提高分辨率，去除噪点和背景，倾斜校正；也可以将 PDF 分成不同的段落、表格和图片区域，然后分别进行处理。
PaddleOCR应该有…

12019701659cs commented on issue HswOAuth/llm_course#436

2024-12-23 14:13:34 +08:00

模型训练数据加载问题

ARIMA 不是神经网络。
如果使用神经网络来处理大量时序数据，可以考虑分批加载 (Batch Loading)、内存映射 (Memory Mapping)、分布式训练之类的方法。

12019701659cs commented on issue HswOAuth/llm_course#437

2024-12-23 14:10:25 +08:00

ollama内的模型如何微调？

Ollama 没有微调功能，只能使用其他工具进行微调。
ollama的模型格式是GGUF，可以使用 llama.cpp 将模型转换为 GGUF 格式。 https://github.com/ggerganov/llam…

12019701659cs commented on issue HswOAuth/llm_course#438

2024-12-23 14:06:51 +08:00

模型项目产品的运维迭代问题？

（1）可以实现，但不建议这么做，容易受到噪声数据和对抗性攻击的影响，可能导致模型性能下降。建议定期收集用户交互数据和反馈，并使用这些…

12019701659cs commented on issue HswOAuth/llm_course#433

2024-12-20 20:14:23 +08:00

【求助】视觉，目标识别，图片标注

可以是数据量少的原因，如果要标注的话，可以试试这个工具：https://github.com/CVHub520/X-AnyLabeling?tab=readme-ov-file

12019701659cs commented on issue HswOAuth/llm_course#430

2024-12-20 20:08:58 +08:00

【求助贴】目前搭建了一个元数据RAG向量库，但是只对word纯文本做了转向量处理，现在想对表格内容做处理，要如何处理合适嘞，后续也会处理pdf数据，

可以使用功能langchain作为基本方案，使用Unstructured处理图像文档，使用CSVLoader处理表格数据。可以参考langchain的官方文档https://python.langchain.com/v0.1/docs…

12019701659cs commented on issue HswOAuth/llm_course#429

2024-12-20 16:39:37 +08:00

【求助】视觉，图像处理，图像分割，将多余的颜色清理

可以看看这几种方法

OpenCV的GrabCut
Photoshop手动除去下。
U-Net，不过可能需要训练。
CarveKit

12019701659cs commented on issue HswOAuth/llm_course#428

2024-12-20 16:25:04 +08:00

怎么把自家的知识转变成可以调用的格式？

先分析下json的结构，将回答和知识文档和json中的字段进行一一对应（不对应的可以稍微改动下），然后将数据做下转换就行，具体可以参考下python转…

12019701659cs commented on issue HswOAuth/llm_course#412

2024-12-09 21:48:16 +08:00

【求助帖】现在公司大模型分为三个线路，当一个问题进来优先判断问题类型看类型属于知识问答、agent能力调用或者数据查询；判断用户问题属于哪个类型，知识问答就是正常大模型问答，agent就是调用对应能力，数据查询就直接去表查询问题；现在我基于agent做了一下，单靠模型能力和提示词并不能达到当前准确率需求，请教下有没有什么好的优化思路可以高效率提高判断水平。

可以使用bert-base-chinese，建议是5000-10000条数据，可以先试试3000-5000区间数据的分类效果。

12019701659cs commented on issue HswOAuth/llm_course#418

2024-12-09 21:42:30 +08:00

有关xinference

图片的方式应该是推理已经部署的模型，如果你说的是命令行部署，可以参考：

12019701659cs commented on issue HswOAuth/llm_course#412

2024-12-06 22:26:29 +08:00

【求助帖】现在公司大模型分为三个线路，当一个问题进来优先判断问题类型看类型属于知识问答、agent能力调用或者数据查询；判断用户问题属于哪个类型，知识问答就是正常大模型问答，agent就是调用对应能力，数据查询就直接去表查询问题；现在我基于agent做了一下，单靠模型能力和提示词并不能达到当前准确率需求，请教下有没有什么好的优化思路可以高效率提高判断水平。

可以训练一个分类器，而不是用大模型：

收集真实用户问题并标注其对应的类型（知识问答、Agent调用、数据库查询）。
微调模型进行多分类…

12019701659cs commented on issue HswOAuth/llm_course#412

2024-12-05 20:20:25 +08:00

【求助帖】现在公司大模型分为三个线路，当一个问题进来优先判断问题类型看类型属于知识问答、agent能力调用或者数据查询；判断用户问题属于哪个类型，知识问答就是正常大模型问答，agent就是调用对应能力，数据查询就直接去表查询问题；现在我基于agent做了一下，单靠模型能力和提示词并不能达到当前准确率需求，请教下有没有什么好的优化思路可以高效率提高判断水平。

“”基于agent做了一下，单靠模型能力和提示词并不能达到当前准确率需求，请教下有没有什么好的优化思路可以高效率提高判断水平。 “” （1）…

12019701659cs commented on issue HswOAuth/llm_course#411

2024-12-05 20:16:28 +08:00

求助：我们需要在数据湖中实现数据的智能分类分级与智能打标等功能。具体需求包括自动识别数据字段及其内容，并进行分类、分级和打标以及数据的隐私访问。

可以参考下，不绝对。

实现该功能需要用到哪些技术？（1）自然语言处理（NLP）和文本分析技术：文本分类、实体识别、正则表达式之类的。 …

12019701659cs commented on issue HswOAuth/llm_course#410

2024-12-03 19:35:09 +08:00

【求助贴】有关llm方向的常见算法有哪些

算法类型：基础机器学习与深度学习算法、Transformer架构相关算法、预训练与微调算法、生成模型算法、优化与加速算法、文本生成与理解的任务相关…