lx 12019701659cs
  • Joined on 2024-09-05
12019701659cs commented on issue HswOAuth/llm_course#441 2024-12-23 18:43:15 +08:00
【求助帖】我目前对pdf里的文字以及图片进行处理 但是现在出现文字丢失 以及图片模糊识别不准的情况,想请教下 该如何优化才能准确识别呢,目前采用ocr,用paddle做的
  1. PDF 预处理: 可以提高分辨率,去除噪点和背景,倾斜校正;也可以将 PDF 分成不同的段落、表格和图片区域,然后分别进行处理。
  2. PaddleOCR应该有…
12019701659cs commented on issue HswOAuth/llm_course#436 2024-12-23 14:13:34 +08:00
模型训练数据加载问题
  1. ARIMA 不是神经网络。
  2. 如果使用神经网络来处理大量时序数据,可以考虑分批加载 (Batch Loading)、内存映射 (Memory Mapping)、分布式训练之类的方法。
12019701659cs commented on issue HswOAuth/llm_course#437 2024-12-23 14:10:25 +08:00
ollama内的模型如何微调?
  1. Ollama 没有微调功能,只能使用其他工具进行微调。
  2. ollama的模型格式是GGUF,可以使用 llama.cpp 将模型转换为 GGUF 格式。 https://github.com/ggerganov/llam
12019701659cs commented on issue HswOAuth/llm_course#438 2024-12-23 14:06:51 +08:00
模型项目产品的运维迭代问题?

(1)可以实现,但不建议这么做,容易受到噪声数据和对抗性攻击的影响,可能导致模型性能下降。建议 定期收集用户交互数据和反馈,并使用这些…

12019701659cs commented on issue HswOAuth/llm_course#433 2024-12-20 20:14:23 +08:00
【求助】视觉,目标识别,图片标注

可以是数据量少的原因,如果要标注的话,可以试试这个工具:https://github.com/CVHub520/X-AnyLabeling?tab=readme-ov-file

12019701659cs commented on issue HswOAuth/llm_course#430 2024-12-20 20:08:58 +08:00
【求助贴】目前搭建了一个 元数据RAG向量库,但是只对word纯文本做了转向量处理,现在想对表格内容做处理,要如何处理合适嘞,后续也会处理pdf数据,

可以使用功能langchain作为基本方案,使用Unstructured处理图像文档,使用CSVLoader处理表格数据。可以参考langchain的官方文档https://python.langchain.com/v0.1/docs

12019701659cs commented on issue HswOAuth/llm_course#429 2024-12-20 16:39:37 +08:00
【求助】视觉,图像处理,图像分割,将多余的颜色清理

可以看看这几种方法

  1. OpenCV的GrabCut
  2. Photoshop手动除去下。
  3. U-Net,不过可能需要训练。
  4. CarveKit
12019701659cs commented on issue HswOAuth/llm_course#428 2024-12-20 16:25:04 +08:00
怎么把自家的知识转变成可以调用的格式?

先分析下json的结构,将回答和知识文档和json中的字段进行一一对应(不对应的可以稍微改动下),然后将数据做下转换就行,具体可以参考下python转…

12019701659cs commented on issue HswOAuth/llm_course#418 2024-12-09 21:42:30 +08:00
有关xinference

图片的方式应该是推理已经部署的模型,如果你说的是命令行部署,可以参考:

  1. https://inference.readthedocs.io/zh-cn/latest/models/custom.html
  2. https://blog.csdn.…
12019701659cs commented on issue HswOAuth/llm_course#411 2024-12-05 20:16:28 +08:00
求助:我们需要在数据湖中实现数据的智能分类分级与智能打标等功能。具体需求包括自动识别数据字段及其内容,并进行分类、分级和打标以及数据的隐私访问。

可以参考下,不绝对。

  1. 实现该功能需要用到哪些技术? (1)自然语言处理(NLP)和文本分析技术:文本分类、实体识别、正则表达式之类的。 …
12019701659cs commented on issue HswOAuth/llm_course#410 2024-12-03 19:35:09 +08:00
【求助贴】有关llm方向的常见算法有哪些

算法类型:基础机器学习与深度学习算法、Transformer架构相关算法、预训练与微调算法、生成模型算法、优化与加速算法、文本生成与理解的任务相关…

12019701659cs commented on issue HswOAuth/llm_course#404 2024-11-28 18:44:11 +08:00
求助大模型在数据分类分级场景中如何实现智能分类分级?或者有什么好的实现思路吗?

可以考虑下这两个:

  1. 文本分类与分级:使用BERT等预训练模型对文本进行微调,首先进行粗略分类(如健康、科技、娱乐),然后针对每个类别进…
12019701659cs commented on issue HswOAuth/llm_course#400 2024-11-27 23:47:33 +08:00
FastGPT使用

都需要考虑下隐私问题、数据保密问题。 前期(使用 FastGPT 等外部 API)

  1. 可能需要考虑如何保障业务连续性,比如说网络延迟及服务稳定性问题。…
12019701659cs commented on issue HswOAuth/llm_course#383 2024-11-19 16:41:03 +08:00
FASTGPT 的 结果重排一直不生效

那节课应该不涉及这个内容,这个问题可以参考下:https://github.com/labring/FastGPT/issues/2881 <img width="1010" alt="image" src="/attachments/cca048fa-76c7-4470-b730-290095fc…

12019701659cs commented on issue HswOAuth/llm_course#383 2024-11-18 20:45:00 +08:00
FASTGPT 的 结果重排一直不生效
  1. 是哪节课程的问题?2. 脚本是什么? 3. 也提供下问题截图。
12019701659cs commented on issue HswOAuth/llm_course#380 2024-11-18 14:14:03 +08:00
【求助帖】prompt微调-xinference部署时报错

你可以进入xinference镜像看下/home目录下面有没有code-llama-sql模型,没有就手动把模型目录放到xinference镜像的/home下面,xinference镜像的/home是本地的根目录