对于垂直领域内的大模型微调,数据来源于各大网站爬取的数据,如何处理大规模数据集 #317

Open
opened 2024-10-29 10:09:53 +08:00 by 11578866110cs · 1 comment
No description provided.

具体是哪种领域的数据集呢?网站爬取的数据集也有很多,比如声音、图像,甚至一些文本形式的表格;各种数据的处理方式都是不同的,都有各自不同的处理算法。到具体应用的时候还要根据不同的应用场景去写算法对数据进行处理,很多时候还需要专业的人士手动进行标注。比如luna16数据集luna16,就是由多位资深的医生来对医疗数据集进行手动标注,然后还要对数据进行一系列的处理。

具体是哪种领域的数据集呢?网站爬取的数据集也有很多,比如声音、图像,甚至一些文本形式的表格;各种数据的处理方式都是不同的,都有各自不同的处理算法。到具体应用的时候还要根据不同的应用场景去写算法对数据进行处理,很多时候还需要专业的人士手动进行标注。比如luna16数据集[luna16](https://arxiv.org/abs/1612.08012),就是由多位资深的医生来对医疗数据集进行手动标注,然后还要对数据进行一系列的处理。
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#317
No description provided.