求助:我们需要在数据湖中实现数据的智能分类分级与智能打标等功能。具体需求包括自动识别数据字段及其内容,并进行分类、分级和打标以及数据的隐私访问。 #411
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#411
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
求助:我们需要在数据湖中实现数据的智能分类分级与智能打标等功能。具体需求包括自动识别数据字段及其内容,并进行分类、分级和打标以及数据的隐私访问。
已有类似产品的流程大致如下:首先定义一个分类分级模板,然后结合AI算法、应用算法、正则算法等,提取字段及其内容的特定信息,最后对数据湖中的字段进行智能分类分级和智能打标,最后支持数据分类分级后的隐私访问等。
我们也希望实现类似功能,
请问:
1、实现该功能需要用到哪些技术?

2、具体的实现思路、其实现的细节和技术路径是怎样的?
(之前有提问过,可能表诉的不太清晰,具体的需求如上面所述,麻烦指点一下,越详细越好,谢谢!)
可以参考下,不绝对。
(1)自然语言处理(NLP)和文本分析技术:文本分类、实体识别、正则表达式之类的。
(2)机器学习和深度学习:监督学习训练分类模型,自动标注数据的类别。
(3)建立规则引擎:正则表达式和模式匹配,根据预定义的规则对数据进行进一步处理。
(4)数据湖和大数据存储:分布式存储系统(比如Hadoop、Amazon S3、Google Cloud Storage)、数据治理平台(比如Apache Atlas、AWS Glue)。
(5)数据隐私与安全:数据加密技术(如AES、SSL/TLS)保护数据的隐私;对敏感数据进行“差分隐私”处理。
(1)定义分类分级模板:根据业务需求,设计数据的分类和分级模板。
(2)数据预处理与清洗:对不同来源的原始数据进行统一格式化;使用正则表达式或机器学习算法自动识别数据中的字段并提取关键内容。
(3)数据智能分类与分级:
● 基于AI的分类模型训练:可以使用预定义的标签训练分类模型(如BERT、LSTM等),根据数据内容将数据归类。
● 应用算法:结合规则引擎和机器学习模型,对数据进行进一步的分类和分级。
(4)数据打标:在数据分类和分级后,使用智能打标技术为每条数据打上标签。
(5)隐私保护和访问控制:通过加密技术确保敏感数据的隐私性。对不同类别的数据设置访问权限,确保只有授权用户能够访问高敏感级别的数据。
(6)自动化和监控:通过构建数据处理流水线,实现数据自动分类、分级、打标和隐私保护等操作;以及监控数据处理流程和访问控制日志。