logo

云藏搜索引擎藏文信息处理数据标注

作者:才让本 来源:青海湖网 时间:2025-05-08 10:21:46 点击数:
云藏搜索引擎藏文信息处理数据标注
                    入选第八届数字中国建设峰会数据标注优秀案例

  4月29日,第八届数字中国建设峰会“高质量数据集和数据标注主题交流活动”在福建省福州市举办,活动集中发布了全国47个数据标注优秀案例集名单,其中,由青海省数据局推荐的《云藏搜索引擎藏文信息处理数据标注》上榜优秀案例。
  数据标注,是人工智能产业发展的先决条件。通过给文本、语音、图片、视频等各种各样的数据“打标签”,形成高质量的数据集,让机器“读得懂、学得快、训得好”。作为国内互联网藏文信息的主要来源和资源共享中心,“云藏”团队针对藏文信息处理面临语言结构复杂、标注标准缺失、数字化资源不足等问题,通过系统化数据标注技术,构建高质量藏文语料库,赋能藏文信息化行业,推动藏文自然语言处理技术的进步和实用化,促进地区信息化建设和数字经济的发展,也为藏文化的保护和传承提供了重要支持。
  云藏搜索引擎藏文信息处理数据标注案例,在建立标准化标注体系、开发智能标注工具、构建开放协作生态、培养专业人才梯队、优化全流程管理方面取得了显著成效。协同业内专家,充分参与《信息处理用藏文分词规范》和《信息处理用藏语词类标记集》两项国家标准的制定,覆盖分词、词性、语义等维度;利用高质量人工分词标注语料基于机器学习研发藏文自动分词标注系统,分词准确率达95%以上,搜索准确率提升至97%,案例获青海省科技进步三等奖,获批青海省藏文信息技术科研科普基地;构建开放的数据标注平台,吸引13万实名用户参与,贡献10%的标注数据;联合高校开展藏文信息处理培训,柔性引进高端人才5人,支持11名从业人员攻读博士学位,缓解行业人才短缺问题;采用模块化设计,实现数据采集、标注、审核全流程数字化。
相关推荐