多拉:古老藏语借AI出圈,民族智能科技结硕果
作者:
来源:青海科技报
时间:2026-05-20 08:30:01
点击数:
“我肠胃不舒服,饮食上需要注意什么?”“请讲述格萨尔王的故事。”用户发出指令,手机即刻生成对应内容,同步完成汉语、藏语与英语互译,全程仅需数秒,响应精准流畅。这便是近期备受关注的智达藏语大模型。凭借高效的响应速度、强大的多语言处理能力,智达为用户带来便捷精准的跨语言交互体验。
这款于4月22日在北京正式发布的智能产品,上线不到一个月时间,用户量突破3万人,人机互动量超1000万次,被业内称作藏文版“豆包”。而在产品火热出圈之际,其研发带头人——青海师范大学藏语智能全国重点实验室常务副主任多拉教授,已带领团队规划新的工作任务:“我们计划完成121个藏语次方言全覆盖,全力实现全藏区语言数字化。”对藏语智能化的未来,多拉充满信心。
这款于4月22日在北京正式发布的智能产品,上线不到一个月时间,用户量突破3万人,人机互动量超1000万次,被业内称作藏文版“豆包”。而在产品火热出圈之际,其研发带头人——青海师范大学藏语智能全国重点实验室常务副主任多拉教授,已带领团队规划新的工作任务:“我们计划完成121个藏语次方言全覆盖,全力实现全藏区语言数字化。”对藏语智能化的未来,多拉充满信心。
初心如磐,扛起藏语智能研发重任
作为青海本土培养的首位长江学者特聘教授,多拉大半辈子在计算语言学与藏文信息处理领域摸爬滚打。2022年,怀揣服务家乡、助力青海民族数字科技发展的初心,他通过“昆仑英才”杰出人才引进计划加盟青海师范大学,扛起省部共建藏语智能国家重点实验室的建设重任。

该实验室以服务国家战略为导向,聚焦破解藏语智能化发展中数据稀缺、算力不足、专业人才匮乏等短板,专注研发藏语大模型及系列智能应用产品,以科技创新赋能涉藏地区高质量发展。
创业之初,实验室仅有8名科研人员,科研设备短缺、基础条件薄弱。藏语属于典型小语种,方言体系繁杂、口语差异大、书写系统特殊,语料储备不足、识别难度极高,国内尚无成熟技术可借鉴,藏语人工智能研发近乎一片空白。
“藏语包含安多、康巴、卫藏三大方言,还有上百种次方言与地方土语,是全球小语种AI研发最难攻克的领域之一。因工程量浩大,国内鲜有机构愿意涉足藏语大模型研发。”多拉坦言,团队人员紧张、科研经费有限,却要覆盖基础研究、标准研制、数据构建、算法设计、模型训练、成果转化等全链条工作,攻坚难度不言而喻。
面对重重挑战,多拉迎难而上。针对专业人才短缺的难题,他依托省内唯一的计算机科学与技术博士点,自主培育人工智能领域专业人才,带领实验室科研团队从零起步,开启藏语人工智能领域的艰苦攻坚之路。
创业之初,实验室仅有8名科研人员,科研设备短缺、基础条件薄弱。藏语属于典型小语种,方言体系繁杂、口语差异大、书写系统特殊,语料储备不足、识别难度极高,国内尚无成熟技术可借鉴,藏语人工智能研发近乎一片空白。
“藏语包含安多、康巴、卫藏三大方言,还有上百种次方言与地方土语,是全球小语种AI研发最难攻克的领域之一。因工程量浩大,国内鲜有机构愿意涉足藏语大模型研发。”多拉坦言,团队人员紧张、科研经费有限,却要覆盖基础研究、标准研制、数据构建、算法设计、模型训练、成果转化等全链条工作,攻坚难度不言而喻。
面对重重挑战,多拉迎难而上。针对专业人才短缺的难题,他依托省内唯一的计算机科学与技术博士点,自主培育人工智能领域专业人才,带领实验室科研团队从零起步,开启藏语人工智能领域的艰苦攻坚之路。
攻坚克难,突破核心技术瓶颈
高质量语料是大模型研发的核心根基。为补齐藏语语料短板,2023年7月,多拉将团队分为四组,奔赴青海六个自治州及甘肃甘南、四川阿坝、甘孜等藏区一线实地调研,采集方言语音、地方文献、县域史料;同时合规梳理网络公开语料,规避知识产权风险。历时一年半,团队建成规模达2万小时的藏语语音语料库,藏语口语识别准确率突破92%。

“单500小时语音,就需要47万个句子来支撑,高峰时期有97名数据标注人员同步开展语音标注工作。”多拉介绍,团队前两年的核心工作,就是夯实藏语智能大模型的数据底座。
2024年9月,智达藏语大模型进入核心研发阶段。面对人员紧缺、任务繁重、技术路径复杂的多重压力,多拉身兼科研、教学、管理多重职责:白天授课育人、统筹实验室日常运行,夜晚伏案钻研技术,常年无休、加班攻坚,成为实验室最忙碌的人。他带领团队聚焦藏语语音转写、语音合成、多语种翻译、OCR文字识别、AI人机交互等五大核心技术,逐个破解技术壁垒。
“在这些技术中,机器翻译的语种从2种拓展至20多种,翻译领域扩至新闻、法律、文献、古籍、文学、医疗、教育、农牧等 14 个,翻译准确率超94%;在OCR 文字识别技术中,攻克汉藏英混合场景、混合图表、复杂版面的文字等识别难题,进一步完善了藏语智能数据体系。”多拉说。
2024年9月,智达藏语大模型进入核心研发阶段。面对人员紧缺、任务繁重、技术路径复杂的多重压力,多拉身兼科研、教学、管理多重职责:白天授课育人、统筹实验室日常运行,夜晚伏案钻研技术,常年无休、加班攻坚,成为实验室最忙碌的人。他带领团队聚焦藏语语音转写、语音合成、多语种翻译、OCR文字识别、AI人机交互等五大核心技术,逐个破解技术壁垒。
“在这些技术中,机器翻译的语种从2种拓展至20多种,翻译领域扩至新闻、法律、文献、古籍、文学、医疗、教育、农牧等 14 个,翻译准确率超94%;在OCR 文字识别技术中,攻克汉藏英混合场景、混合图表、复杂版面的文字等识别难题,进一步完善了藏语智能数据体系。”多拉说。
成果落地,打造青海首个国家级备案大模型
历经数百个日夜的潜心打磨,2026年2月,智达藏语大模型顺利通过国家网信生成式AI产品备案,成为青海省首个国家备案大模型产品。该产品实现藏语“听、说、读、写、译”多模态智能处理,基于大模型底座,适配了安多、卫藏、康巴三大方言识别,开发了多语混排文档识别、语音翻译、文字翻译、古籍检索、有声听书及藏语数字人播报与字幕转写软件应用矩阵。
“智达采用国产自主技术架构,打通文字、语音、图像多模态交互壁垒,搭建“1+8”全场景产品矩阵,构建了体系化、集群化的智能服务体系。产品贴合牧区群众使用习惯,实现无障碍人机交互,让前沿人工智能技术落地民生,真正做到群众能用、好用、常用。”多拉介绍,系统还深度赋能智慧藏医、数字播报、农牧业与文旅发展等,以数字技术激活地方产业活力。
“智达采用国产自主技术架构,打通文字、语音、图像多模态交互壁垒,搭建“1+8”全场景产品矩阵,构建了体系化、集群化的智能服务体系。产品贴合牧区群众使用习惯,实现无障碍人机交互,让前沿人工智能技术落地民生,真正做到群众能用、好用、常用。”多拉介绍,系统还深度赋能智慧藏医、数字播报、农牧业与文旅发展等,以数字技术激活地方产业活力。

从8人的初创团队,到如今22人的专业科研队伍;从藏语信息化基础薄弱,到建成全国领先的藏语智能实验室;从零散技术突破,到打造完整藏语AI产品应用体系,多拉用4年时间完成了藏语人工智能从0到1的跨越。
多维赋能,推动藏文化走向世界
藏语作为低资源民族语言,信息化、智能化处理长期面临理论方法缺失、技术探索滞后、数据资源匮乏等难题,是制约民族语言数字化发展的核心瓶颈。近年来,多拉潜心钻研,聚焦藏文智能处理领域,攻克一道道技术难关,取得一系列原创性科研成果。他牵头推进民族语言资源建设与标准化工作,主导制定《信息处理用藏文分词规范》《信息处理用藏语词类标记集》等5项国家标准,填补藏文信息处理无统一规范的空白,为全国少数民族语言数字化标准化建设提供重要范本。
他牵头实施藏文典籍数字化保护工程,聚焦藏医药古籍、历史文献等珍贵文化遗产,攻克古籍数字化整理、智能检索、深度解析及机器翻译等关键技术,搭建大规模藏文文献数字资源库,让千年古籍实现永久保存、高效利用,以科技守护民族文脉。
此外,多拉作为技术主导研发的“云藏”搜索引擎,打造了国内权威藏文信息综合服务平台,服务全球90多个国家和地区的用户,被誉为藏文版“百度”,让古老璀璨的藏文化搭乘数字科技的快车,走向世界舞台。
他牵头实施藏文典籍数字化保护工程,聚焦藏医药古籍、历史文献等珍贵文化遗产,攻克古籍数字化整理、智能检索、深度解析及机器翻译等关键技术,搭建大规模藏文文献数字资源库,让千年古籍实现永久保存、高效利用,以科技守护民族文脉。
此外,多拉作为技术主导研发的“云藏”搜索引擎,打造了国内权威藏文信息综合服务平台,服务全球90多个国家和地区的用户,被誉为藏文版“百度”,让古老璀璨的藏文化搭乘数字科技的快车,走向世界舞台。

凭借突出的科研贡献与行业影响力,多拉还先后入选国家“百千万人才工程”国家级人选、教育部新世纪优秀人才、国家民委领军人才,享受国务院政府特殊津贴,荣获“有突出贡献中青年专家”“2026年度青海省最美科技工作者”等多项荣誉。
多拉的脚步还在继续。“未来,藏语智能科技的持续迭代升级、古老藏语在数字时代的传承新生,还有很多课题等着我们深耕笃行。”他说。
多拉的脚步还在继续。“未来,藏语智能科技的持续迭代升级、古老藏语在数字时代的传承新生,还有很多课题等着我们深耕笃行。”他说。
相关推荐
