多拉：古老藏语借AI出圈，民族智能科技结硕果

作者：来源：青海科技报时间：2026-05-20 08:30:01 点击数：

　　“我肠胃不舒服，饮食上需要注意什么？”“请讲述格萨尔王的故事。”用户发出指令，手机即刻生成对应内容，同步完成汉语、藏语与英语互译，全程仅需数秒，响应精准流畅。这便是近期备受关注的智达藏语大模型。凭借高效的响应速度、强大的多语言处理能力，智达为用户带来便捷精准的跨语言交互体验。
　　这款于4月22日在北京正式发布的智能产品，上线不到一个月时间，用户量突破3万人，人机互动量超1000万次，被业内称作藏文版“豆包”。而在产品火热出圈之际，其研发带头人——青海师范大学藏语智能全国重点实验室常务副主任多拉教授，已带领团队规划新的工作任务：“我们计划完成121个藏语次方言全覆盖，全力实现全藏区语言数字化。”对藏语智能化的未来，多拉充满信心。

初心如磐，扛起藏语智能研发重任

　　作为青海本土培养的首位长江学者特聘教授，多拉大半辈子在计算语言学与藏文信息处理领域摸爬滚打。2022年，怀揣服务家乡、助力青海民族数字科技发展的初心，他通过“昆仑英才”杰出人才引进计划加盟青海师范大学，扛起省部共建藏语智能国家重点实验室的建设重任。

　　该实验室以服务国家战略为导向，聚焦破解藏语智能化发展中数据稀缺、算力不足、专业人才匮乏等短板，专注研发藏语大模型及系列智能应用产品，以科技创新赋能涉藏地区高质量发展。
　　创业之初，实验室仅有8名科研人员，科研设备短缺、基础条件薄弱。藏语属于典型小语种，方言体系繁杂、口语差异大、书写系统特殊，语料储备不足、识别难度极高，国内尚无成熟技术可借鉴，藏语人工智能研发近乎一片空白。
　　“藏语包含安多、康巴、卫藏三大方言，还有上百种次方言与地方土语，是全球小语种AI研发最难攻克的领域之一。因工程量浩大，国内鲜有机构愿意涉足藏语大模型研发。”多拉坦言，团队人员紧张、科研经费有限，却要覆盖基础研究、标准研制、数据构建、算法设计、模型训练、成果转化等全链条工作，攻坚难度不言而喻。
　　面对重重挑战，多拉迎难而上。针对专业人才短缺的难题，他依托省内唯一的计算机科学与技术博士点，自主培育人工智能领域专业人才，带领实验室科研团队从零起步，开启藏语人工智能领域的艰苦攻坚之路。

攻坚克难，突破核心技术瓶颈

　　高质量语料是大模型研发的核心根基。为补齐藏语语料短板，2023年7月，多拉将团队分为四组，奔赴青海六个自治州及甘肃甘南、四川阿坝、甘孜等藏区一线实地调研，采集方言语音、地方文献、县域史料；同时合规梳理网络公开语料，规避知识产权风险。历时一年半，团队建成规模达2万小时的藏语语音语料库，藏语口语识别准确率突破92%。

　　“单500小时语音，就需要47万个句子来支撑，高峰时期有97名数据标注人员同步开展语音标注工作。”多拉介绍，团队前两年的核心工作，就是夯实藏语智能大模型的数据底座。
　　2024年9月，智达藏语大模型进入核心研发阶段。面对人员紧缺、任务繁重、技术路径复杂的多重压力，多拉身兼科研、教学、管理多重职责：白天授课育人、统筹实验室日常运行，夜晚伏案钻研技术，常年无休、加班攻坚，成为实验室最忙碌的人。他带领团队聚焦藏语语音转写、语音合成、多语种翻译、OCR文字识别、AI人机交互等五大核心技术，逐个破解技术壁垒。
　　“在这些技术中，机器翻译的语种从2种拓展至20多种，翻译领域扩至新闻、法律、文献、古籍、文学、医疗、教育、农牧等 14 个，翻译准确率超94%；在OCR 文字识别技术中，攻克汉藏英混合场景、混合图表、复杂版面的文字等识别难题，进一步完善了藏语智能数据体系。”多拉说。

成果落地，打造青海首个国家级备案大模型

　　历经数百个日夜的潜心打磨，2026年2月，智达藏语大模型顺利通过国家网信生成式AI产品备案，成为青海省首个国家备案大模型产品。该产品实现藏语“听、说、读、写、译”多模态智能处理，基于大模型底座，适配了安多、卫藏、康巴三大方言识别，开发了多语混排文档识别、语音翻译、文字翻译、古籍检索、有声听书及藏语数字人播报与字幕转写软件应用矩阵。
　　“智达采用国产自主技术架构，打通文字、语音、图像多模态交互壁垒，搭建“1+8”全场景产品矩阵，构建了体系化、集群化的智能服务体系。产品贴合牧区群众使用习惯，实现无障碍人机交互，让前沿人工智能技术落地民生，真正做到群众能用、好用、常用。”多拉介绍，系统还深度赋能智慧藏医、数字播报、农牧业与文旅发展等，以数字技术激活地方产业活力。

　　从8人的初创团队，到如今22人的专业科研队伍；从藏语信息化基础薄弱，到建成全国领先的藏语智能实验室；从零散技术突破，到打造完整藏语AI产品应用体系，多拉用4年时间完成了藏语人工智能从0到1的跨越。

多维赋能，推动藏文化走向世界

　　藏语作为低资源民族语言，信息化、智能化处理长期面临理论方法缺失、技术探索滞后、数据资源匮乏等难题，是制约民族语言数字化发展的核心瓶颈。近年来，多拉潜心钻研，聚焦藏文智能处理领域，攻克一道道技术难关，取得一系列原创性科研成果。他牵头推进民族语言资源建设与标准化工作，主导制定《信息处理用藏文分词规范》《信息处理用藏语词类标记集》等5项国家标准，填补藏文信息处理无统一规范的空白，为全国少数民族语言数字化标准化建设提供重要范本。
　　他牵头实施藏文典籍数字化保护工程，聚焦藏医药古籍、历史文献等珍贵文化遗产，攻克古籍数字化整理、智能检索、深度解析及机器翻译等关键技术，搭建大规模藏文文献数字资源库，让千年古籍实现永久保存、高效利用，以科技守护民族文脉。
　　此外，多拉作为技术主导研发的“云藏”搜索引擎，打造了国内权威藏文信息综合服务平台，服务全球90多个国家和地区的用户，被誉为藏文版“百度”，让古老璀璨的藏文化搭乘数字科技的快车，走向世界舞台。

　　凭借突出的科研贡献与行业影响力，多拉还先后入选国家“百千万人才工程”国家级人选、教育部新世纪优秀人才、国家民委领军人才，享受国务院政府特殊津贴，荣获“有突出贡献中青年专家”“2026年度青海省最美科技工作者”等多项荣誉。
　　多拉的脚步还在继续。“未来，藏语智能科技的持续迭代升级、古老藏语在数字时代的传承新生，还有很多课题等着我们深耕笃行。”他说。

动态

专题

教育

文学

历史

宗教

人物

藏医药

格萨尔

藏语文

民俗

旅游

生态

经济

视频

图片站

多拉：古老藏语借AI出圈，民族智能科技结硕果