海南州藏语委集中力量开展藏文信息技术研究工作
勇于担当历史使命
近年来,青海省海南藏族自治州藏语文工作委员会办公室在州委、州政府的正确领导下,创新工作思路,积极拓展业务工作,以认真贯彻落实党和国家关于民族语文相关政策法规为己任,开展了一系列关于藏文信息化方面的诸多工作。2007年创办了青海湖藏、汉文网,2009年国内最大的藏文博客——青海湖藏文博客开通,它们的成功运营不仅对藏语文纳入网络信息时代,融入世界先进文字行列起到了举足轻重的作用,而且对藏语文的使用和发展起到了积极的推动作用。在此基础上,2012年海南州藏语委办不负众望,自觉担当起了一项利在当代,功在千秋的大工程——藏文大型智能化集成云计算平台研究与建设项目。
藏文分词系统研究
藏文大型智能化集成云计算平台是一个集搜索引擎、藏文全文文献搜索系统、藏文百科自动问答系统为一体的大型藏文门户系统工程,旨在使藏文全方位融入互联网世界,云计算服务与云资源建设并举,让藏文网民更便捷的获得信息,找到所求。
该项目需投资近5000万元,具体由海南州藏语委办下设部门海南州藏文信息技术研究中心实施,为了配合该项目的顺利立项,以及后续的产业衍生将原有的青海湖网络信息中心更名为海南州藏文信息技术研究中心,这一举措体现了该办将其工作重心除汉藏文翻译、藏文古籍整理,网站建设逐步转入藏文信息技术研究领域,利用现有资源,创造具有历史意义、时代价值的藏文信息资源,充分发挥人才、技术、资金等方面的优势,实实在在地为广大藏文使用者提供优质、前沿的网络信息服务资源。
藏文分词系统研究
藏文是世界最古老的文字之一,用藏文书写的文献卷帙浩繁,为记录和传承灿烂的藏族文化作出了重要的贡献。现在藏文仍是藏民族最基本的交际工具。但是藏文信息化的发展脚步比较缓慢,主要原因就是藏文信息化发展过程中技术能力和藏文驾驭能力之间的不统一,也就是藏文计算语言学的发展还处在比较低级的阶段,所谓计算语言学是指,通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。电子计算机问世不久,人们便考虑到它的非数值运算问题,并选中机器翻译作为第一个非数值运算的课题。这个选择可以说开辟了计算机非数值应用无比广阔的领域,许多语言学理论和方法以及许多技术成果都是在它的基础上或启发下产生和解决的。例如,文字的输入输出设备、大存储装置、言语识别和文字识别等课题均在机器翻译研究初期便已提出。但是由于机器翻译是一种比较高级的人工智能,至今尚未到达正确无误的地步,只能作为人工翻译的参考和掌握大意为目的。
藏文分词系统研究
从事藏文信息技术研究的工作团队首先需要具备深厚的藏语文功底,其次要有扎实、前沿的计算机网络知识,这两个方面缺一不可。而目前的海南州藏语委办就恰巧有了这样的基础条件,专门的藏语文从业单位,有着青海湖网创始人才洛这样英明果断、远见卓识、赋有魄力的领导,有着5年建设维护多家藏汉网站的丰富工作经验的专业技术人员,以及更重要的是深得当地党委政府的信任和扶持,又顺应藏文信息化发展的需要和利于民族地区社会稳定、民族文化繁荣发展美好趋势的要求,藏文大型智能化集成云计算平台研究与建设项目在历经4个多月的周密策划、多方联系和积极争取下得以顺利立项,其中的坎坷和不易,以及正在和将要经历的困难和漫长繁忙复杂的工作在其创造出的巨大社会价值面前显得微不足道,能为藏文信息化的发展助推一份力量是海南州藏语委办的莫大荣幸。
[FS:PAGE]
更新知识 与时俱进
海南州藏语委办主任才洛同志时常要求全体工作人员在工作中一定要有创新意识,这是他对员工的首要要求,也是该办近几年的工作风格,时常的突破自我不是一件容易的事情,但是在他的领导下海南州藏语委办可以说每年都在进步,每年都在改变,每年都在突破,从创建青海湖藏汉文网站,到出版《海南州地名文化释义》一书,再到藏文大型智能化集成云计算平台研究与建设项目的策划、争取、实施,都凝聚着他的心血和他不懈努力,勤于学习,以及团结集体的力量,心系民族文化事业的良苦用心。他的正确领导和与时俱进的工作态度促成了单位,乃至整个行业的积极发展,可以说是涉藏IT业的领头羊。海南州藏语委办十分注重对新知识的学习,工作人员纷纷自我加压,业余时间加强自学,并且单位鼓励个人参加长短期培训或者下基层锻炼,以及在单位内部经常性的召开专题研讨会或者邀请各类专家举办小型讲座等。为了提高工作效率,提升专业技能水平,近期又邀请了藏文信息化领域有研究的一些专家学者,向海南州藏文信息技术研究中心工作人员讲授了有关藏文信息化建设方面的一系列专业知识。
海南州藏语委办才洛主任
海南州藏语委办虽然做网站已有5年了,但是实施如此大型的项目在海南州藏语委办的历史上还是头一回,对于任何细节都不敢掉以轻心,尤其对于项目的整体了解是实施该项目的首要任务。所以研究中心全体工作人员认真听取了专家教授的讲解,了解到了这一行业目前的发展现状、今后工作的重点和难点,从中体会到实施这一项目任重而道远。
邀请西北民大多拉教授为研究中心全体人员开展专题讲座
目前国内外藏文网站不超过200余家,对于藏文搜索引擎语料库的建设来说数据不算多,而藏文全文文献搜索系统的建设,就需要将大量的藏文经典书籍自行输入或者向全社会征集已打字整理的藏文经典电子版,更重要的是需要对这些数以万计的文献逐一进行摘要撰写和计算机可识别符号的标注。在这些工作基础上技术层面需要攻破计算机识别藏文这一任务,也就是如何让计算机根据关键字自动给出相匹配的结果,关键和难点就是藏文词语进行自动切分和词汇属性的正确标注。其工作量之大,程序之繁琐,耗费时间之长是无法想象的,需要参与其中的所有人员付出相当的耐心和精力,还要有不断进取,善于钻研的工作态度。
汇聚精英 整装待发
目前,该项目已列入青海三江源国家生态保护综合试验区社会发展规划中,正在进行前期的规划工作。值得欣慰的是,海南州藏语委办建设藏文大型智能化集成云计算平台项目这一消息一经传出,得到了社会各界的关注,更是引起了业内人士的赞誉和支持,以及广大网友的热切期盼。藏语委团队的领导层积极于关心和支持这一项目的单位和个人进行意见交流,并为了更好更快地实施该项目,邀请了西北民族大学教授、藏文信息处理硕士生导师多拉博士;北京大学计算语言学研究所所长、博士生导师、中国文信息学会常务理事王厚锋博士;中国科技大学教授、硕士生导师、托尔思公司特聘研究员吕学强博士;中国标准化院基础标准化研究所所长、研究员陈玉忠博士;西藏大学藏文信息处理工程中心副教授扎西加;西北民族大学现代教育技术学院副院长、副教授、硕士生导师赵颖博士;青海师范大学藏文智能信息处理与机器翻译省级重点实验室主任才让加教授;青海省民宗委研究中心主任、少数族古籍办副主任、副译审、藏语言文学(语言学)硕士完玛冷智等多名国内自然语言处理和藏文信息化方面的专家学者参与并指导该项目的顺利实施。
据专家们预计,该项目按照规划将在五年内无论从人员到设备,再到技术研发等各个环节都要逐一踏上正规,力争在十年内投入使用。