波多野结衣家庭教师在线播放_熟妇人妻无乱码中文字幕真矢织江_波多野结衣50连登视频_www.av91_亚洲第一中文av_91成人综合网_日韩无套无码精品_日韩欧美猛交xxxxx无码_男人天堂a在线_www.好吊操_日韩伦理在线免费观看_男人的天堂狠狠干

用戶登錄投稿

中國作家協(xié)會主管

學界公認甲骨文有4500多個單字,迄今已破譯近1500字,剩下3000多字都較難釋讀 破譯甲骨文,AI準備好了嗎
來源:文匯報 | 沈竹士  2024年07月25日08:22

7月5日,上海,2024世界人工智能大會。安陽師范學院團隊宣布全球首個甲骨文多模態(tài)數(shù)據(jù)集正式開源。所謂多模態(tài),是指包含一萬片甲骨拓片、摹本,以及甲骨文單字對應位置、對應字頭、對應隸定字以及辭例分組、釋讀順序等數(shù)據(jù)。研究人員可基于該數(shù)據(jù)集開發(fā)甲骨文檢測、識別、摹本生成、字形匹配以及釋讀等方向的智能算法。

近年來,安陽師范學院甲骨文信息處理教育部重點實驗室利用計算機綴合甲骨碎片圖像70余組,位列全國第一。其中一組綴合后形成了新的連貫文辭,如果釋讀無誤的話,這句話可能記錄了公元前1900多年的一次日偏食天象。這引起人們的極大關注。

最近二十年,甲骨文破譯逐漸進入瓶頸期。為此,在政府相關部門推動下,多所高校研究團隊致力于探索人工智能(AI)輔助研究甲骨文的技術。國內(nèi)互聯(lián)網(wǎng)巨頭和科技公司紛紛入局,與學術界開展跨學科合作。人工智能的應用為甲骨文研究提供了新的思路。玄幻的殷商甲骨文與科幻的人工智能碰撞,這是屬于中華文化獨有的浪漫。

AI需要一個怎樣的甲骨文數(shù)據(jù)庫

投喂給人工智能的標準化、多模態(tài)數(shù)據(jù)集,起點是二十年前一位數(shù)學老師開發(fā)的輸入法。

1991年,安陽殷墟花園莊東地H3坑內(nèi)出土甲骨1583片,這是殷墟甲骨發(fā)掘史上第三次重大發(fā)現(xiàn)。彼時,從河南師范大學數(shù)學系畢業(yè)的劉永革分配到安陽師范專科學校(安陽師范學院前身)任教才第三年。在職業(yè)生涯的前十年里,他與甲骨文研究并無交集。

上世紀90年代末,安陽師專安排青年教師進修考研。劉永革等十人來到西安,目標是考上西北工業(yè)大學計算機工程學院。當時個人微型計算機剛剛興起,進機房之前需要穿鞋套以防靜電。劉永革是數(shù)學專業(yè)出身,考試有四門課,其中三門以前沒學過,他便去書店買來專業(yè)書籍現(xiàn)學。有同學新買了一臺照相機,招呼大家去秦始皇陵兵馬俑坑參觀游覽,開玩笑說:“劉永革,別復習了,你陪我去,你肯定考不上嘛。”劉永革應該沒去看兵馬俑——他在2000年獲得計算機軟件與理論碩士學位,方向是數(shù)據(jù)庫應用。

21世紀初,安陽師院有一批從事甲骨文研究的中青年學者,包括李雪山、韓江蘇等,他們都曾在上世紀80年代“殷商文化研究班”受業(yè)于甲骨文專家胡厚宣。寫論文要引用甲骨文,甲骨文怎么輸入電腦?雖然有一種甲骨文編碼輸入法,但是學習成本很高,就像五筆字型輸入法一樣,需要背誦一整套編碼。老師們找到已在計算機科學系任教的劉永革,希望他開發(fā)一種完全不同以往的新的輸入法。首先,用軟件描摹甲骨文字,將描出的圖形矢量化,制成字體庫。再根據(jù)日本學者島邦男的甲骨文部首自然分類法設計檢索體系。用Visual C++編寫動態(tài)數(shù)據(jù)交換程序。使用時,呈現(xiàn)甲骨文常用部首的圖形界面,只需鼠標點選檢索,再點選需要的文字即可,不用背碼。對于文字數(shù)量不多的甲骨文來說,這種輸入法是非常合適的。

涉及甲骨文研究,不僅要輸入單字,還要能輸入整句、要找出前人的釋讀成果進行對照,最好配上甲骨拓片或摹本的原圖。圈內(nèi)學者常開玩笑說,其他學科閱讀資料可以用文本文檔或者word文檔,甲骨文研究只能看PDF文件——用它才能瀏覽清晰的拓片圖像。歷史與文博學院的韓江蘇教授意識到,甲骨文研究需要一個字、圖、文資料一體化、便于檢索的數(shù)據(jù)庫。“甲骨文圖文資料庫”2004年成功申請國家社科基金,甲骨文輸入法的成功經(jīng)驗在焉,劉永革很自然地加入了課題組。好好一個計算機專業(yè)老師,毅然跨界投身甲骨文的世界。他帶領計算機系的年輕人從頭學習甲骨文,為課題組增添新鮮血液。至結(jié)項驗收時,收錄數(shù)十種權(quán)威研究文獻的精華和7萬多張甲骨拓片。

郭青萍是安陽師院中文系教授,退休后自學甲骨文并從事甲骨文篆刻。一次,他請劉永革幫忙檢索幾個現(xiàn)代漢字對應的甲骨文字形。劉永革很快把結(jié)果給到了老先生。“我翻書查找可能要花一個月,你這么快就找到了?!這個電腦很好。我也要學電腦!”那年郭青萍89歲,家里人不支持他。他拿出7000元偷偷交給劉永革,要他幫忙選購一臺電腦。劉永革說:“老先生好學呀。我給他買了一臺顯示器很大的那種,方便他看字。后來他用電腦又寫了三本甲骨文方面的書稿交付出版。”2008年,劉永革等申報的《基于甲骨文語料庫的計算機輔助考釋技術研究》獲批國家自然科學基金項目。甲骨文資料的數(shù)字化極大地便利了研究者,也為即將到來的人工智能時代做好了鋪墊。

2016年3月,谷歌旗下DeepMind團隊開發(fā)的AlphaGo(初級圍棋)程序擊敗韓國九段棋手李世石,震驚世界。這也被認為是一個人工智能發(fā)展大周期的元年。一個月后,國家相關部委領導在河南安陽調(diào)研時說,要利用大數(shù)據(jù)、云計算等現(xiàn)代技術手段做好甲骨文的破譯工作。兩年后,安陽師院甲骨文信息處理教育部重點實驗室獲批,劉永革出任實驗室主任。按照規(guī)定,教育部重點實驗室學術委員會主任應由院士擔任。“我們安陽是小地方,哪認識什么院士喲。”

好在,他們“蹲”到了2015年新當選中國工程院院士的戴瓊海。劉永革就聘請他做學術委員會主任。戴瓊海是清華大學自動化系教授,長期致力于立體視覺和計算攝像理論、關鍵技術研究,現(xiàn)任中國人工智能學會理事長。

2019年是甲骨文發(fā)現(xiàn)120周年。安陽師院在甲骨文研究專家宋鎮(zhèn)豪指導下,發(fā)布“殷契文淵”甲骨文數(shù)據(jù)平臺。這是當今世界資料最齊全、最規(guī)范、最權(quán)威的甲骨文數(shù)據(jù)平臺,對國內(nèi)外研究者免費開放,至今已更新4期,包括甲骨著錄154種、甲骨論著34417種,收錄23余萬種圖像。利用上億像素的照相機,通過高清拍攝、微距拍攝、三維建模、紅外線拍攝、多光譜拍攝,對每一片甲骨拍攝150余張照片。借助微痕增強技術,使研究者能清晰地看到甲骨上較淺的刻痕,更準確地分析筆畫和輪廓。部分有特殊含義的甲骨文是用丹砂“涂朱”的,對這部分文字的研究也是甲骨文研究中的一個分支。有些甲骨因年代久遠,紅色丹砂脫落殆盡,但通過光譜分析,仍然可以確定甲骨文中的涂朱部分。此外,根據(jù)機器學習的要求,添加圖像數(shù)據(jù)標注。

回首過去,當初為甲骨文輸入法制作的矢量字庫,已經(jīng)“魔改”得面目全非。技術發(fā)展超越人的想象。

用計算機把破碎的甲骨拼起來

張展,2019年獲中國科學院大學計算機應用技術專業(yè)博士學位,2021年中國科學院沈陽自動化研究所博士后出站,研究方向為計算機視覺、模式識別和數(shù)字圖像處理。在學校,張展和河南安陽籍郭安是室友。找工作時,郭安回安陽師院謀求教職,張展便順道來安陽看看機會。這是他第一次見到劉永革。老劉希望張展留下,但后者還沒有打定主意。一段時間后,劉永革接到張展的電話。他非常高興:“不用說相應的待遇。張展來我這里,他成家前,我發(fā)動系里的老師,要求每個人都給他介紹對象。我得讓他留在安陽。”

劉永革一眼看中張展,因為他的研究方向非常適合從事計算機輔助甲骨碎片綴合工作。而甲骨碎片綴合是短期內(nèi)能夠?qū)嵸|(zhì)性推動甲骨文釋讀破譯的手段。

當前的甲骨文釋讀工作確實處在一個瓶頸期,在甲骨學再繼續(xù)發(fā)展的道路上,遇到了文字釋讀滯后的障礙,給甲骨學商史研究的再深入造成了困難。中國文字博物館于2016年至2024年間開展了兩次甲骨文釋讀優(yōu)秀成果征集評選。對破譯未釋讀甲骨文并經(jīng)專家委員會鑒定通過的研究成果,單字獎勵10萬元。第一次,復旦大學蔣玉斌摘得一等獎,拿到了10萬元獎勵。第二次,復旦大學陳劍和吉林大學周忠兵同時獲得一等獎。8年,3個字,這就是今天破譯甲骨文的速度。

為何破譯如此之難?目前學界公認甲骨文有4500多個單字,其中已經(jīng)破譯近1500字,剩下的3000多字都是較難釋讀的,譬如沒有對應的現(xiàn)代漢字,或是后世不再使用的地名、人名。甲骨文破譯是從已知推理未知。1991年安陽殷墟花園莊東地H3坑的發(fā)掘是距今最后一次甲骨大發(fā)現(xiàn)。近三十年,新發(fā)現(xiàn)的甲骨增量太少,也使釋讀研究工作陷入巧婦難為無米之炊的境地。

為此,很多學者將目光投向存量甲骨挖潛,希望從中壓榨出有價值的新線索。現(xiàn)存甲骨多以碎片的形態(tài)存世。一是因為甲骨用于占卜,經(jīng)過鉆鑿、火燒,滄海桑田,繩編斷絕。二是早期甲骨收藏者在安陽小屯村收購甲骨,按片計價。村民便將挖出來的甲骨掰碎出售。所以后來就改為按甲骨上有多少字來計價收購。甲骨往往沿龜腹甲的天然紋裂而碎,其小者比人的指甲蓋大不了多少。如果將甲骨碎片綴合起來,就能得到新的連貫的句子,學者加以句讀,從而獲得全新的解讀。

然而,甲骨整理繁難且極費人工。故宮博物院是世界第三大甲骨收藏單位,所藏2萬多片殷墟甲骨,此前絕大多數(shù)從未整理出版。“故宮博物院藏古文字數(shù)字平臺”的階段性成果,也僅僅是公布了《故宮博物院藏殷墟甲骨文》“馬衡卷”“謝伯殳卷”中的300余件甲骨藏品高清影像及其拓本。人工綴合甲骨碎片需要記憶大量的甲骨文信息,專業(yè)要求高、工作量大。一所高校能有幾個研究甲骨文的人才,他們寒窗苦讀,皓首窮經(jīng),才堪堪夠格參與這項工作。古人考釋文字如同射覆,意即如猜謎一般,靠直覺,沒有數(shù)學公式推導那樣的規(guī)律可循。有學者感慨,甲骨斷痕的邊緣并無一定的規(guī)律,而人對信息的敏感是有偏好的,此處敏感別處未必敏感,因而遺漏甚多。

計算機沒有直覺,只有數(shù)字和概率。與人不同,它可以找到?jīng)]有規(guī)律的邊緣信息進行匹配。

張展向我們展示如何用計算機輔助綴合甲骨碎片。首先準備一片待綴合的甲骨碎片拓片圖像,分辨率精度400dpi(經(jīng)插值運算獲得600dpi),修理甲骨輪廓周圍的毛刺,提取段痕邊緣的一條曲線。將邊緣曲線旋轉(zhuǎn)正負20°,得到同一條曲線不同傾斜角度的集合。用邊緣曲線集合與選定的一批甲骨拓片的輪廓線相擬合。在邊緣曲線上分多個小段進行采樣,計算源甲骨碎片圖像與目標甲骨碎片圖像邊緣采樣點之間的距離和,作為不相似度處理。當不相似度值小于某一設定值的時候,意味著可能產(chǎn)生一組成功的綴合。

解釋起來有些費勁,但計算機只在瞬息間就能輸出綴合結(jié)果。

最初,張展跑完程序,得到一組綴合結(jié)果,發(fā)朋友圈,大家喜出望外。隨即,他們得知這組甲骨碎片已被前人綴合過,不過至少證明這個方法行得通。不久后,實驗室終于得到新的“獨家”綴合結(jié)果。不僅文辭能夠連上,貫穿兩片甲骨的刻痕也明顯能夠貫通。隨著項目深入,得到一組又一組綴合結(jié)果。一篇篇對綴合后連接起來的甲骨文句的考釋文章接踵發(fā)表。

這種綴合方法取得了小小的成功。但要再進一步,還有難關。目前的技術能夠讓選定的一片甲骨匹配另一片或者一批甲骨。如果要讓計算機在大批量甲骨圖像中一次找出可綴合的一對或多對甲骨,需要新的算法和更強大的算力。除了技術因素,還有一個問題困擾著研究者。全世界現(xiàn)存約16萬片甲骨,分散在15個國家、181家館藏機構(gòu)。相比之下,經(jīng)過整理可供研究且公開發(fā)布的甲骨拓片資料就很少了。而機構(gòu)與機構(gòu)之間、國家與國家之間的交流合作、資源共享并非易事。

為此,安陽師院團隊今年正式啟動“全球甲骨數(shù)字回歸計劃”,爭取國家、省、市三級政府部門和社會各界的支持,希望到國內(nèi)外保存甲骨的館藏機構(gòu)進行數(shù)據(jù)采集,讓散落各地的甲骨“回家”。這是一個宏偉而又浪漫的計劃。凡是用浪漫來形容的事,往往都是很難的,可能需要很多年才能完成。劉永革對張展說:“你看,我搞了一輩子數(shù)據(jù)庫。你一輩子做好甲骨碎片綴合這件事,也就成了。”與數(shù)千年的甲骨文相比,人生仿若滄海之一粟。很多事情的成功有漫長的路要走,其待后人乎!

波多野结衣家庭教师在线播放_熟妇人妻无乱码中文字幕真矢织江_波多野结衣50连登视频_www.av91_亚洲第一中文av_91成人综合网_日韩无套无码精品_日韩欧美猛交xxxxx无码_男人天堂a在线_www.好吊操_日韩伦理在线免费观看_男人的天堂狠狠干
蜜臀91精品国产高清在线观看| 日韩美女国产精品| 久久婷婷激情| 日韩在线视频一区二区三区| 久久久久一区| 狂野欧美性猛交xxxx| 亚洲一级影院| 天堂av在线| 国产精品色婷婷在线观看| 91久久亚洲| 91精品国产乱码久久久久久久| 日韩二区三区四区| 黄色亚洲精品| 国产不卡人人| 国产精品久久久一区二区| 蜜臀久久99精品久久久画质超高清 | 亚洲综合日韩| 色婷婷久久久| 成人在线黄色| 国产精品任我爽爆在线播放| 欧美综合国产| 婷婷亚洲五月| 婷婷综合激情| 欧美午夜精彩| 色综合www| 欧洲av不卡| av在线日韩| 日韩精品dvd| 亚洲人成在线网站| 毛片不卡一区二区| 欧美日本不卡高清| 日韩一区二区三区高清在线观看 | 国产精品久久久久久久久妇女| 欧美日本不卡| 国产美女久久| 国产精品一区高清| 国产欧美日韩视频在线| 日韩av资源网| 国产亚洲高清在线观看| 欧美日本精品| 国产亚洲一区二区三区啪| 国产香蕉精品| 久久免费精品| 啪啪国产精品| 精品一区欧美| 亚洲欧美专区| 精品亚洲成人| 色爱av综合网| 婷婷综合激情| 亚洲另类黄色| 精品午夜久久| 99精品网站| 中文字幕亚洲精品乱码| 欧美亚洲一级| 欧美aa在线观看| 欧美日韩在线二区| 欧美另类综合| 日本伊人久久| 美女精品一区二区| 日韩综合精品| 亚洲香蕉久久| 国产成人精品亚洲线观看| 久久国产小视频| 天海翼亚洲一区二区三区| 国产精品一区二区av日韩在线| 精品国产欧美日韩| 欧美日韩精品免费观看视频完整| 日韩制服丝袜av| 激情综合婷婷| 美女尤物久久精品| 国产精成人品2018| 亚洲二区免费| 国产精品亚洲人成在99www| 亚洲啊v在线| 国产毛片久久| 国产一区二区久久久久| 国产视频亚洲| 国内自拍视频一区二区三区| 免播放器亚洲| 日韩精品看片| 欧美国产专区| 香蕉久久久久久久av网站| 久久成人av| 国产婷婷精品| 高清av一区| 日本在线不卡视频一二三区| 久久久水蜜桃av免费网站| 国产欧美88| 美女尤物久久精品| 国产成人精品亚洲线观看| 麻豆亚洲精品| 欧美日韩一区二区三区视频播放| 久久永久免费| 日本精品国产| 夜夜嗨av一区二区三区网站四季av| 高清一区二区| 国产日本久久| 亚洲天堂av资源在线观看| 欧美日韩尤物久久| 久久精品欧洲| 日韩二区三区在线观看| 久久国产精品99国产| 久久一区二区三区电影| 久久久久久久欧美精品| 国产乱人伦精品一区| 视频在线观看一区二区三区| 国产麻豆久久| 日韩久久电影| 欧美aa在线观看| 国产欧美一区二区三区精品酒店 | 久久国产婷婷国产香蕉| 免费日韩av片| 亚洲国产日韩欧美在线| 免费视频亚洲| 欧美不卡在线| 日韩视频一区| 亚洲午夜av| 婷婷六月综合| 亚洲欧美日韩精品一区二区| 欧美日韩国产精品一区二区亚洲| 亚洲精品中文字幕乱码| 亚洲精品99| 久久亚洲视频| 亚洲日本国产| 欧美日韩xxxx| 国产精品欧美大片| 国产精品调教视频| 黄色网一区二区| 樱桃视频成人在线观看| 日韩欧美二区| 久久亚洲国产| av一区二区高清| 免费在线观看精品| 蜜臀久久久久久久| 日韩二区三区在线观看| 麻豆精品在线观看| 日韩免费看片| 久久av一区二区三区| 日韩不卡一区二区| 精品一区视频| 91精品久久久久久久久久不卡| 天堂网在线观看国产精品| 日韩毛片网站| 成人亚洲一区| 中文亚洲免费| 国产福利一区二区三区在线播放| 日韩国产一区二区| 伊人影院久久| 日韩av成人高清| 国产精品国产三级国产在线观看| 欧美午夜精彩| 青青国产精品| 中文字幕高清在线播放| 中文久久精品| 精品中文在线| 夜夜精品视频| 久久中文在线| 宅男噜噜噜66国产日韩在线观看| 国产日韩亚洲欧美精品| 久久国产日本精品| 日韩国产高清在线| 久久精品1区| 国产精品麻豆成人av电影艾秋 | 国产香蕉精品| 亚洲午夜av| 国产香蕉精品| 亚洲视频www| 亚洲风情在线资源| 日韩不卡在线观看日韩不卡视频| 久久网站免费观看| 久久精品亚洲一区二区| 久久成人国产| 日韩天堂在线| 国产劲爆久久| 伊人久久大香伊蕉在人线观看热v| 日韩黄色大片网站| 国产日产精品_国产精品毛片| 欧美亚洲在线日韩| 麻豆国产精品视频| 亚洲欧美日本国产| 激情综合激情| 中文字幕人成乱码在线观看| 欧美日韩夜夜| 蜜桃久久久久久| 欧美+日本+国产+在线a∨观看| 麻豆国产精品一区二区三区| 亚洲一区av| 亚洲一区二区三区高清不卡| 久久精品官网| 亚洲三级欧美| 精品国产精品国产偷麻豆| 久久精品97| 日本91福利区| 蜜桃av一区二区在线观看| 在线日韩一区| 久久婷婷一区| 久久中文亚洲字幕| 日韩精品水蜜桃| 日韩欧美三级| 欧美日韩免费看片|