互聯網地(dì)名地(dì)址采集系統
系統概述
大數據時代的(de)到來,使得從海量的(de)互聯網信息資源挖掘并利用豐富地(dì)名地(dì)址信息資源成為(wèi)可(kě)能。系統以互聯網地(dì)名地(dì)址數據為(wèi)對象,挖掘文本為(wèi)主的(de)非結構化資源以及網絡地(dì)圖為(wèi)主的(de)結構化地(dì)名數據庫資源,借鑒自(zì)然語言處理(lǐ)、信息抽取、機(jī)器學(xué)習等領域的(de)理(lǐ)論與方法,建立一(yī)種全新的(de)地(dì)名地(dì)址數據加工、處理(lǐ)、更新與服務手段。
系統內(nèi)容
系統互聯網地(dì)名地(dì)址為(wèi)數據源,利用網絡爬蟲手段全面收集地(dì)名數據、地(dì)址數據;借鑒自(zì)然語言處理(lǐ)、信息抽取、機(jī)器學(xué)習方法開展地(dì)名地(dì)址數據進行(xíng)解析、編碼、清洗、匹配等工作,構建結構合理(lǐ)編碼規範的(de)地(dì)名地(dì)址數據庫;實現地(dì)名地(dì)址的(de)自(zì)動采集、智能解析、智能分類、智能清洗、智能匹配。