中文地址相似度匹配和真伪鉴别方法研究文献综述

 2022-11-08 03:11
{title}{title}

文献综述:

在银行信用卡申请业务中,银行方需要核实申请者所填写的地址信息(包括家庭地址与单位地址)是否与历史地址库中的地址指向同一地址,同时需要核实一个地址是否是真实存在的地址,以防止信用卡申请中的团伙欺诈风险。与此同时,电商、物流、外卖等行业蓬勃发展,产生了大量用户地址,但是这些地址随意程度比较高,存在不标准、信息遗漏、信息重复甚至错误等问题,严重影响了数据质量。因此,迫切需要提供一套中文地址清洗框架和相似度匹配、真伪鉴别系统,通过该系统标准化存储大量地址信息,对输入的申请者的地址与历史数据库中已有地址进行比较,并给出相应的评分。

而实际上,地理编码是一个系统的工程,孙亚夫等[11]提出将地址匹配分为应用层、核心层、数据准备层三层的分层架构。数据准备层是地址匹配的基础,需要一个较为全面、准确的标准地址库,不完善的标准地址库会较大的影响匹配结果。亢孟军等[3]针对地址库的建立提出了地址树模型,明确定义了地址元素并研究了地址元素之间的相对关系,给出了基于该模型的标准地址提取算法。张倩等[2]通过建立分级地址数据库,采用有限状态机和Trie转换函数构建地址匹配模型,解决了错误地址、地址层级跳跃、分词不准确等问题。

而地址标准化是一项繁重的工作,并且错误模型很难完全的穷举,据此程昌秀等[1]提出了模糊中文地址分词匹配方法。该方法主要包含两类模糊地址,一类是在数据库匹配时可能产生语义歧义的地址,另一类是信息残缺地址。通过基于规则的匹配算法,该方法能够一定程度上消除歧义,筛选出符合规则的地址。徐聪等[5]利用哈希和Trie等两种数据结构提出了多层次匹配算法。Fu等[8]则针对手写中文地址提出了新的分割识别算法,Wang等[9]基于合并笔画来分割手写地址。Roongpiboonsopit等在[10]对美国流行在线地理编码服务进行了测试和评估。

武汉大学的亢孟军等在[3]中分析出地址数据的混乱难以用现有地址模型进行标准化、消歧义,提出了构建符合空间约束关系的地名元素集合。在分词后消解地名歧义,形成子地址集合,此时任一子地址根据其地址元素的级别,可明确该子地址的详细指位含义 ,则地址标准化或地址匹配操作也因此可以直接进行。

在建立准确的标准地址库后,为了对现有大量数据质量较低的地址进行匹配,中国科学院地理科学与资源研究所的程昌秀等[1]提出了一种模糊匹配算法。该算法的核心思想是调用最大正向匹配算法进行地址分词的同时,在标准地址库中进行地址匹配。通过借助每次分词时对标准地址库的搜索,并实时参照地址匹配规则树,不断缩小目标数据集。考虑到根据标准地址库结构用部分地址通名即可表达详细街道地址,如输入地址的道路名、住宅小区名、楼牌号与标准库中的相应字段相符则判定为匹配成功。只要满足所定义的任一条规则,即判定匹配成功。

为进行匹配,除读入地址字符串S、准备标准地址库R外,还需建立语义歧义栈Stack,先查询行政区划代码,确定后通过过滤代码缩小目标数据集R的查询范围。查看规则树,确定下一步的字段范围。剩余串不为空时,最大正向匹配进行分词,此时若匹配的字段数为1,则进入下一步匹配;否则,记录歧义字段与歧义位置游标,加入歧义栈。剩余串为空时,若歧义栈空,则匹配未完成,否则继续查询栈顶歧义的语义,与规则进行匹配。

模糊匹配在算法中加入规则,提供了新的解决思路,提高了地址匹配的成功率与算法效率。同时,若匹配失败,也可通过每一步匹配的临时结果集为用户提供匹配度较高的地址记录。

孙亚夫等[11]提出的基于分词的地址匹配技术虽不如模糊匹配效率高、要求少,但是对应用层、核心层、数据准备层三层的划分能够准确描述系统的架构,并且提出了通过向量空间模型计算匹配度的方法。采用其核心层中地址匹配管理器、地址分词器、测试模块,可以将核心层与数据层解耦,使得核心层匹配算法的实现更为简单方便。另外,数据层也对地址级别做了归纳,如表1所示,提出了数据库存储的表格式。

表1 地址级别关系

基本地点名称

级别

从属的父级别

常用的关键词

中国

1

-1(无)

省、直辖市

2

1

省、市

省会、地级市

3

2

区、县(县级市)

4

3

区、县

街道、镇、乡

5

4

街道、镇、乡

社区、村、小区、地片、标志物、大厦

6

1、2、3、4、5

社区、村、小区、大厦、里、弄、园、支弄、一区、

二区、西里、公寓、宾馆、市场、广场、饭店、花园、特区、中心、西区、一里、二里、三里、四里、五里、寺、苑

道路、街、巷

10

1、2、3、4、5、6

路、街、巷、头条、二条、三条

门牌号

20

10

楼牌号

30

6、10、20

楼、号

附属在门牌、楼牌后的POI名称

40

6、10

(无,各种词都可能),但是其父级别应当为道路或社区一级。

自然语言的方位描述

90

-1(无)

东/南/西/北/东南/西北/东北/西南/前/后/左/右/上/下/内/ 外/ 旁/ 相向/ 相邻等等

总而言之,建立一个完善的地址匹配系统需要地址标准化清洗工具、高效准确的模糊匹配算法,另外还可以利用相似度分析为用户提供匹配度较高的标准地址。

[1]. 程昌秀,于滨.一种基于规则的模糊中文地址分词匹配方法[J].地理与地理信息科学,2011,27(3):26-29

[2]. 张林曼,吴升.地理编码系统中地址匹配引擎的设计与实现[J].测绘信息与工程,2008,33(6):12-14

[3]. 亢孟军,杜清运,王明军.地址树模型的中文地址提取方法[J].测绘学报,2015,44(1):99-107

[4]. 张倩,郭嗣琮.基于有限状态机和Trie数的分级地址模型[J].计算机应用,2013,33(3):854-857

[5]. 徐聪,张丰,杜震洪,张逸然,陈明,刘仁义.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报,2014,41(2):217-222

[6]. 宋子辉.自然语言理解的中文地址匹配算法[J].遥感学报,2013,17(4):795-801

[7]. Xu C, Zhang F, Du Z, et al. A multi-level address-matching algorithm based on Hash function and double-array tire-tree[J]. 2014.

[8]. Fu Q, Ding X Q, Liu T, et al. A Novel Segmentation and Recognition Algorithm for Chinese Handwritten Address Character Strings[J]. Dianzi Yu Xinxi Xuebao/journal of Electronics amp; Information Technology, 2006, 2(12):974-977.

[9]. Wang R, Ding X, Liu C. Handwritten Chinese address segmentation and recognition based on merging strokes[J]. Journal of Tsinghua University, 2004, 44(4):498-502.

[10]. Roongpiboonsopit D, Karimi H A. Comparative evaluation and analysis of online geocoding services[J]. International Journal of Geographical Information Science, 2010, 24(7):1081-1100.

[11]. 孙亚夫,陈文斌.基于分词的地址匹配技术[A].中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C].2007. 114-125.

[12]. 钱敏,顾国强,鲁明.用于地址(地理位置)匹配的关键路径法[J].计算机应用与软件,2012,29(1):211-214.

[13]. 陈庆兰.有限自动机在地址识别中的应用[A].中国电力教育2007年研究综述与技术论坛专刊[C].2007:390-392.

[14]. 臧英斐,王斌,瞿晓雯.重庆市中文语义地址模型构建方法[J].地理空间信息,2015,13(3):122-125.

[15]. 宋子辉.自然语言理解的中文地址匹配算法[J].遥感学报,2013,17(4):795-801.

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。