亲宝软件园·资讯

展开

文档相似度比对之穷举法

有来有去1980 人气:1

需求:

两个建筑行业的招标网站发布的招标文档,标题可能不同,正文大部分相同,如何通过程序判断文档是否一致,从而达到去重的目的

 

现状:

1、没有深度学习的基础,只能回归到常规软件算法

2、范围限定在建筑行业,招标内容,那有限场景下用穷举法是没问题

3、允许一定重复率,后期可以手动或者算法优化去重

 

分析思路:

1、每一个标书都有N个要素:时间,地点,人物,金额等等,逐个分析,哪个是必须的,它出现的方式有多少种

2、将所有已下载标书遍历,看看要素字段获取成功率,低于90%,说明还有常用的字段词汇,没有穷举出来,找出来补充到脚本里面去即可

3、比对文档相似度问题,转变为比较N个要素一致性的问题,可以用SQL进行查重,也可以用ES引擎来做查重。

 

获取文档中的要素的测试代码(test.rar,在文件下载区):

1、可以获取招标金额,有小缺陷

2、可以获取项目地址 

 

 

加载全部内容

相关教程
猜你喜欢
用户评论