文档相似度比对之穷举法
有来有去1980 人气:1需求:
两个建筑行业的招标网站发布的招标文档,标题可能不同,正文大部分相同,如何通过程序判断文档是否一致,从而达到去重的目的
现状:
1、没有深度学习的基础,只能回归到常规软件算法
2、范围限定在建筑行业,招标内容,那有限场景下用穷举法是没问题
3、允许一定重复率,后期可以手动或者算法优化去重
分析思路:
1、每一个标书都有N个要素:时间,地点,人物,金额等等,逐个分析,哪个是必须的,它出现的方式有多少种
2、将所有已下载标书遍历,看看要素字段获取成功率,低于90%,说明还有常用的字段词汇,没有穷举出来,找出来补充到脚本里面去即可
3、比对文档相似度问题,转变为比较N个要素一致性的问题,可以用SQL进行查重,也可以用ES引擎来做查重。
获取文档中的要素的测试代码(test.rar,在文件下载区):
1、可以获取招标金额,有小缺陷
2、可以获取项目地址
加载全部内容