--- dao/DaoAdresseService/src/dk/daoas/daoadresseservice/AdressSearch.java 2015/02/26 15:47:07 2389 +++ dao/DaoAdresseService/src/main/java/dk/daoas/daoadresseservice/AddressSearch.java 2015/07/13 10:32:11 2598 @@ -9,62 +9,84 @@ import java.util.HashSet; import java.util.List; import java.util.Map; +import java.util.Map.Entry; import java.util.Set; +import java.util.TreeMap; +import java.util.TreeSet; import java.util.concurrent.ConcurrentHashMap; import org.apache.commons.lang3.StringUtils; import dk.daoas.daoadresseservice.admin.ServiceConfig; import dk.daoas.daoadresseservice.beans.Address; +import dk.daoas.daoadresseservice.beans.AliasBean; import dk.daoas.daoadresseservice.beans.DataStatisticsBean; import dk.daoas.daoadresseservice.beans.ExtendedBean; import dk.daoas.daoadresseservice.beans.HundredePctBean; +import dk.daoas.daoadresseservice.beans.SearchRequest; import dk.daoas.daoadresseservice.beans.SearchResult; import dk.daoas.daoadresseservice.beans.SearchResult.Status; import dk.daoas.daoadresseservice.db.DatabaseLayer; +import dk.daoas.daoadresseservice.util.DaoUtils; +import dk.daoas.daoadresseservice.util.DeduplicateHelper; +import dk.daoas.daoadresseservice.util.NaturalOrderComparator; -public class AdressSearch { +public class AddressSearch { - private Map> searchPostnrVejnavnGadeid; - private Map> searchGadeidentAdresser; + private Map> searchPostnrVejnavnGadeid; + private Map> searchGadeidentAdresser; private List
alleAdresser; - private Map helperCache; + private Map helperCache; private DataStatisticsBean stats = new DataStatisticsBean(); ServiceConfig config; - public AdressSearch(ServiceConfig config) { + StreetnameHelper levenshteinHelper; + StreetnameHelper googleHelper; + StreetnameHelper osmHelper; + + + public AddressSearch(ServiceConfig config) { this.config = config; + + levenshteinHelper = new LevenshteinStreetnameHelper( this ); + googleHelper = new GoogleStreetnameHelper( config ); + osmHelper = new OSMStreetnameHelper( config ); } public SearchResult search(String postnrStr, String adresse) { + postnrStr = postnrStr.trim(); + adresse = adresse.trim(); + + + SearchRequest request = new SearchRequest(); SearchResult result = new SearchResult(); - int postnr=0; - - String helperSearchKey = ""; try { - postnr = Integer.parseInt(postnrStr); + request.postnr = Short.parseShort(postnrStr); } catch (Exception E) { result.status = Status.ERROR_UNKNOWN_POSTAL; return result; } - Map postnrVeje = searchPostnrVejnavnGadeid.get(postnr); - if (postnrVeje == null) { + request.streetNames = searchPostnrVejnavnGadeid.get(request.postnr); + + if (request.streetNames == null) { result.status = Status.ERROR_UNKNOWN_POSTAL; return result; } result.splitResult = AddressUtils.splitAdresse(adresse); + request.vejnavn = result.splitResult.vej; + if (result.splitResult.husnr.length() == 0) { @@ -72,57 +94,50 @@ return result; } - String vasketVejnavn = AddressUtils.vaskVejnavn( result.splitResult.vej ); - - Long gadeident = postnrVeje.get(vasketVejnavn); - + result.vasketVejnavn = AddressUtils.vaskVejnavn( request.vejnavn ); - if ( gadeident == null) { - helperSearchKey = "" + postnr + "/" + vasketVejnavn; - gadeident = helperCache.get(helperSearchKey); + + if (result.vasketVejnavn.indexOf("pakkebo") > -1 + || result.vasketVejnavn.indexOf("pakkepost") > -1 + || result.vasketVejnavn.indexOf("postbo") > -1 // postbox/postboks + || result.vasketVejnavn.indexOf("døgnpost") > -1 + || result.vasketVejnavn.indexOf("døgnbo") > -1 // døgnbox // døgnboks + || result.vasketVejnavn.equals("id") + ) { + result.status = Status.ERROR_POSTBOX; + return result; } - if (gadeident == null) { - String best = getbestLevenshteinDistance(vasketVejnavn, postnrVeje); - if (best != null) { - result.levenshtein = true; - gadeident = postnrVeje.get(best); - } - } + // LookupStreetname er en indkapsling af alm + levenstein + google + osm + Integer gadeident = lookupStretname(request, result, true); - // Brug OpenStreetMap før vi prøver google - // For google har en request limit, det har OSM ikke! - if ( gadeident == null) { - if (config.useOpenStreetMaps) { - result.osmVej = GeocodeHelper.openstreetmapHelper(config, postnr, result.splitResult.vej ); - result.osm = true; - - if (result.osmVej != null) { - String osmVasket = AddressUtils.vaskVejnavn( result.osmVej ); - gadeident = postnrVeje.get(osmVasket); - - if (gadeident != null) { - helperCache.put(helperSearchKey, gadeident); - } - } - } - } - - if ( gadeident == null) { - if (config.useGoogle) { - result.googleVej = GeocodeHelper.googleHelper(config, postnr, result.splitResult.vej ); - result.google = true; - - if (result.googleVej != null) { - String googleVasket = AddressUtils.vaskVejnavn( result.googleVej ); - gadeident = postnrVeje.get(googleVasket); - - if (gadeident != null) { - helperCache.put(helperSearchKey, gadeident); - } - } - } + /* + * Hvis der ikke er direkte hits, prøver vi at skære ord af vejnavn + * + * Denne sektion er MEGET experimental da den øger antallet af kald til google/OSM væsentligt*/ + if (gadeident == null) { + final int MAX_TRIES = 4; + + String vejnavnParts[] = request.vejnavn.split(" "); + + for (int i=1; i<=MAX_TRIES && i gade = searchGadeidentAdresser.get(gadeident); if (gade == null) { //Denne søgning må ikke fejle result.status = Status.ERROR_INTERNAL; @@ -139,6 +157,10 @@ } + //Kunne evt klares med Iterables.get fra Guava/Collections + Address firstAddress = gade.values().iterator().next(); + result.vej = firstAddress.vejnavn; + String husnrSearch = "" + result.splitResult.husnr + result.splitResult.litra; Address addr = gade.get(husnrSearch); @@ -165,12 +187,65 @@ return result; } + + + private Integer lookupStretname(SearchRequest request, SearchResult result, boolean useExternal) { + String helperSearchKey = ""; + + Integer gadeident = request.streetNames.get(result.vasketVejnavn); + + + if ( gadeident == null) { + helperSearchKey = "" + request.postnr + "/" + result.vasketVejnavn; + gadeident = helperCache.get(helperSearchKey); + } + + if (gadeident == null) { + String vej = levenshteinHelper.proposeStreetName(request, result); + if (vej != null) { + gadeident = request.streetNames.get(vej); + } + } + + + // Brug OpenStreetMap før vi prøver google + // For google har en request limit, det har OSM ikke! + if ( gadeident == null && useExternal) { + String vej = osmHelper.proposeStreetName(request, result); + gadeident = helperWrapper(vej, request.streetNames, helperSearchKey); + } + + if ( gadeident == null && useExternal) { + String vej = googleHelper.proposeStreetName(request, result); + gadeident = helperWrapper(vej, request.streetNames, helperSearchKey); + } + return gadeident; + } + + private Integer helperWrapper(String vej, Map postnrVeje, String helperSearchKey) { + if (vej == null) + return null; + + String vejVasket = AddressUtils.vaskVejnavn( vej ); + Integer gadeident = postnrVeje.get(vejVasket); + + if (gadeident != null) { + helperCache.put(helperSearchKey, gadeident); + } + return gadeident; + + } + + public Map getStretsByPostal(short zip) { + return searchPostnrVejnavnGadeid.get(zip); + } + public void buildSearchStructures() throws SQLException{ - searchPostnrVejnavnGadeid = new HashMap>(); - searchGadeidentAdresser = new HashMap>(); - helperCache = new ConcurrentHashMap(); + searchPostnrVejnavnGadeid = new HashMap>(); + searchGadeidentAdresser = new HashMap>(); + helperCache = new ConcurrentHashMap(); long start1 = System.currentTimeMillis(); System.out.println("Build -- stage 1"); @@ -180,44 +255,88 @@ /* Mapper mellem db Row ID og adresse noden */ Map idAddressMap = new HashMap( alleAdresser.size() ); + DeduplicateHelper aliasHelper = new DeduplicateHelper(); + DeduplicateHelper husnrHelper = new DeduplicateHelper(); for (Address a : alleAdresser) { idAddressMap.put(a.id, a); - Map postnrVeje = searchPostnrVejnavnGadeid.get(a.postnr); + Map postnrVeje = searchPostnrVejnavnGadeid.get(a.postnr); if (postnrVeje == null) { - postnrVeje = new ConcurrentHashMap(); + postnrVeje = new ConcurrentHashMap(); searchPostnrVejnavnGadeid.put(a.postnr, postnrVeje); } + String vasketVejnavn = AddressUtils.vaskVejnavn(a.vejnavn); - Long gadeident = postnrVeje.get(vasketVejnavn); - if (gadeident == null) { + Integer gadeident = postnrVeje.get(vasketVejnavn); + if (gadeident == null) { //postnrVeje.put(vasketVejnavn, a.gadeid); + gadeident = a.gadeid; + Set aliaser = findVejAliaser(a.vejnavn); for(String alias : aliaser) { String vasketAlias = AddressUtils.vaskVejnavn(alias); - postnrVeje.put(vasketAlias, a.gadeid); - } - + vasketAlias = aliasHelper.getInstance(vasketAlias); + + postnrVeje.put(vasketAlias, gadeident); + } } - Map gade = searchGadeidentAdresser.get(a.gadeid); + Map gade = searchGadeidentAdresser.get(gadeident); if (gade == null) { gade = new HashMap(); - searchGadeidentAdresser.put(a.gadeid, gade); + searchGadeidentAdresser.put(gadeident, gade); } String husnrSearch = "" + a.husnr + a.husnrbogstav; + husnrSearch = husnrHelper.getInstance(husnrSearch); gade.put(husnrSearch, a); } - //////////////////////////////////////////////////////////////////////////////////////// long start2 = System.currentTimeMillis(); System.out.println("Build, stage1 elapsed: " + (start2-start1) ); - System.out.println("Build -- stage 2 udvidet dækning"); + System.out.println("Build -- stage 2 alias tabel"); + + int vaskCount = 0; + List aliasList = DatabaseLayer.getAliasList(); + for (AliasBean alias : aliasList) { + Map postnrVeje = searchPostnrVejnavnGadeid.get(alias.postnr); + + if (postnrVeje == null) { + //Burde ikke kunne ske - men better safe than sorry + continue; + } + + String vasketVej = AddressUtils.vaskVejnavn(alias.vejnavn); + String vasketAlias = AddressUtils.vaskVejnavn(alias.aliasVejnavn); + + Integer gadeident = postnrVeje.get(vasketVej); + if (gadeident == null) { + //Kender ikke den oprindelige vej + continue; + } + + Integer aliasIdent = postnrVeje.get(vasketAlias); + + if (aliasIdent == null) { //Vi kender ikke denne variant af vejnavnet + postnrVeje.put(vasketAlias, gadeident); + vaskCount++; + } + + } + System.out.println("Anvendte " + vaskCount + " aliaser fra databasen"); + + + //////////////////////////////////////////////////////////////////////////////////////// + long start3 = System.currentTimeMillis(); + System.out.println("Build, stage2 elapsed: " + (start3-start2) ); + System.out.println("Build -- stage 3 udvidet dækning"); + + DeduplicateHelper ruteHelper = new DeduplicateHelper(); + DeduplicateHelper korelisteHelper = new DeduplicateHelper(); List extDao = DatabaseLayer.getExtendedAdresslist(); for (ExtendedBean eb : extDao) { @@ -226,15 +345,24 @@ if (orgAddress == null) continue; + if (orgAddress.daekningsType != DaekningsType.DAEKNING_IKKEDAEKKET) { + //kan være at adressen er blevet markeret dækket og - find-nærmeste data ikke er opdateret i mellemtiden + continue; + } + Address targetAddress = idAddressMap.get(eb.targetId); - if (targetAddress == null) + if (targetAddress == null) { continue; + } + - if (orgAddress.distributor != null && orgAddress.distributor.equals("LUKKET")) { + if ( StringUtils.equals(orgAddress.distributor, "LUKKET") ) { continue; } - if (targetAddress.distributor.equals("LUKKET")) { + + + if ( StringUtils.equals(targetAddress.distributor, "LUKKET") ) { continue; } @@ -243,7 +371,9 @@ boolean covered = false; if (targetAddress.distributor.equals("DAO")) { - orgAddress.rute = calculateExtendedDaoRoute(eb,orgAddress,targetAddress); + orgAddress.rute = calculateExtendedDaoRoute(eb,orgAddress,targetAddress); + orgAddress.rute = ruteHelper.getInstance(orgAddress.rute); + if (orgAddress.rute != null) { orgAddress.koreliste = targetAddress.koreliste; covered = true; @@ -251,7 +381,9 @@ } if (targetAddress.distributor.equals("BK")) { - orgAddress.koreliste = calculateExtendedBkKoreliste(eb,orgAddress,targetAddress); + orgAddress.koreliste = calculateExtendedBkKoreliste(eb,orgAddress,targetAddress); + orgAddress.koreliste = korelisteHelper.getInstance(orgAddress.koreliste); + if (orgAddress.koreliste != null) { orgAddress.rute = targetAddress.rute; covered = true; @@ -263,8 +395,10 @@ orgAddress.dbkBane = targetAddress.dbkBane; /* Sådan gør den gamle service */ - orgAddress.kommunekode = targetAddress.kommunekode; - orgAddress.vejkode = targetAddress.vejkode; + /* 20150520 THN- hvis vi bibeholder de originale kommune+vejkoder kan vi bruge DAVID til join i databasen*/ + //orgAddress.kommunekode = targetAddress.kommunekode; + //orgAddress.vejkode = targetAddress.vejkode; + orgAddress.distributor = targetAddress.distributor; } @@ -274,11 +408,11 @@ idAddressMap = null; ////////////////////////////////////////////////////////////////////////////////////// - long start3 = System.currentTimeMillis(); - System.out.println("Build, stage2 elapsed: " + (start3-start2) ); - System.out.println("Build -- stage 3 - 100pct"); + long start4 = System.currentTimeMillis(); + System.out.println("Build, stage3 elapsed: " + (start4-start3) ); + System.out.println("Build -- stage 4 - 100pct"); - Map hundredePct = DatabaseLayer.get100PctList(); + Map hundredePct = DatabaseLayer.get100PctList(); for (Address addr : alleAdresser) { if (addr.daekningsType != DaekningsType.DAEKNING_IKKEDAEKKET) { continue; @@ -303,7 +437,7 @@ //////////////////////////////////////////////////////////////////////////////////// long stop = System.currentTimeMillis(); - System.out.println("Build, stage3 elapsed: " + (stop-start3) ); + System.out.println("Build, stage3 elapsed: " + (stop-start4) ); System.out.println("Build -- Gathering statistics"); for (Address addr : alleAdresser) { @@ -321,11 +455,13 @@ stats.ikkeDaekketCount++; } } + stats.totalCount = alleAdresser.size(); stats.elapsed = stop-start1; stats.buildTime = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format( new Date() ); + System.out.println("Build: totalCount: " + stats.totalCount); System.out.println("Build: direkteCount: " + stats.direkteCount); System.out.println("Build: extendedCount: " + stats.extendedCount); System.out.println("Build: hundredePctCount: " + stats.hundredePctCount); @@ -348,18 +484,10 @@ } - private String getbestLevenshteinDistance(String vasketVejnavn, Map postnrVeje) { - for(String vej : postnrVeje.keySet()) { - if ( StringUtils.getLevenshteinDistance(vasketVejnavn, vej) == 1) { - System.out.println("Levenstein: " + vasketVejnavn + "->" + vej); - return vej; - } - } - - return null; - } - private String calculateExtendedDaoRoute(ExtendedBean eb, Address orgAddress, Address targetAddress) { + if (targetAddress.rute == null) { //hvis targetAdress.rute er null så er adressen ikke dækket alligevel + return null; + } // /////////////////////////////////////////////////////////////////// switch( eb.transport) { @@ -426,17 +554,23 @@ vejnavn = vejnavn.toLowerCase(); HashSet aliasSet = new HashSet(); aliasSet.add(vejnavn); - - aliasSet.add(vejnavn.replace("u", "ü") ); - aliasSet.add(vejnavn.replace("ü", "u") ); - + aliasSet.add(vejnavn.replace("alle", "allé") ); aliasSet.add(vejnavn.replace("allé", "alle") ); + + // forkortelser aliasSet.add(vejnavn.replace("dronningens", "dr") ); aliasSet.add(vejnavn.replace("dr.", "dronningens") ); aliasSet.add(vejnavn.replace("dr ", "dronningens") ); + aliasSet.add(vejnavn.replace("dronning", "dr") ); + aliasSet.add(vejnavn.replace("dr.", "dronning") ); + aliasSet.add(vejnavn.replace("dr ", "dronning") ); + + aliasSet.add(vejnavn.replace("kng", "kongen") ); + aliasSet.add(vejnavn.replace("kongen", "kng") ); + aliasSet.add(vejnavn.replace("kvt", "kvarter") ); aliasSet.add(vejnavn.replace("kvarter", "kvt") ); @@ -452,7 +586,9 @@ aliasSet.add(vejnavn.replace("st.", "store") ); aliasSet.add(vejnavn.replace("søndre", "sdr") ); - aliasSet.add(vejnavn.replace("sdr", "søndre") ); + aliasSet.add(vejnavn.replace("sdr", "søndre") ); + aliasSet.add(vejnavn.replace("sønder", "sdr") ); + aliasSet.add(vejnavn.replace("sdr", "sønder") ); aliasSet.add(vejnavn.replace("nørre", "nr") ); @@ -460,19 +596,90 @@ aliasSet.add(vejnavn.replace("nordre", "ndr") ); aliasSet.add(vejnavn.replace("ndr", "nordre") ); + + + aliasSet.add(vejnavn.replace("vestre", "vester") ); + aliasSet.add(vejnavn.replace("vester", "vestre") ); + + aliasSet.add(vejnavn.replace("søndre", "sønder") ); + aliasSet.add(vejnavn.replace("sønder", "søndre") ); + + aliasSet.add(vejnavn.replace("østre", "øster") ); + aliasSet.add(vejnavn.replace("øster", "østre") ); + + aliasSet.add(vejnavn.replace("borgmester", "borgm") ); + aliasSet.add(vejnavn.replace("borgm", "borgmester") ); + aliasSet.add(vejnavn.replace("sankt", "skt") ); aliasSet.add(vejnavn.replace("sankt", "sct") ); aliasSet.add(vejnavn.replace("skt", "sankt") ); aliasSet.add(vejnavn.replace("skt", "sct") ); - aliasSet.add(vejnavn.replace("sct", "skt") ); + aliasSet.add(vejnavn.replace("sct", "skt") ); + + + + // fornavn forkortelser + aliasSet.add(vejnavn.replace("john", "j") ); + aliasSet.add(vejnavn.replace("thomas", "th") ); + aliasSet.add(vejnavn.replace("thorvald", "th") ); + aliasSet.add(vejnavn.replace("frederik", "fr") ); + aliasSet.add(vejnavn.replace("frederiks", "fr") ); + + + aliasSet.add(vejnavn.replace("christian", "chr") ); + aliasSet.add(vejnavn.replace("christians", "chr") ); + aliasSet.add(vejnavn.replace("kristian", "kr") ); + aliasSet.add(vejnavn.replace("kristians", "kr") ); + + + // alternative stavninger + aliasSet.add(vejnavn.replace("peder", "peter") ); + aliasSet.add(vejnavn.replace("peter", "peder") ); + + + // Romertal + aliasSet.add(vejnavn.replace("1", "i") ); + aliasSet.add(vejnavn.replace("i", "1") ); + + aliasSet.add(vejnavn.replace("2", "ii") ); + aliasSet.add(vejnavn.replace("ii", "2") ); + + aliasSet.add(vejnavn.replace("3", "iii") ); + aliasSet.add(vejnavn.replace("iii", "3") ); + + aliasSet.add(vejnavn.replace("4", "iv") ); + aliasSet.add(vejnavn.replace("iv", "4") ); + + aliasSet.add(vejnavn.replace("5", "v") ); + aliasSet.add(vejnavn.replace("v", "5") ); + + aliasSet.add(vejnavn.replace("6", "vi") ); + aliasSet.add(vejnavn.replace("vi", "6") ); + + aliasSet.add(vejnavn.replace("7", "vii") ); + aliasSet.add(vejnavn.replace("vii", "7") ); + + aliasSet.add(vejnavn.replace("8", "viii") ); + aliasSet.add(vejnavn.replace("viii", "8") ); + + aliasSet.add(vejnavn.replace("9", "ix") ); + aliasSet.add(vejnavn.replace("ix", "9") ); + + aliasSet.add(vejnavn.replace("10", "x") ); + aliasSet.add(vejnavn.replace("x", "10") ); + //alternative måder at stave vej/gade/alle aliasSet.add(vejnavn.replace("vej", "ve") ); aliasSet.add(vejnavn.replace("vej", "vj") ); aliasSet.add(vejnavn.replace("vej", "v") ); + aliasSet.add(vejnavn.replace("vej", "vejen") ); + aliasSet.add(vejnavn.replace("vejen", "vej") ); + + aliasSet.add(vejnavn.replace("v", "vej") );//Vi kan have vejnavne i DB der bare slutter på v istedet for vej aliasSet.add(vejnavn.replace("alle", "all") ); aliasSet.add(vejnavn.replace("allé", "all") ); @@ -480,7 +687,16 @@ aliasSet.add(vejnavn.replace("allé", "allú") ); aliasSet.add(vejnavn.replace("gade", "gaed") ); //Fundet i logs.hentruteinfo + aliasSet.add(vejnavn.replace("gade", "gde") ); + aliasSet.add(vejnavn.replace("plads", "pl") ); + aliasSet.add(vejnavn.replace("vænget", "vænge") ); + + aliasSet.add(vejnavn.replace("boulevard", "blvd") ); + aliasSet.add(vejnavn.replace("blvd", "boulevard") ); + + aliasSet.add(vejnavn.replace("boulevard", "boule") ); + aliasSet.add(vejnavn.replace("boule", "boulevard") ); // Opbyg æøå varianter over alle fundne aliaser @@ -499,7 +715,7 @@ //danske tegn 2 aliasSet.add( vVejnavn.replace("æ", "ae").replace("ø", "oe") ); aliasSet.add( vVejnavn.replace("æ", "ae").replace("å", "aa") ); - aliasSet.add( vVejnavn.replace("ø", "ae").replace("å", "aa") ); + aliasSet.add( vVejnavn.replace("ø", "oe").replace("å", "aa") ); aliasSet.add( vVejnavn.replace("ae", "æ").replace("oe","ø") ); aliasSet.add( vVejnavn.replace("ae", "æ").replace("aa","å") ); aliasSet.add( vVejnavn.replace("oe", "ø").replace("aa", "å") ); @@ -507,10 +723,51 @@ //danske tegn 3 aliasSet.add( vejnavn.replace("æ", "ae").replace("ø", "oe").replace("å", "aa") ); aliasSet.add( vejnavn.replace("ae", "æ").replace("oe", "ø").replace("aa", "å") ); + + + //udenlandsketegn + aliasSet.add(vejnavn.replace("u", "ü") ); + aliasSet.add(vejnavn.replace("ü", "u") ); + + aliasSet.add(vejnavn.replace("ä", "æ") ); + aliasSet.add(vejnavn.replace("æ", "ä") ); + + aliasSet.add(vejnavn.replace("ö", "ø") ); + aliasSet.add(vejnavn.replace("ø", "ö") ); } return aliasSet; } + public Set getPostnumre() { + return new TreeSet( searchPostnrVejnavnGadeid.keySet() ); + } + public Set> getVejnavne(short postnr) { + Map map = searchPostnrVejnavnGadeid.get(postnr); + TreeMap newMap = new TreeMap(); + for (Entry entry : map.entrySet() ) { + newMap.put(entry.getKey(), entry.getValue()); + } + + return newMap.entrySet(); + } + + public Set getHusnumre(int gadeid) { + + Map gade = searchGadeidentAdresser.get(gadeid); + + Set set = new TreeSet( new NaturalOrderComparator() ); + set.addAll( gade.keySet() ); + + return set; + } + + public Address getAdresse(int gadeid, String husnr) { + + Map gade = searchGadeidentAdresser.get(gadeid); + return gade.get(husnr); + + } + }