--- dao/DaoAdresseService/src/main/java/dk/daoas/daoadresseservice/AddressSearch.java 2015/03/25 07:12:23 2498 +++ dao/DaoAdresseService/src/main/java/dk/daoas/daoadresseservice/AddressSearch.java 2016/01/15 08:18:37 2818 @@ -6,7 +6,6 @@ import java.util.Collections; import java.util.Date; import java.util.HashMap; -import java.util.HashSet; import java.util.List; import java.util.Map; import java.util.Map.Entry; @@ -27,13 +26,16 @@ import dk.daoas.daoadresseservice.beans.SearchResult; import dk.daoas.daoadresseservice.beans.SearchResult.Status; import dk.daoas.daoadresseservice.db.DatabaseLayer; +import dk.daoas.daoadresseservice.util.DaoUtils; import dk.daoas.daoadresseservice.util.DeduplicateHelper; import dk.daoas.daoadresseservice.util.NaturalOrderComparator; +import dk.daoas.daoadresseservice.util.NearestShortTreeMap; public class AddressSearch { private Map> searchPostnrVejnavnGadeid; - private Map> searchGadeidentAdresser; + private Map>> searchGadeidentAdresser; // Gadeident -> husnrumre -> litra + private List
alleAdresser; @@ -41,28 +43,61 @@ private DataStatisticsBean stats = new DataStatisticsBean(); - ServiceConfig config; + private DatabaseLayer db; + private ServiceConfig config; + StreetnameHelper levenshteinHelper; + StreetnameHelper metaphoneHelper; StreetnameHelper googleHelper; StreetnameHelper osmHelper; - public AddressSearch(ServiceConfig config) { + public AddressSearch(DatabaseLayer db, ServiceConfig config) { + + this.db = db; this.config = config; levenshteinHelper = new LevenshteinStreetnameHelper( this ); + metaphoneHelper = new DoubleMetaphoneStreetnameHelper(config); googleHelper = new GoogleStreetnameHelper( config ); osmHelper = new OSMStreetnameHelper( config ); } + public Address getAddressSafe(int gadeid, short husnr, String litra) throws Exception { + + Map> gade = searchGadeidentAdresser.get(gadeid); + + if (gade == null) { + throw new Exception("GadeID ikke fundet"); + } + + Map litraList = gade.get(husnr); + + Address addr = litraList.get(litra); + + if (addr == null) { + throw new Exception("Adresse ikke ikke fundet"); + } + + return addr; + } + public SearchResult search(String postnrStr, String adresse) { + return search(postnrStr, adresse, false); + } + + + public SearchResult search(String postnrStr, String adresse, boolean naermesteHusnr) { + + postnrStr = postnrStr.trim(); + adresse = adresse.trim(); + + SearchRequest request = new SearchRequest(); SearchResult result = new SearchResult(); - - String helperSearchKey = ""; try { request.postnr = Short.parseShort(postnrStr); @@ -90,44 +125,50 @@ return result; } - request.vasketVejnavn = AddressUtils.vaskVejnavn( request.vejnavn ); + result.vasketVejnavn = AddressUtils.vaskVejnavn( request.vejnavn ); - if (request.vasketVejnavn.indexOf("pakkebo") > -1 - || request.vasketVejnavn.indexOf("døgnpost") > -1 - || request.vasketVejnavn.indexOf("døgnbo") > -1 - || request.vasketVejnavn.equals("id") + if (result.vasketVejnavn.indexOf("pakkebo") > -1 + || result.vasketVejnavn.indexOf("pakkepost") > -1 + || result.vasketVejnavn.indexOf("postbo") > -1 // postbox/postboks + || result.vasketVejnavn.indexOf("døgnpost") > -1 + || result.vasketVejnavn.indexOf("døgnbo") > -1 // døgnbox // døgnboks + || result.vasketVejnavn.equals("id") ) { result.status = Status.ERROR_POSTBOX; return result; } - Integer gadeident = request.streetNames.get(request.vasketVejnavn); + // LookupStreetname er en indkapsling af alm + levenstein + google + osm + Integer gadeident = lookupStretname(request, result, true); - if ( gadeident == null) { - helperSearchKey = "" + request.postnr + "/" + request.vasketVejnavn; - gadeident = helperCache.get(helperSearchKey); - } - + /* + * Hvis der ikke er direkte hits, prøver vi at skære ord af vejnavn + * + * Denne sektion er MEGET experimental da den øger antallet af kald til google/OSM væsentligt*/ if (gadeident == null) { - String vej = levenshteinHelper.proposeStreetName(request, result); - if (vej != null) { - gadeident = request.streetNames.get(vej); - } - } - - - // Brug OpenStreetMap før vi prøver google - // For google har en request limit, det har OSM ikke! - if ( gadeident == null) { - String vej = osmHelper.proposeStreetName(request, result); - gadeident = helperWrapper(vej, request.streetNames, helperSearchKey); - } - - if ( gadeident == null) { - String vej = googleHelper.proposeStreetName(request, result); - gadeident = helperWrapper(vej, request.streetNames, helperSearchKey); + final int MAX_TRIES = 4; + + String vejnavnParts[] = request.vejnavn.split(" "); + + for (int i=1; i<=MAX_TRIES && i gade = searchGadeidentAdresser.get(gadeident); + Map> gade = searchGadeidentAdresser.get(gadeident); if (gade == null) { //Denne søgning må ikke fejle result.status = Status.ERROR_INTERNAL; return result; @@ -148,15 +189,40 @@ //Kunne evt klares med Iterables.get fra Guava/Collections - Address firstAddress = gade.values().iterator().next(); + Address firstAddress = gade.values().iterator().next().values().iterator().next(); //Første husnr -> første litra result.vej = firstAddress.vejnavn; - String husnrSearch = "" + result.splitResult.husnr + result.splitResult.litra; - Address addr = gade.get(husnrSearch); + short husnrSearch = Short.parseShort(result.splitResult.husnr ); + Map litraList = gade.get(husnrSearch); + - if (addr == null) { - result.status = Status.ERROR_UNKNOWN_ADDRESSPOINT; - return result; + if (litraList == null) { //Husnr ikke fundet + + if (naermesteHusnr) { + TreeMap> gadeTreeMap = (TreeMap>) gade; + result.anvendtHusnr = NearestShortTreeMap.getNearestKey(husnrSearch, gadeTreeMap); + + result.nearestHusnr = true; + litraList = gade.get(result.anvendtHusnr); + + + } else { + result.status = Status.ERROR_UNKNOWN_ADDRESSPOINT; + return result; + } + } + + Address addr = litraList.get( result.splitResult.litra ); + + if (addr == null) { //litra ikke fundet + if (config.nearestLitra == true || naermesteHusnr == true) { + result.nearestLitra = true; + addr = litraList.values().iterator().next(); + } else { + //husnr fundet men litra blev ikke fundet + result.status = Status.ERROR_UNKNOWN_ADDRESSPOINT; + return result; + } } result.address = addr; @@ -177,6 +243,47 @@ return result; } + + + private Integer lookupStretname(SearchRequest request, SearchResult result, boolean useExternal) { + String helperSearchKey = ""; + + Integer gadeident = request.streetNames.get(result.vasketVejnavn); + + + if ( gadeident == null) { + helperSearchKey = "" + request.postnr + "/" + result.vasketVejnavn; + gadeident = helperCache.get(helperSearchKey); + } + + if (gadeident == null) { + String vej = levenshteinHelper.proposeStreetName(request, result); + if (vej != null) { + gadeident = request.streetNames.get(vej); + } + } + + if (gadeident == null) { + String vej = metaphoneHelper.proposeStreetName(request, result); + if (vej != null) { + gadeident = request.streetNames.get(vej); + } + } + + + // Brug OpenStreetMap før vi prøver google + // For google har en request limit, det har OSM ikke! + if ( gadeident == null && useExternal) { + String vej = osmHelper.proposeStreetName(request, result); + gadeident = helperWrapper(vej, request.streetNames, helperSearchKey); + } + + if ( gadeident == null && useExternal) { + String vej = googleHelper.proposeStreetName(request, result); + gadeident = helperWrapper(vej, request.streetNames, helperSearchKey); + } + return gadeident; + } private Integer helperWrapper(String vej, Map postnrVeje, String helperSearchKey) { if (vej == null) @@ -192,7 +299,7 @@ } - public Map getStretsByPostal(int zip) { + public Map getStretsByPostal(short zip) { return searchPostnrVejnavnGadeid.get(zip); } @@ -200,28 +307,38 @@ public void buildSearchStructures() throws SQLException{ searchPostnrVejnavnGadeid = new HashMap>(); - searchGadeidentAdresser = new HashMap>(); + searchGadeidentAdresser = new HashMap>>(); helperCache = new ConcurrentHashMap(); + // ////////////////////// + // Start stage1 + long start1 = System.currentTimeMillis(); System.out.println("Build -- stage 1"); - alleAdresser = DatabaseLayer.getAllAdresses(); + alleAdresser = db.getAllAdresses(); - /* Mapper mellem db Row ID og adresse noden */ + /* Mapper mellem db Row ID og adresse noden - skal bruges i stage3*/ Map idAddressMap = new HashMap( alleAdresser.size() ); - DeduplicateHelper aliasHelper = new DeduplicateHelper(); - DeduplicateHelper husnrHelper = new DeduplicateHelper(); + + + DeduplicateHelper shortHelper = new DeduplicateHelper(); + DeduplicateHelper intHelper = new DeduplicateHelper(); + + AliasGenerator aliasGenerator = new AliasGenerator(); + for (Address a : alleAdresser) { idAddressMap.put(a.id, a); - Map postnrVeje = searchPostnrVejnavnGadeid.get(a.postnr); + Short postnr = shortHelper.getInstance(a.postnr); + + Map postnrVeje = searchPostnrVejnavnGadeid.get(postnr); if (postnrVeje == null) { - postnrVeje = new ConcurrentHashMap(); - searchPostnrVejnavnGadeid.put(a.postnr, postnrVeje); + postnrVeje = new HashMap(10240); //lige nu indeholder den største 9500 entries + searchPostnrVejnavnGadeid.put(postnr, postnrVeje); } @@ -230,34 +347,47 @@ if (gadeident == null) { //postnrVeje.put(vasketVejnavn, a.gadeid); - gadeident = a.gadeid; + gadeident = intHelper.getInstance( a.gadeid ); + + Set aliaser = aliasGenerator.findVejAliaser(a.vejnavn); + for(String alias : aliaser) { + postnrVeje.put(alias, gadeident); + } - Set aliaser = findVejAliaser(a.vejnavn); - for(String alias : aliaser) { - String vasketAlias = AddressUtils.vaskVejnavn(alias); - vasketAlias = aliasHelper.getInstance(vasketAlias); - - postnrVeje.put(vasketAlias, gadeident); - } } - Map gade = searchGadeidentAdresser.get(gadeident); + + Map> gade = searchGadeidentAdresser.get(gadeident); if (gade == null) { - gade = new HashMap(); + gade = new TreeMap>(); searchGadeidentAdresser.put(gadeident, gade); } - String husnrSearch = "" + a.husnr + a.husnrbogstav; - husnrSearch = husnrHelper.getInstance(husnrSearch); - gade.put(husnrSearch, a); + + Map litraList = gade.get(a.husnr); + if (litraList == null) { + litraList = new HashMap(); + gade.put(a.husnr, litraList); + } + + litraList.put(a.husnrbogstav, a); } + + aliasGenerator.clear(); //frigiv hukommelse inden stage2 + aliasGenerator = null; + shortHelper.clear(); + shortHelper = null; + intHelper.clear(); + intHelper = null; + + //////////////////////////////////////////////////////////////////////////////////////// long start2 = System.currentTimeMillis(); System.out.println("Build, stage1 elapsed: " + (start2-start1) ); System.out.println("Build -- stage 2 alias tabel"); int vaskCount = 0; - List aliasList = DatabaseLayer.getAliasList(); + List aliasList = db.getAliasList(); for (AliasBean alias : aliasList) { Map postnrVeje = searchPostnrVejnavnGadeid.get(alias.postnr); @@ -285,6 +415,8 @@ } System.out.println("Anvendte " + vaskCount + " aliaser fra databasen"); + aliasList.clear();//cleanup inden stage3 + //////////////////////////////////////////////////////////////////////////////////////// long start3 = System.currentTimeMillis(); @@ -294,7 +426,7 @@ DeduplicateHelper ruteHelper = new DeduplicateHelper(); DeduplicateHelper korelisteHelper = new DeduplicateHelper(); - List extDao = DatabaseLayer.getExtendedAdresslist(); + List extDao = db.getExtendedAdresslist(); for (ExtendedBean eb : extDao) { Address orgAddress = idAddressMap.get(eb.orgId); @@ -351,22 +483,26 @@ orgAddress.dbkBane = targetAddress.dbkBane; /* Sådan gør den gamle service */ - orgAddress.kommunekode = targetAddress.kommunekode; - orgAddress.vejkode = targetAddress.vejkode; + /* 20150520 THN- hvis vi bibeholder de originale kommune+vejkoder kan vi bruge DAVID til join i databasen*/ + //orgAddress.kommunekode = targetAddress.kommunekode; + //orgAddress.vejkode = targetAddress.vejkode; + orgAddress.distributor = targetAddress.distributor; } } - // nu skal vi ikke bruge idAddressMap længere + // cleanup inden stage 4 idAddressMap = null; + ruteHelper = null; + korelisteHelper = null; ////////////////////////////////////////////////////////////////////////////////////// long start4 = System.currentTimeMillis(); System.out.println("Build, stage3 elapsed: " + (start4-start3) ); System.out.println("Build -- stage 4 - 100pct"); - Map hundredePct = DatabaseLayer.get100PctList(); + Map hundredePct = db.get100PctList(); for (Address addr : alleAdresser) { if (addr.daekningsType != DaekningsType.DAEKNING_IKKEDAEKKET) { continue; @@ -391,7 +527,7 @@ //////////////////////////////////////////////////////////////////////////////////// long stop = System.currentTimeMillis(); - System.out.println("Build, stage3 elapsed: " + (stop-start4) ); + System.out.println("Build, stage4 elapsed: " + (stop-start4) ); System.out.println("Build -- Gathering statistics"); for (Address addr : alleAdresser) { @@ -409,11 +545,13 @@ stats.ikkeDaekketCount++; } } + stats.totalCount = alleAdresser.size(); stats.elapsed = stop-start1; stats.buildTime = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format( new Date() ); + System.out.println("Build: totalCount: " + stats.totalCount); System.out.println("Build: direkteCount: " + stats.direkteCount); System.out.println("Build: extendedCount: " + stats.extendedCount); System.out.println("Build: hundredePctCount: " + stats.hundredePctCount); @@ -428,6 +566,10 @@ return stats; } + public DatabaseLayer getDatabaseLayer() { + return db; + } + public void clear() { searchPostnrVejnavnGadeid.clear(); searchGadeidentAdresser.clear(); @@ -450,7 +592,7 @@ return ".." + targetAddress.rute; } else if (eb.afstand < 0.701) { return "..." + targetAddress.rute; - } else if (eb.afstand < 0.501) { + } else if (eb.afstand < 1.001) { return "...." + targetAddress.rute; } break; @@ -476,6 +618,8 @@ return "...." + targetAddress.rute; } break; + default: + System.out.println("Ukendt transport type: " + eb ); } return null; } @@ -491,6 +635,17 @@ return result; } + public List
get100PctAddresses() { + List
result = new ArrayList
(120000); + for (Address a : alleAdresser) { + if ( a.daekningsType == DaekningsType.DAEKNING_100PCT) { + result.add(a); + } + } + Collections.sort(result ); + return result; + } + /////////////////////////////////////////////////////////// private String calculateExtendedBkKoreliste(ExtendedBean eb, Address orgAddress, Address targetAddress) { String inject; @@ -502,146 +657,6 @@ return AddressUtils.injectIntoBk(targetAddress.koreliste, inject); } - private Set findVejAliaser(String vejnavn) { - vejnavn = vejnavn.toLowerCase(); - HashSet aliasSet = new HashSet(); - aliasSet.add(vejnavn); - - aliasSet.add(vejnavn.replace("u", "ü") ); - aliasSet.add(vejnavn.replace("ü", "u") ); - - aliasSet.add(vejnavn.replace("alle", "allé") ); - aliasSet.add(vejnavn.replace("allé", "alle") ); - - aliasSet.add(vejnavn.replace("dronningens", "dr") ); - aliasSet.add(vejnavn.replace("dr.", "dronningens") ); - aliasSet.add(vejnavn.replace("dr ", "dronningens") ); - - aliasSet.add(vejnavn.replace("dronning", "dr") ); - aliasSet.add(vejnavn.replace("dr.", "dronning") ); - aliasSet.add(vejnavn.replace("dr ", "dronning") ); - - aliasSet.add(vejnavn.replace("kng", "kongen") ); - aliasSet.add(vejnavn.replace("kongen", "kng") ); - - aliasSet.add(vejnavn.replace("kvt", "kvarter") ); - aliasSet.add(vejnavn.replace("kvarter", "kvt") ); - - aliasSet.add(vejnavn.replace("gl", "gammel") ); - aliasSet.add(vejnavn.replace("gammel", "gl") ); - - aliasSet.add(vejnavn.replace("lille", "ll") ); - aliasSet.add(vejnavn.replace("ll ", "lille") ); - aliasSet.add(vejnavn.replace("ll.", "lille") ); - - aliasSet.add(vejnavn.replace("store", "st") ); - aliasSet.add(vejnavn.replace("st ", "store") ); - aliasSet.add(vejnavn.replace("st.", "store") ); - - aliasSet.add(vejnavn.replace("søndre", "sdr") ); - aliasSet.add(vejnavn.replace("sdr", "søndre") ); - - - aliasSet.add(vejnavn.replace("nørre", "nr") ); - aliasSet.add(vejnavn.replace("nr", "nørre") ); - - aliasSet.add(vejnavn.replace("nordre", "ndr") ); - aliasSet.add(vejnavn.replace("ndr", "nordre") ); - - aliasSet.add(vejnavn.replace("sankt", "skt") ); - aliasSet.add(vejnavn.replace("sankt", "sct") ); - aliasSet.add(vejnavn.replace("skt", "sankt") ); - - aliasSet.add(vejnavn.replace("skt", "sct") ); - aliasSet.add(vejnavn.replace("sct", "skt") ); - - - // fornavn forkortelser - aliasSet.add(vejnavn.replace("john", "j") ); - aliasSet.add(vejnavn.replace("thomas", "th") ); - aliasSet.add(vejnavn.replace("thorvald", "th") ); - - - // Romertal - aliasSet.add(vejnavn.replace("1", "i") ); - aliasSet.add(vejnavn.replace("i", "1") ); - - aliasSet.add(vejnavn.replace("2", "ii") ); - aliasSet.add(vejnavn.replace("ii", "2") ); - - aliasSet.add(vejnavn.replace("3", "iii") ); - aliasSet.add(vejnavn.replace("iii", "3") ); - - aliasSet.add(vejnavn.replace("4", "iv") ); - aliasSet.add(vejnavn.replace("iv", "4") ); - - aliasSet.add(vejnavn.replace("5", "v") ); - aliasSet.add(vejnavn.replace("v", "5") ); - - aliasSet.add(vejnavn.replace("6", "vi") ); - aliasSet.add(vejnavn.replace("vi", "6") ); - - aliasSet.add(vejnavn.replace("7", "vii") ); - aliasSet.add(vejnavn.replace("vii", "7") ); - - aliasSet.add(vejnavn.replace("8", "viii") ); - aliasSet.add(vejnavn.replace("viii", "8") ); - - aliasSet.add(vejnavn.replace("9", "ix") ); - aliasSet.add(vejnavn.replace("ix", "9") ); - - aliasSet.add(vejnavn.replace("10", "x") ); - aliasSet.add(vejnavn.replace("x", "10") ); - - - //alternative måder at stave vej/gade/alle - aliasSet.add(vejnavn.replace("vej", "ve") ); - aliasSet.add(vejnavn.replace("vej", "vj") ); - aliasSet.add(vejnavn.replace("vej", "v") ); - aliasSet.add(vejnavn.replace("vej", "vejen") ); - aliasSet.add(vejnavn.replace("vejen", "vej") ); - - aliasSet.add(vejnavn.replace("alle", "all") ); - aliasSet.add(vejnavn.replace("allé", "all") ); - aliasSet.add(vejnavn.replace("alle", "allú") ); //Fundet i logs.hentruteinfo - aliasSet.add(vejnavn.replace("allé", "allú") ); - - aliasSet.add(vejnavn.replace("gade", "gaed") ); //Fundet i logs.hentruteinfo - aliasSet.add(vejnavn.replace("gade", "gde") ); - - aliasSet.add(vejnavn.replace("plads", "pl") ); - aliasSet.add(vejnavn.replace("vænget", "vænge") ); - - - // Opbyg æøå varianter over alle fundne aliaser - - @SuppressWarnings("unchecked") - HashSet variants = (HashSet) aliasSet.clone(); - - for (String vVejnavn : variants) { - // danske tegn 1 - aliasSet.add( vVejnavn.replace("æ", "ae") ); - aliasSet.add( vVejnavn.replace("ø", "oe") ); - aliasSet.add( vVejnavn.replace("å", "aa") ); - aliasSet.add( vVejnavn.replace("ae", "æ") ); - aliasSet.add( vVejnavn.replace("oe", "ø") ); - aliasSet.add( vVejnavn.replace("aa", "å") ); - - //danske tegn 2 - aliasSet.add( vVejnavn.replace("æ", "ae").replace("ø", "oe") ); - aliasSet.add( vVejnavn.replace("æ", "ae").replace("å", "aa") ); - aliasSet.add( vVejnavn.replace("ø", "oe").replace("å", "aa") ); - aliasSet.add( vVejnavn.replace("ae", "æ").replace("oe","ø") ); - aliasSet.add( vVejnavn.replace("ae", "æ").replace("aa","å") ); - aliasSet.add( vVejnavn.replace("oe", "ø").replace("aa", "å") ); - - //danske tegn 3 - aliasSet.add( vejnavn.replace("æ", "ae").replace("ø", "oe").replace("å", "aa") ); - aliasSet.add( vejnavn.replace("ae", "æ").replace("oe", "ø").replace("aa", "å") ); - } - - return aliasSet; - } public Set getPostnumre() { return new TreeSet( searchPostnrVejnavnGadeid.keySet() ); @@ -649,28 +664,33 @@ public Set> getVejnavne(short postnr) { Map map = searchPostnrVejnavnGadeid.get(postnr); - TreeMap newMap = new TreeMap(); - for (Entry entry : map.entrySet() ) { - newMap.put(entry.getKey(), entry.getValue()); - } + + TreeMap newMap = new TreeMap( map );//Lav et nyt TreeMap for at sikre sortering return newMap.entrySet(); } public Set getHusnumre(int gadeid) { - Map gade = searchGadeidentAdresser.get(gadeid); + Map> gade = searchGadeidentAdresser.get(gadeid); Set set = new TreeSet( new NaturalOrderComparator() ); - set.addAll( gade.keySet() ); + for(Map litraList : gade.values()) { + for (Address a: litraList.values()) { + set.add( a.husnr + a.husnrbogstav ); + } + } return set; } - public Address getAdresse(int gadeid, String husnr) { - - Map gade = searchGadeidentAdresser.get(gadeid); - return gade.get(husnr); + public Address getAdresse(int gadeid, String husnrStr) { + short husnr = Short.parseShort( husnrStr.replaceAll("[^\\d]","") ); + String litra = husnrStr.replaceAll("\\d", ""); + + Map> gade = searchGadeidentAdresser.get(gadeid); + Map litraList = gade.get(husnr); + return litraList.get(litra); }