Příběh o tom, jak mi NASA, ESA, Dánská technologická univerzita, neuronové sítě, rozhodovací stromy a další dobří lidé pomohli najít nejlepší volný hektar na Dálném východě, stejně jako v Africe, Jižní Americe a dalších „takřka“ místa.

pravěk

Zdá se, že před dvěma lety, možná dokonce před třemi, vyhlásili program na rozdělování volných hektarů na ruském Dálném východě. Při rychlém pohledu na mapu bylo jasné, že vybrat ten správný hektar není tak jednoduché a ta nejlepší a nejviditelnější místa v blízkosti měst pravděpodobně půjdou nebo již odešla k místním. Pravděpodobně mě právě v tuto chvíli napadlo, že je možné hledání toho nejlepšího místa nějak zautomatizovat.

Když jsem začal romanticky přemýšlet dál, řekl jsem si, že není nutné dívat se na Dálný východ. Právě teď je spousta půdy, kterou nikdo nikde nechce, ale to se může změnit zhruba za 50 let, až začnou docházet fosilní paliva. A lidé budou hledat nové zdroje energie. Tehdy jsem se začal poohlížet po obnovitelných zdrojích energie. A velmi rychle jsem si uvědomil, že mapa zdrojů a území, kde by se tato nová energie mohla těžit, se velmi změní. Když už taková místa najdete, můžete si je koupit předem a zbohatnout později. Po delším přemýšlení se mi zdálo, že by se to dalo stihnout klidně za pár víkendů. Teď zpětně chápu, že mi to trvalo asi rok. Hned bych rád poznamenal, že jsem v té době neměl moc znalostí o energetice, obnovitelných zdrojích nebo strojovém učení. Níže je stručná rekapitulace mého celoročního projektu.

Výběr typu obnovitelného zdroje energie

Když jsem se rozhodl pro nápad, rychle jsem se šel podívat, jaké existují obnovitelné zdroje energie a který má nejvíce energie. Zde je neúplný, ale nejběžnější seznam:

  1. sluneční záření (sluneční energie);
  2. větrná energie (větrná energie);
  3. energie řek a vodních toků (vodní energie);
  4. energie přílivu a odlivu;
  5. vlnová energie;
  6. geotermální energie;
  7. rozptýlená tepelná energie: teplo ze vzduchu, vody, oceánů, moří a nádrží;
  8. energie z biomasy,

Obecně mám spoustu takových obrázků pro různé země od různých organizací a všechno vypadá přibližně stejně:

  1. Geotermální energie je na prvním místě.
  2. Další je hydroelektřina, ale to do značné míry závisí na zemi.
  3. Na třetím místě je Vítr.

Mimochodem, už v polovině projektu jsem začal narážet na dokumenty s podobnými myšlenkami od americké vlády, jmenovitě NREL, amerického ministerstva energetiky a dalších, které dělaly prognózy a sázely na různé zdroje energie, aby se nyní pochopit, jak modernizovat země energetického systému. Například v jednom z těchto dokumentů se vše sešlo na několik možností: podíl větrné energie bude velký nebo velmi velký.

READ
Co je to tlumicí systém?

Jak jsem chtěl všechno udělat

Nápad, jak to udělat, byl docela jednoduchý a vypadal takto:

  1. Najděte místa, kde se nacházejí větrné turbíny po celém světě.
  2. Shromažďujte informace v těchto bodech:

A. Rychlost větru.
b. Směr.
C. Teplota.
d. Úleva.
E. Co mají místní rybáři rádi k obědu?
F. Atd.

Jak to bylo doopravdy

První etapa bylo docela snadné. Právě jsem si stáhl všechny záznamy bodů z OpenStreetMaps.

Mimochodem, chci poznamenat, že OSM je jen sklad informací o objektech po celém světě s jejich souřadnicemi, je tam téměř vše. Proto, poznámka pro milovníky dat, OSM je nejlepší zdroj velkých dat.

Nebylo to těžké udělat. Nejdřív jsem zkoušel používat online utility, tady to mimochodem mimochodem vypadá overpass-turbo.eu, velmi cool věc, ale nevyšlo to kvůli omezení počtu bodů a nepříliš rychlou práci na velkém množství dat. Proto jsem se musel vypořádat s utilitami, které stahovaly data z datového snímku OSM lokálně. Je možné si zde stáhnout vždy aktuální impresi? V komprimované podobě zabere asi 40 GB. Data z něj lze stahovat pomocí dotazů pomocí této utility Osmosis. Ve výsledku jsem měl datový soubor 140 tisíc bodů po celém světě se souřadnicemi a heatmapou. Vypadalo to nějak takto:

Všechny problémy začaly ve druhém stupni, protože jsem opravdu nechápal, jaké informace je třeba shromažďovat. Proto jsem se na pár dní pustil do čtení zásad provozu větrných elektráren a doporučení pro jejich umístění, omezení atp. Dokonce mám v poznámkách tyto vtipné diagramy o umístění, gradientech větru, větrných růžích a dalších užitečných pojmech.

V důsledku toho jsem přišel s tímto seznamem parametrů, které jsou podle mého názoru důležité při výběru místa:

  1. Průměrná rychlost větru za rok (ideálně 10-11m/s).
  2. Směr větru (Převládající směr – větrná růžice).
  3. Minimální rychlost větru.
  4. Maximální rychlost větru.
  5. Hustota výkonu.
  6. Průměrná teplota.
  7. Průměrná vlhkost.
  8. Průměrný tlak.
  9. Výška nad hladinou moře.
  10. Vzdálenost k vodě.
  11. Výškový rozdíl.
  12. Hladkost změn nadmořské výšky.
  13. Maximální rozdíl na ploše je 5-10 km.
  14. Procento stromů nebo výsadeb v oblasti (drsnost).
  15. Vzdálenost k obydlené oblasti.
  16. Vzdálenost k průmyslovému objektu.
  17. Průměrný počet obyvatel na plochu.
  18. Vzdálenost k silnici (moře, vzduch).
  19. Vzdálenost k elektrické síti.
  20. Vizuální a zvukové nepohodlí.
  21. Chráněná území: přírodní rezervace atd.
  22. Poleva.
READ
Jak položit aquapanel?

velká data

VÍTR. Ve skutečnosti, stejně jako se 90 % všech velkých datových projektů zhroutí ve fázi „tak se teď podívejme na vaše data, o kterých jste tolik mluvili“, i ten můj praskl. Když jsem běžel hledat údaje o rychlosti větru v Rusku, narazil jsem na toto:

A ještě tucet podobných a zbytečných obrázků. Pak jsem začal hádat, že možná v Rusku opravdu není žádná větrná energie, protože náš vítr prostě nefouká dostatečně silně a někde v tu chvíli zazněl Sečinův smích. Ale jasně si pamatuji, že v regionu Samara jsou jen stepi, a když jsem si jako dítě šel koupit chleba, velmi často mě foukalo zpátky do vchodu.
Když jsem začal hledat data o Rusku a dalších věcech, uvědomil jsem si, že to nevypadá jako typ dat, se kterými by se dalo dělat něco užitečného. Šel jsem tedy po zahraničních zdrojích a hned jsem našel výborné větrné mapy od Tier3 (Vaisala). Rozlišení se zdálo být dostatečné a pokrytí celého světa bylo vynikající. Pak jsem si uvědomil, že taková data stojí slušné peníze, asi ~1000 $ na 10 km čtverečních (údaje z doby před třemi lety). Neúspěch, pomyslel jsem si.

Poté, co jsem byl týden smutný, rozhodl jsem se napsat Vaisale, Tier3 a dalším zahraničním poradenským agenturám pro práci s větrnými a jinými větrnými generátory a požádat o data. Myslel jsem si, že když mi řeknu, jaký skvělý nápad udělám, tak mi to všichni hned stáhnou.Odpověděl jen jeden – od firmy Sander-Partner. Sám Sander dal nějaké rady a také dal odkazy na to, co jsem potřeboval: data z programu MERRA, který provozuje NASA. Stojí za zmínku, že mi trvalo asi týden večerů, než jsem přišel na to, co je Reanalysis, WRF a zhruba pochopil, co se děje: sběr, agregace, simulace a předpověď počasí, větru a dalších věcí.

Stručně řečeno, lidstvo shromáždilo spoustu dat o počasí, bylo nakresleno mnoho map s průměrnými teplotami a rychlostmi větru, ale bylo a zůstává nemožné shromáždit všechna tato data na každém místě na zeměkouli, jak tomu bylo a zůstává. proto byla bílá místa vyplněna výsledky simulace počasí za předchozí roky a nazvala ji Reanalysis. Zde je například stránka s vizualizací takových simulací větru a takto to vypadá:

READ
Jak vypočítat hloubku lití základů?

Tato data byla v podstatě souborem .csv souřadnicové sítě s průměrnou rychlostí větru s velkým krokem, tuto mapu jsem vytvořil pomocí nejlepšího bezplatného balíčku QGIS a metody interpolace datové sítě.

A pak jsem s jeho pomocí vytáhl z této mapy údaje o rychlosti větru pro každou dvojici souřadnic. V podstatě jsem skončil s mapou a datovou vrstvou pro každý pixel na ní.

Když jsem asi za pár týdnů pochopil princip práce s QGIS, začal jsem vytvářet stejné mapy pro jiné zdroje dat a vytahovat hodnoty podle souřadnic. Na teplotu, vlhkost, tlak a další věci. Zde je třeba poznamenat, že jsem převzal hlavně datová pole NASA, NOAA, ESA, WorldClim atd. Všechny jsou volně dostupné. Pomocí QGIS jsem prováděl výpočty a hledal vzdálenosti k nejbližším bodům, městům, letištím a dalším infrastrukturním zařízením. Každá karta na jeden parametr mi zabrala cca 6-8 hodin. A pokud bylo něco špatně, museli jsme to dělat znovu a znovu. Můj domácí počítač v noci šustil asi pár týdnů, ale poté už i sousedy omrzelo poslouchat na něm uvolněný chladič a já se odplazil do cloudu, kde jsem sebral malý virtuální stroj pro výpočty.

Po několika měsících jsem narazil na tuto stránku vytvořenou dánským ministerstvem větrné energie (DTU Wind Energy). Rychle se ukázalo, že jejich rozlišení je mnohonásobně lepší než moje mapa, kontaktoval jsem je a ochotně mi nahráli data po celém světě, protože přes web lze získat jen malé snímky území. Mimochodem i tuto mapu udělali pomocí simulace pohybu vrstev větru pomocí modelů WRF, WAsP a dosáhli rozlišení dat až 50-100 metrů, jelikož jsem to měl cca 1-10 km.

ÚLEVA. Pamatujte, že jsem psal, že úleva je velmi důležitá, tak jsem se rozhodl použít i tento parametr, ale ukázalo se, že ani to není jednoduché. Nejprve jsem napsal utilitu, která čerpala data z Google Elevation API. Odvedla skvělou práci a stáhla data ze všech mých bodů po celém světě v krocích po 10 km, trvalo to jen asi 12 hodin práce. Měl jsem ale i parametry pro plynulost terénu, případně průměrnou hodnotu spádu v oblasti kolem potenciálního umístění větrné elektrárny. To znamená, že jsem potřeboval data s krokem 100-200 metrů z celého světa, s jejichž pomocí jsem již mohl vypočítat průměrnou hodnotu rozdílu.

READ
Jak správně zapojit akumulátor?

Aby bylo možné vypočítat rozdíly, načerpání dat z Google Elevation by trvalo několik měsíců. Šel jsem tedy hledat jiné možnosti.

První, co jsem našel, byl Wolfram cloud, který už měl potřebná data. Pouhým napsáním vzorce začala tato věc počítat pomocí dat z oblaku Wolfram. I tam mě ale čekal neúspěch, jelikož jsem narazil na nikde neuvedené limity a po obdržení vtipné korespondence s podporou této služby jsem šel hledat jinou možnost.

Zde mi opět pomohly datové zdroje v NASA a data z vesmírného programu STRM (NASA Shuttle Radar Topography Mission Global). Poctivě jsem se je snažil stáhnout ze stránek, ale byla tam data jen pro malé oblasti. Sebral jsem odvahu, napsal jsem dopis do NASA a asi po týdnu korespondence mi stáhli potřebná data, za což jim moc děkuji. Tam se skutečně ukázalo, že data jsou v nějakém složitém satelitním binárním formátu, který jsem pravděpodobně strávil týden prohrabáváním.

Všechno skončilo dobře a vypočítal jsem metriky potřebné pro změny nadmořské výšky pro celý svět v krocích po 10 km. Mimochodem, jako okrajovou poznámku jsem vytvořil vlastní API službu, která vrací nadmořskou výšku podle souřadnic a zveřejnil ji zde algorithmia.com/algorithms/Gaploid/Elevation. Běží na Azure Tables, kam jsem chytře umístil data a doslova je tam ukládám. Mimochodem, i někdo si párkrát koupil přístup k API, protože je levnější než od Googlu.

CELKEM. Po asi 4 měsících strávených hledáním, čištěním a výpočtem v QGIS jsem dostal datovou sadu, kterou jsem mohl použít v modelech strojového učení. A který obsahoval přibližně 20 různých nastavení podle následujících kategorií: Klima, Terén, Infrastruktura, Nezbytnost nebo Spotřebitelé.

Strojové učení a předpovědi

V té době jsem již měl určité znalosti a rozuměl tomu, jak fungují algoritmy strojového učení, ale ve skutečnosti jsem nechtěl nasadit všechny tyto Pythony a Anakondy. Použil jsem tedy online službu pro figuríny bez SMS od Microsoft Azure ML Studio. Zaujalo mě, že je zdarma a vše se dá dělat myší v prohlížeči. Tady by teoreticky měl být popis toho, jak jsem další měsíc strávil tvorbou modelu, shlukováním dat a dalšími věcmi. Všechny tyto clusteringy byly obzvláště obtížné, protože QGIS je dělal velmi dlouho na mém starém domácím PC. Ve výsledku experiment vypadá takto.

READ
Co je ananas ovoce nebo zelenina?

Celkový počet bodů, které bylo potřeba ohodnotit, byl vyšlo asi 1,5 milionu. Každý takový bod má plochu 10 x 10 km a stejně tak celý svět. Odstranil jsem buňky, ve kterých již jsou větrné turbíny v okruhu 100 km, a také některé oblasti a obdržel jsem datový soubor ~1 500 000 záznamů. Model poskytl posouzení vhodnosti každého takového čtverce na planetě Zemi. Používal jsem hlavně neuronové sítě a posílil rozhodovací stromy. Přesnost v těch bodech, kde jsou již větrné turbíny umístěny, a to, co můj model předpovídal, vyšlo takto: Přesnost – ~0,9; Přesnost -~0,9. Což se mi zdá docela přesné, nebo někde proběhla nějaká rekvalifikace. Z tohoto cvičení jsem dostal:

  • Za prvé, body, kde model řekl, že by to bylo skvělé nové umístění pro větrnou turbínu.
  • Za druhé, body, kde model řekl, kde místa nejsou příliš dobrá.

Kontrola výsledku a platnosti

Po obdržení 30 000 bodů s novými umístěními jsem je vizualizoval a vypadá to jako teplotní mapa.

Vytvořil jsem malou webovou stránku pomocí cartodb pro vizualizaci mapy a zveřejnil jsem celou mapu světa – windcat.ch. Pro každý bod jsem také spočítal přibližnou produkci energie z jednoho průmyslového větrného mlýna (50 m). Body jsou zde obarveny objemem energie, nikoli odhadem pravděpodobnosti z modelu. Můžete kliknout na každý bod a objeví se tam „důvěra“ modelu v daném bodě, nazval jsem to Dobrota.

Pravdivost toho všeho jsem se snažil ověřit i odbornou metodou.

Vizuální kontrola: model předpovídá body, které se šíří podél pobřeží, což se zdá být pravda, protože od vodní hladiny bude foukat dobrý, rovnoměrný vítr.
Vizuální kontrola: shluk bodů se z větší části shoduje s místy dobré a vynikající rychlosti a hustoty vzduchu ve srovnání s větrnými mapami. Zde jsou například Egypt a Čína:

Co je další

Občas mi píšou a žádají o zaslání podrobnějších map míst nebo o vysvětlení některých věcí na mapě, ale nic víc z toho zatím nebylo. Teoreticky je možné data přepočítat ne po 10 km, ale po 100 metrech a teoreticky se může obraz velmi měnit a teoreticky dokáže předpovědět nejen oblast, ale i konkrétní lokační bod. To ale vyžaduje trochu větší výpočetní výkon, který zatím nemám. Pokud máte nějaké nápady na využití, rád si je poslechnu.