In Rahmen einen Projekts sollten automatisch Daten einer sehr alten Webanwendung aus dem Intranet automatisiert in eine Datenbank eingelesen werden. Mein Projektpartner war überrascht, wie schnell ein Screen-Scraping-Tool in .NET zusammengebaut ist, so dass zumindest für den Übergang auf ein aufwendiges Relaunch der Intranet-Seite mit entsprechenden Schnittstellen verzichtet werden konnte. Es folgt das Grundkonzept als kleines Tutorial. (Wichtig ist zu beachten, dass dieses Tool nur für eigene Websites eingesetzt werden sollte, da bei fremden Anbieten die Urheberrechte geachtet werden müssen – unbedingt vorher anfragen bzw. AGB lesen).
1.) Starten Sie Visual C# (in dem folgenden Beispiel Visual C# 2008 Express Edition, mit VB ist es sozusagen identisch) und legen Sie ein neues Windows Forms Projekt an.
2.) Ziehen Sie auf das Form zwei Buttons (cmdStart und cmdAuslesen), ein Label (lblAusgabe, am besten ohne AutoSize und mit Border) und einen WebBrowser (webMeinBrowser).
3) Doppelklicken Sie auf den Start-Button und erzeugen Sie damit cmdStart_click. Jetzt soll die zu analysierende Seite aufgerufen werden. Für Testzwecke können Sie gerne folgende Seite aus einem meiner Workshops verwenden, die eine Website mit Ajax simuliert.
http://frank-it-beratung.de/tutorialsetc/screenscrapingtutorial/
Geben Sie folgenden Code ein:
webMeinBrowser.Navigate(„http://frank-it-beratung.de/tutorialsetc/screenscrapingtutorial/“);
4) Testen Sie nun die Anwendung. Durch Klicken auf „Start“ sollte die Testseite geladen werden und sich im Sekundentag die Uhrzeit aktualisieren.
Weiterlesen →