-
Vollidioten
Autor: q0r0 24.04.17 - 10:09
Wie stellen die sich das vor? Soll jeder Seitenbetreiber erst einmal jeder crawler Seite, die existiert, Bescheid geben, anstatt einfach eine robots.txt mit whitelist zu verwenden?
Egal.. ich schicke denen gerne eine Liste mit ein paar tausend Domains, damit die sehen wie dumm diese Idee war. :-) -
Re: Vollidioten
Autor: staples 24.04.17 - 10:19
Wow, du bist so ein Freiheitskämpfer.
Ernsthaft, wer nicht will, dass auf irgendwelche Daten zugegriffen wird, der soll die entsprechenden Bereiche mit Zugangskontrollen versehen. -
Re: Vollidioten
Autor: Poison Nuke 24.04.17 - 10:21
was ist das für eine dumme Argumentation? Es ist doch egal ob da eine Whitelist drin ist oder Blacklist... wenn die Datei ignoriert wird, wird einfach alles gescannt. Was ist daran nicht zu verstehen?
Normale Suchmaschinenen beachten doch auch weiterhin diese Datei.
Und falls es dir darum geht, dass bestimmte Seiten in den Index aufgenommen werden: von einer Sitemap hast du noch nie etwas gehört, oder? -
Re: Vollidioten
Autor: Apfelbrot 24.04.17 - 10:21
staples schrieb:
--------------------------------------------------------------------------------
> Wow, du bist so ein Freiheitskämpfer.
>
> Ernsthaft, wer nicht will, dass auf irgendwelche Daten zugegriffen wird,
> der soll die entsprechenden Bereiche mit Zugangskontrollen versehen.
Falls dir noch was blöderes einfällt einfach Bescheid geben! -
Re: Vollidioten
Autor: q0r0 24.04.17 - 10:32
staples schrieb:
--------------------------------------------------------------------------------
> Wow, du bist so ein Freiheitskämpfer.
>
> Ernsthaft, wer nicht will, dass auf irgendwelche Daten zugegriffen wird,
> der soll die entsprechenden Bereiche mit Zugangskontrollen versehen.
Wow, du bist so ein Checker. Kapierst nicht, dass das eine dumme Idee ist und dass ein Seitenbetreiber Sachen veröffentlicht, damit sie auf der eigenen Seite abgerufen werden. -
Re: Vollidioten
Autor: Poison Nuke 24.04.17 - 10:39
q0r0 schrieb:
--------------------------------------------------------------------------------
> Wow, du bist so ein Checker. Kapierst nicht, dass das eine dumme Idee ist
> und dass ein Seitenbetreiber Sachen veröffentlicht, damit sie auf der
> eigenen Seite abgerufen werden.
wenn der Seitenbetreiber zu unfähig ist, eine einfache Webserver-Konfig vorzunehmen, warum sollte das andere interessieren? Als Admin sollte man sich schon etwas mit seinem Job auskennen, und dazu gehört auch das man keine robots.txt benötigt um Dinge vor "unsachgemäßen" Zugriffswegen zu schützen. Wenn du willst das bestimmte Inhalte nur durch ein interes Portal oder so zu erreichen sind, dann schützt man diesen Bereich eben gegen externen Zugriff. Am einfachsten mit einer htaccess, oder durch ein rewrite oder durch Proxy usw.
Da geht sovieles, und nichts davon beruht auf dem schieren Vertrauen, dass andere vllt deine robots.txt beachten. -
Re: Vollidioten
Autor: egal 24.04.17 - 11:07
Dass die quasi die ganze Website kopieren und selbst veröffentlichen ist dir schon bewusst? Dazu auch noch historisch abrufbar. Mag sein, dass dir das bei irgendwelchen eigenen Popel-Seiten egal ist.
Für viele stellt das nachvollziehbarerweiße ein Problem dar.
Und jetzt wurde diesen Leuten eine sinnvolle Funktion genommen, darüber einfach selbst bestimmen zu können. -
Re: Vollidioten
Autor: mnementh 24.04.17 - 11:09
q0r0 schrieb:
--------------------------------------------------------------------------------
> staples schrieb:
> ---------------------------------------------------------------------------
> -----
> > Wow, du bist so ein Freiheitskämpfer.
> >
> > Ernsthaft, wer nicht will, dass auf irgendwelche Daten zugegriffen wird,
> > der soll die entsprechenden Bereiche mit Zugangskontrollen versehen.
>
> Wow, du bist so ein Checker. Kapierst nicht, dass das eine dumme Idee ist
> und dass ein Seitenbetreiber Sachen veröffentlicht, damit sie auf der
> eigenen Seite abgerufen werden.
Ich veröffentliche Inhalte, damit sie öffentlich sind. Weshalb sollte ich Nutzer auf meiner Seite festpinnen? Archive.org liefert einen nützlichen Service. Wieso sollten den nicht auch Nutzer meiner Seite nutzen können. -
Re: Vollidioten
Autor: Muhaha 24.04.17 - 11:23
egal schrieb:
--------------------------------------------------------------------------------
> Dass die quasi die ganze Website kopieren und selbst veröffentlichen ist
> dir schon bewusst?
Ja, das ist ihm bewusst.
> Dazu auch noch historisch abrufbar.
Genau DAS ist ja Sinn und Zweck der Sache. Das Internet archivieren und dokumentieren. So wie man veröffentlichte Bücher in eine Bibliothek stellt.
> Für viele stellt das nachvollziehbarerweiße ein Problem dar.
Das stellt für für sehr wenige Leute ein Problem dar. Vornehmlich Leute, die etwas vertuschen wollen oder die den gesellschaftlichen, kulturellen Zweck einer Archivierung nicht begreifen können.
> Und jetzt wurde diesen Leuten eine sinnvolle Funktion genommen, darüber
> einfach selbst bestimmen zu können.
Weil hier aus gesellschaftlichen Gründen die Archivierung als wichtiger erachtet wird als die individuelle Freiheit Inhalte mit robots.txt mehr schlecht als recht "zu schützen". Wir alle müssen in gewissem Maße Einschränkungen unserer persönlichen Freiheit hinnehmen, wenn es der Gesellschaft als Ganzes nützt. -
Re: Vollidioten
Autor: Poison Nuke 24.04.17 - 11:39
egal schrieb:
--------------------------------------------------------------------------------
> Dass die quasi die ganze Website kopieren und selbst veröffentlichen
denk mal über den Begriff "veröffentlichen" nach, was er bedeutet. Niemand stellt hier die Urheberschaft in Frage, die bleibt weiterhin erhalten. Es wird einfach nur eine Kopie angefertigt.
Wie war das denn früher bei Zeitungen? Die wurden auch von Leuten eingescannt/kopiert und archiviert, damit man in Zukunft auch noch darauf zugreifen kann, wenn es den Verlag nicht mehr geben sollte. Dahinter steht einzig und allein ein öffentliches Interesse: Die Dinge die einmal öffentlich sind, sollen auch dauerhaft zugänglich sein. -
Re: Vollidioten
Autor: jayrworthington 24.04.17 - 11:48
Muhaha schrieb:
--------------------------------------------------------------------------------
> Weil hier aus gesellschaftlichen Gründen die Archivierung als wichtiger
...was weder Du noch archive.org entscheidet.
> erachtet wird als die individuelle Freiheit Inhalte mit robots.txt mehr
Sag das mal Disney. Oder auch nur den Leistungschutzrecht-Fanatikern. Das ganze wird nach hinten losgehen, so-oder-so. Frage ist nur, ob sie's frueh genug einsehen, oder ob sie von einem US-Gericht plattgemacht werden...
> schlecht als recht "zu schützen". Wir alle müssen in gewissem Maße
> Einschränkungen unserer persönlichen Freiheit hinnehmen, wenn es der
> Gesellschaft als Ganzes nützt.
Nein, muessen wir nicht. Wenn searchengines (was archive.org ist, egal wie man es redefinieren will) anfangen, das robots.txt zu ignorieren, wird die konsequenz sein, dass die Leute sehr schnell anfangen werden, geschuetzte websites wie zB mit cloudflare zu bauen (cloudflare checkt erst, ob Du ein browser bist, wenn nicht eindeutig ja, gibts Captcha oder einfach gleich ein access denied), und auch fuer apache wird sich sowas finden lassen. Es gibt auch viele Sites, die iP-listen von Firmen (MS, Cloudflare, Amazon, Google etc) zusammenstellen, wenn es archive.org nicht einsehen will, werden sie einfach komplett geblockt... -
Re: Vollidioten
Autor: Muhaha 24.04.17 - 11:54
jayrworthington schrieb:
--------------------------------------------------------------------------------
> Muhaha schrieb:
> ---------------------------------------------------------------------------
> -----
> > Weil hier aus gesellschaftlichen Gründen die Archivierung als wichtiger
>
> ...was weder Du noch archive.org entscheidet.
Die aber den offiziellen Status einer Bibliothek hat. Man genießt deswegen gewisse Ausnahmeregelungen, die nur für Bibliotheken gelten. Archive.org darf das, weil der Gesetzgeber bereits im Vorfeld so entschieden hat.
> > schlecht als recht "zu schützen". Wir alle müssen in gewissem Maße
> > Einschränkungen unserer persönlichen Freiheit hinnehmen, wenn es der
> > Gesellschaft als Ganzes nützt.
>
> Nein, muessen wir nicht.
Doch, müssen wir.
> Wenn searchengines (was archive.org ist, egal wie
> man es redefinieren will) anfangen, das robots.txt zu ignorieren, wird die
> konsequenz sein, dass die Leute sehr schnell anfangen werden, geschuetzte
> websites wie zB mit cloudflare zu bauen (cloudflare checkt erst, ob Du ein
> browser bist, wenn nicht eindeutig ja, gibts Captcha oder einfach gleich
> ein access denied), und auch fuer apache wird sich sowas finden lassen. Es
> gibt auch viele Sites, die iP-listen von Firmen (MS, Cloudflare, Amazon,
> Google etc) zusammenstellen, wenn es archive.org nicht einsehen will,
> werden sie einfach komplett geblockt...
Search-Engines, vor allem kommerzielle, haben nicht den gesetzlichen Status einer Bibliothek. -
Re: Vollidioten
Autor: violator 24.04.17 - 12:26
Muhaha schrieb:
--------------------------------------------------------------------------------
> Archive.org darf das, weil der Gesetzgeber bereits im Vorfeld so entschieden hat.
Wessen Gesetzgeber? -
Re: Vollidioten
Autor: Cok3.Zer0 24.04.17 - 13:17
Auch hinsichtlich des Rechts auf Vergessen ist das ein Problem...
-
Re: Vollidioten
Autor: Oktavian 24.04.17 - 13:19
> > Archive.org darf das, weil der Gesetzgeber bereits im Vorfeld so
> entschieden hat.
>
> Wessen Gesetzgeber?
Der globale Gesetzgeber des Internets. Also der US-amerikanische. Oder habe ich da was verpasst. -
Re: Vollidioten
Autor: Oktavian 24.04.17 - 13:23
> > Dass die quasi die ganze Website kopieren und selbst veröffentlichen
>
> denk mal über den Begriff "veröffentlichen" nach, was er bedeutet. Niemand
> stellt hier die Urheberschaft in Frage, die bleibt weiterhin erhalten. Es
> wird einfach nur eine Kopie angefertigt.
Das heißt also, wenn ich eine Zeitschrift, beispielsweise die ct einscanne und veröffentliche, ist das vollkommen okay? Ich stelle ja nicht infrage, dass die Urheberschaft beim heise-Verlag verbleibt, ich mache ja einfach nur eine Kopie.
> Wie war das denn früher bei Zeitungen? Die wurden auch von Leuten
> eingescannt/kopiert und archiviert, damit man in Zukunft auch noch darauf
> zugreifen kann, wenn es den Verlag nicht mehr geben sollte.
Meist wurden die sogar im Original archiviert, und das ist auch vollkommen okay. Sie werden aber nicht veröffentlicht, sondern können im Archiv eingesehen werden.
> Dahinter steht
> einzig und allein ein öffentliches Interesse: Die Dinge die einmal
> öffentlich sind, sollen auch dauerhaft zugänglich sein.
Also so wie meine Kopie der ct. Da ich sie kostenlos verteile, erhöhe ich ja sogar noch die Reichweite und mache sie besser zugänglich. Da kann doch nichts schlechtes dran sein, oder? -
Re: Vollidioten
Autor: Anonymer Nutzer 24.04.17 - 13:31
> als die individuelle Freiheit Inhalte mit robots.txt mehr
> schlecht als recht "zu schützen".
"Schützen" ist in diesem Zusammenhang aber auch wirklich wohlwollend. Nicht mal mit einem "Betreten verboten!"-Schild zu vergleichen. Allenfalls mit dem Hinweis, "Es wäre echt voll sozial und so, wenn Du hier nicht crawlen würdest, mkayy?"
Eine robots.txt schützt gar nichts. Wer seine Inhalte nicht im Netz sehen will, darf sie entweder da nicht reinstellen oder muss sie effektiv gegen Zugriff durch Crawler schützen.
Selbst Google sieht es nicht gern, wenn z.B. CSS oder JS durch die robots.txt ausgeschlossen werden, da sie die Seiten nicht nur inhaltlich indizieren sondern auch wirklich "sehen" wollen.
So wie der Nutzer im Archive. Der will die Seiten nicht sehen, wie diese sich einem Crawler präsentiert haben, sondern wie sie ein Nutzer gesehen hat. -
Re: Vollidioten
Autor: Muhaha 24.04.17 - 13:33
Oktavian schrieb:
--------------------------------------------------------------------------------
> > > Archive.org darf das, weil der Gesetzgeber bereits im Vorfeld so
> > entschieden hat.
> >
> > Wessen Gesetzgeber?
>
> Der globale Gesetzgeber des Internets. Also der US-amerikanische.
Genau der. -
Re: Vollidioten
Autor: Oktavian 24.04.17 - 13:33
> Selbst Google sieht es nicht gern, wenn z.B. CSS oder JS durch die
> robots.txt ausgeschlossen werden, da sie die Seiten nicht nur inhaltlich
> indizieren sondern auch wirklich "sehen" wollen.
Das kann ich gut verstehen, und trotzdem hält Google sich daran. Natürlich steht es Google frei, die entsprechende Seite im Ranking herunterzustufen oder ganz auszulisten und so sanften Druck auf die Seitenbetreiber auszuüben. -
Re: Vollidioten
Autor: Anonymer Nutzer 24.04.17 - 13:38
> und trotzdem hält Google sich daran.
Das mag ja sein. Ich finde lediglich, dass der eher einer Empfehlung gleichenden robots.txt zu viel Bedeutung beigemessen wird, was den "Schutz" oder das "Verstecken" von Daten auf Webservern angeht. Kann man auch gleich eine Schatzkiste mit dem Schild "Nicht reinschauen" auf den Marktplatz stellen.
Wie gesagt will das Archive die Seiten so zeigen, wie sie der Benutzer zum jeweiligen Zeitpunkt gesehen hat. Nicht, wie eine Suchmaschine diese vorfand. Wenn dann die robots.txt schon das Durchforsten von Stylesheets verbietet, kann der Zweck nicht mehr erfüllt werden.