اسکریپتی که من استفاده میکنم با صرفنظر کردن از پراکسی هایی که در ایران واقع شده بودند(۳۶ تا) مجموعا 1728 پراکسی در یک لیست اراپه داد
این اسکریپت قبلا برای بدست آوردن CGI و PHP پراکسیها جواب خود را به خوبی پس داده بود و با تغییراتی آن را برای parse کردن این نوع پراکسی ها آماده کردم
خروجی پراکسی بر اساس error code دانلودر curl و بررسی HTTP STATUS CODES موجود در فایلهای دانلود شده در ۳ فایل جداگانه قرار میگیرند:
پراکسی هایی که مسلما بلوکه هستند در فایل ip_port_blacklist و پراکسی هایی که مسلما کار میکنند در فایل ip_port_whitelist قرار میگیرند.
پراکسی هایی که وضعیتی غیر از این دارند برای بررسی بیشتر در فایل ip_port_excluded قرار میگیرند.
چند خطی از فایل log...
Processing 195.161.159.114:3128
>>>>HTTP/1.1 403 Forbidden ===>Blacklisted!!! Processing ...
Processing 201.243.193.139:8080
>>>>Connection Refused. ===>Ignoring
===>Info:Operation timeout. The specified time-out period was reached according to the conditions.
Processing 202.124.131.77:80
>>>>Connection Refused. ===>Ignoring
===>Info:Failure in receiving network data.
...
از میان این تعداد انبوه پراکسی ها فقط ۴ پراکسی که از پورت ۴۴۳(HTTPS) استفاده میکردند به عنوان whitelist شناخته شدند و 430 عدد با عنوان excluded شناخته شدند.
اما فرض من این است که باید تعداد بیشتری بلوکه نشده موجود باشند.تغییر آپشنهای curl بر خروجی تاثیر گذار است.
استفاده از ip به جای URL توسط بسیاری از پراکسی ها به درستی پشتیبانی نمیشود.ضمنا محتویات header ارسالی توسط سیستم مانیتورینگ کشوری برسی میشود و ...
نتیجه googling من این بود که بایستی از یک custom header استفاده کنم.اما چگونه؟