تحقیق و جستجوی اطلاعات در اینترنت. قانونی بودن جمع آوری اطلاعات تماس مشکلاتی که در طول فرآیند جستجو به وجود آمد

روش های قانونی جمع آوری پایگاه مشتری

توجه! این نشریه به منزله مشاوره حقوقی نیست.

مهمترین بخش کار بخش فروشهر شرکتی پایگاه های مشتری برای فروشندگان و بازاریابان ارزش زیادی دارد، زیرا ابزار فروش هدفمند مستقیم و بازاریابی مجدد بهترین نتیجهدر نسبت قیمت به کیفیت در بازاریابی تلفنی، ما به داده های شخصی عمدتاً به عنوان اطلاعات تماس برای تشکیل پایگاه داده از مشتریان بالقوه علاقه مند هستیم.
راه های زیادی برای به دست آوردن چنین پایگاه داده ای از اطلاعات تماس مشتریان بالقوه وجود دارد، اما همه آنها قانونی نیستند. بیایید بفهمیم که کدام روش های جمع آوری اطلاعات تماس قانونی هستند و کدام غیر قانونی هستند.

اولین چیزی که باید بدانید این است:

جمع آوری یا انتشار غیرقانونی اطلاعات مربوط به زندگی خصوصی یک شخص که محرمانه اسرار شخصی یا خانوادگی او باشد، بدون رضایت وی، مجازات آن حبس تا دو سال با محرومیت از حق تصدی برخی سمت ها یا مناصب است. برای مدت حداکثر سه سال در فعالیت های خاصی شرکت کنید.

(162-FZ اصلاح شده در 8 دسامبر 2003)

قانون روسیه با حسادت از مصونیت حریم خصوصی و داده های شخصی محافظت می کند. چارچوب قانونی برای عملیات داده های شخصی با یک اصل ساده تعیین می شود، بگذارید آن را ...

"قاعده اصلی"

هرگونه اقدام با داده های شخصی، اطلاعات مربوط به زندگی خصوصی و اطلاعات تماس یک فرد تنها با رضایت مستقیم و آگاهانه موضوع داده های شخصی قابل انجام است.

بر این اساس، تمام روش‌های جمع‌آوری داده‌های تماس را می‌توان به روش‌هایی تقسیم کرد که با رضایت موضوع داده‌های شخصی (قانونی) و بدون رضایت او (غیرقانونی) اتفاق می‌افتد. بیایید فوراً در مورد آن بحث کنیم: همه چیزهایی که در زیر گفته می شود در درجه اول مربوط می شوداطلاعات تماس (شخصی) افراد . یک شخص حقوقی داده های شخصی ندارد (طبق قانون فدرال شماره 152-FZ "در مورد داده های شخصی"). از این رو،کسب رضایت یک شخص حقوقی برای پردازش اطلاعات تماس آن الزامی نیست

. استثنا داده هایی است که یک اسرار تجاری است و مشمول قرارداد حق چاپ یا مجوز است.

تولید سرب شاید تنهامشتریان بالقوه - زمانی که خودشان، به میل خود، آنها را به شما منتقل می کنند. در این مورد، رضایت مشتری برای جمع آوری و پردازش داده های شخصی باید داده شود به صورت صریح، با عمل بیان شده و به صورت مستند ذخیره می شود: در قالب یک ورودی پایگاه داده، یک پرسشنامه امضا شده شخصی یا یک ضبط صوتی. اپراتور داده های شخصی موظف است رضایت را به شکل اصلی حفظ کند.

رایج ترین فرم ها در به دست آوردن اطلاعات تماس مشتریان بالقوه (تولید سرنخ): پر کردن فرم در سایت شرکت، دریافت کارت تخفیف یا حتی در طول مکالمه تلفنی. در هر صورت، رضایت باید چیزی شبیه به این باشد: «من با پردازش اطلاعات شخصی مندرج در این پرسشنامه به منظور ارسال اطلاعات فوق برای من، از جمله انتقال اطلاعات مربوطه به افراد دخیل در اجرای این اقدامات موافقت می‌کنم. "

اگر پایگاه مشتری بخرید چه؟

ارزش عظیم اطلاعات تماس با مشتری بالقوه تقاضای بالایی را ایجاد می کند. و تقاضا باعث ایجاد عرضه می شود. در اینترنت صدها پیشنهاد در مورد آن پیدا خواهید کرد به دست آوردن پایگاه مشتریشرکت های مختلف از این گذشته، خرید مخاطبین مشتریان رقبا و ارائه شرایط بهتر به آنها ایده خوبی است.

رایج ترین منبع چنین پایگاه های اطلاعاتی سرقت ابتدایی استکارمندان اگر شرکتی نگران محافظت از پایگاه مشتری خود نباشد، دیر یا زود با نشت مواجه خواهد شد. بی دلیل نیست که بسیاری از مشاغل خالی برای یک مدیر فروش به "پایه مشتری مستقر" نیاز دارند.

به یاد بیاوریم قانون اصلی: چنین پایگاه داده ای تنها با رضایت از توزیع و پردازش داده های شخصی مشتریان قابل فروش است. آنچه مهمتر است این است که اگر داده های شخصی بدون رضایت موضوع داده به دست آمده باشد، پس استفاده بیشتر از آنها غیرقانونی است.

ماده 18 قانون فدرال "در مورد حفاظت از داده های شخصی" می گوید:

در صورت عدم دریافت اطلاعات شخصی از موضوع داده های شخصی، اپراتور ... موظف است اطلاعات زیر را در اختیار موضوع داده های شخصی قرار دهد:
1. نام یا نام خانوادگی، نام، نام خانوادگی و نشانی اپراتور یا نماینده وی.
2. هدف از پردازش داده های شخصی و مبنای قانونی آن.
3. کاربران مورد نظر داده های شخصی؛
4. حقوق موضوع داده های شخصی که توسط این قانون فدرال تعیین شده است.
5. منبع به دست آوردن اطلاعات شخصی.

مجموعه قابل توجهی از الزامات. ما آماده انجام آنها هستیم و درک می کنیم که مخاطبین دریافت کرده اند فروش را تضمین نمی کند? علاوه بر این، خرید یک پایگاه داده دزدیده شده می تواند مملو از مشکلات باشد ادعای حفاظت از اسرار تجاری. حتی پس از دریافت رضایت آزمودنی های PD برای پردازش و تماس، در صورت مراجعه مالک واقعی پایگاه داده به دادگاه، نمی توانید از آن استفاده کنید.

آیا استفاده از داده های منبع باز قانونی است؟

طبق 261-FZ:

"برای اهداف پشتیبانی اطلاعاتممکن است منابع قابل دسترسی عمومی از داده های شخصی ایجاد شود (از جمله دایرکتوری ها، کتاب آدرس). منابع عمومی داده های شخصی، با رضایت کتبی موضوع داده های شخصی، ممکن است شامل نام خانوادگی، نام، نام خانوادگی، سال و محل تولد، آدرس، شماره مشترک، اطلاعات مربوط به حرفه و سایر داده های شخصی ارائه شده توسط موضوع داده های شخصی."

بیایید در مورد قانونی بودن استفاده از اطلاعات تماس افراد به دست آمده از آن بحث کنیم منابع بازبه عنوان مثال، "صفحه زرد". داده های پایگاه داده را می توان به روش های مختلف استفاده کرد، اما عمدتاً، البته، برای مخاطبین از طریق ارسال ایمیل ها، پیامک یا برقراری تماس. با این حال ، چنین جمع آوری داده ها نقض قانون فدرال "در مورد داده های شخصی" است پردازش داده های شخصی فقط با رضایت موضوع انجام می شود.

علیرغم این واقعیت که کاربران داده های خود را در منابع باز ارسال می کنند، ماده 6 قانون فدرال "در مورد داده های شخصی" همچنان موظف است کسب رضایت برای پردازش داده های شخصی. تعهد به ارائه شواهدی مبنی بر کسب رضایت موضوع داده های شخصی برای پردازش داده های شخصی وی یا اثبات وجود دلایل بر عهده اپراتور است.

اگر اطلاعات از منابع باز بدون رضایت موضوع داده به دست آمده باشد، استفاده بیشتر از آن غیرقانونی خواهد بود.

این عبارت برای تجزیه داده ها از منابع باز نیز صادق است. تجزیه است جمع آوری اطلاعات خودکاراز منبع داده به عنوان مثال، جمع آوری اطلاعات تماس کاربران از وب سایت ها شبکه های اجتماعییا از پایگاه داده 2Gis. اینترنت مملو از پیشنهادات برای تجزیه 2Gis یا Avito است، اما جمع آوری داده های کاربران از سایت های طبقه بندی شده یا شبکه های اجتماعی غیرقانونی است.

VKontakte

در تابستان 2017، Roskomnadzor موضع خود را در مورد جمع آوری و استفاده از داده های کاربران شبکه اجتماعی بیان کرد:

مطابق بند 5.12 قرارداد کاربر شبکه VKontakte، کاربر فقط به اطلاعاتی که در صفحه شخصی خود ارسال می کند، از جمله اطلاعات شخصی خود، رضایت می دهد. کاربر به جمع آوری، پردازش و انتقال به اشخاص ثالث رضایت نمی دهد. اگر جمع آوری قبلا انجام شده است، باید این عمل متوقف شود.

سرویس مطبوعاتی Roskomnadzor

این موضع باعث انتقادات زیادی از جمله از سوی وکلا می شود، زیرا تا حدی با استانداردهای تعیین شده در مورد داده های شخصی و موضع خود RKN از پاییز 2016 در تناقض است: بخش Roskomnadzor منطقه Tver، در اعتراضات کتبی ارائه شده به دادگاه، نشان داد. که داده های شخصی VKontakte در دسترس عموم است، به این معنی که برای پردازش باز است.

VKontakte جمع آوری خودکار اطلاعات مربوط به کاربران را در قرارداد کاربر خود ممنوع می کند. در عین حال، شبکه اجتماعی دارای یک فرم مجوز برای سایت های شخص ثالث است که استفاده از آن به معنای رضایت کاربر برای پردازش داده های مربوط به او است. شرکتی که به داده ها دسترسی دارد می تواند از آنها به صلاحدید خود استفاده کنید.

2Gis

اگرچه، اطلاعات تماس اشخاص حقوقیداده های شخصی نیستند، 2Gis نیز به طور فعال با تجزیه مبارزه می کند. پایگاه داده 2Gis محصول فعالیت های فکری است و مشمول حق چاپ است.

طبق قرارداد مجوز

کپی کردن، تکثیر، پردازش، توزیع، قرار دادن در حوزه عمومی (انتشار) در اینترنت، استفاده در رسانه و/یا استفاده تجاری از مواد نقشه‌کشی و اطلاعات مرجع که مستقیماً از پایگاه‌های داده موجود در محصولات نرم‌افزاری استخراج شده‌اند، ممنوع است. /یا خدمات آنلاین 2GIS، و آنهایی که با کپی کردن نتایج پردازش داده ها با استفاده از محصولات نرم افزاری و/یا خدمات آنلاین 2GIS، و همچنین محصولات مشتق شده از چنین موادی (با اضافات، اختصارات و سایر پردازش ها) به دست می آیند.

توافقنامه مجوز 2Gis به صراحت تجزیه خودکار/دستی و توزیع تجاری/رایگان اطلاعات از پایگاه های داده 2Gis را ممنوع می کند. با ایجاد، سفارش یا استفاده از تجزیه کننده های 2Gis، تخلف می کنید قرارداد مجوز، این ممکن است منجر به شکایت شود.

با این حال، یک راه کاملا قانونی برای دانلود پایگاه داده 2Gis وجود دارد - از API 2GIS استفاده کنید. ما شرکای 2Gis هستیم و دسترسی کاملا قانونی به API 2Gis را از طریق رابط برنامه Call Office فراهم می کنیم. این راحت ترین و قانونی ترین راه برای به دست آوردن پایگاه داده ای از اطلاعات تماس برای شرکت ها است.

معلوم می شود همه چیز غیرممکن است؟!

قوانین روسیه در مورد جمع آوری و پردازش داده های شخصی سختگیرانه است. با این حال، ما هنوز تعداد کمی داریم راه های سادهجمع آوری اطلاعات تماس مشتریان بالقوه

مقدمه

اینترنت شبیه یک کتابخانه بزرگ جهانی است که تنها یک تفاوت دارد، اما برای جستجوی کتاب در کتابخانه، در موارد شدید، می توانید با یک کتابدار با تجربه تماس بگیرید. هیچ کاتالوگ اینترنتی کاملی وجود ندارد. اما، با این وجود، جستجو در شبکه جهانی کامپیوتر امکان پذیر است و این شاید یکی از مهمترین جنبه های آن باشد. برای جستجوی داده ها در شبکه، از سرورهای ویژه ای استفاده می شود که اطلاعات روی آنها تقریباً به طور خودکار نگهداری و به روز می شود.

امروزه که اینترنت به یکی از منابع اصلی اطلاعات تبدیل شده است، جستجو در اینترنت به طور فزاینده ای کاربردی می شود. اما با افزایش سریع حجم داده های موجود، فرآیند جستجو به خودی خود پیچیده تر و پیچیده تر می شود.

اینترنت جهانی است شبکه کامپیوتری، که هم کاربران شبکه کامپیوتری و هم کاربران کامپیوتر را به هم متصل می کند. اینترنت به آرامی اما مطمئناً در حال تبدیل شدن به ابزار اصلی ارتباطات شرکتی است و در حال حاضر جای خود را به تلفن می دهد.

حجم عظیمی از منابع اطلاعاتی در اینترنت وجود دارد. بر اساس برخی برآوردها، تعداد اسناد از 65 میلیون فراتر رفته و به سرعت در حال رشد است. چنین حجمی از اطلاعات مستلزم سازماندهی مناسب فرآیند جستجو و استفاده از ابزارهای ویژه است وسایل فنیمانند موتورهای جستجو یک جستجوی ساده برای یک کلمه کلیدی نسبتاً رایج معمولاً ده ها هزار تا چند میلیون لینک به دست می دهد. بدیهی است که کار با چنین تعداد زیادی از اسناد عملاً غیرممکن است، به خصوص که اکثریت قریب به اتفاق آنها حاوی اطلاعات غیر مرتبط با پرونده هستند.

منابع اطلاعاتی در اینترنت از نظر نحوه ارائه اطلاعات و در نتیجه نحوه دسترسی به آنها متفاوت است.

1 ابزار جستجو

1.1 ابزار جستجوی فایل

جستجوی دستی یک فایل در ساختار دایرکتوری پیچیده یک سرور ftp می تواند زمان زیادی را ببرد. برای ساده سازی و سرعت بخشیدن به جستجو، سرویس جستجوی اینترنتی Archie ایجاد شد که یک سرور Archie ویژه است که محتویات دایرکتوری های سرورهای ftp ناشناس را ذخیره می کند. هنگامی که درخواست جستجو را به سرور Archie ارسال می کنید، نتیجه جستجو لیستی از آدرس های سرورهای ftp ناشناس است که حاوی فایل مورد نظر است.

اما وظیفه یافتن مورد دلخواه از میان فایل های متعدد این سرور است که به دلیل نامگذاری نامفهوم و نامفهوم فایل ها و دایرکتوری ها بسیار دشوار است. برای حل این مشکل از سیستم Gopher استفاده می شود که به شما امکان حرکت در سیستم را می دهد منوهای زمینه، محتویات فایل ها را با استفاده از نماد قابل درک نشان می دهد. بسیاری از سرورهای Gopher وجود دارند که حاوی آرشیو داده‌ها به شکل دایرکتوری‌هایی با ساختار سلسله مراتبی هستند که بر اساس محتوا سازماندهی شده‌اند. کار با آنها بسیار ساده است و مربوط به کار با یک نمایش سیستم فایل معمولی است.

افزونه ای از این سیستم وجود دارد - Veronica، که در پایگاه داده خود فهرست های تمام سرورهای Gopher را در خود دارد. پس از وارد کردن یک عبارت جستجو، Veronica به طور خودکار تمام فهرست های Gopher را برای اطلاعاتی که به دنبال آن هستید اسکن می کند، در نتیجه نیاز به جستجوهای دستی طولانی در بسیاری از سرورهای Gopher را از بین می برد.

با این روش ناوبری، Gopher تا حدی پیشروی WWW بود. در حال حاضر، استفاده از Gopher متناسب با رشد استفاده از WWW در حال کاهش است.

1.2 ابزار WWW - WorldWideWeb (World Wide Web)

در سال 1993، سیستم بازیابی اطلاعات WWW توسعه یافت، که به لطف سهولت ناوبری و دسترسی، باز شد. منابع اطلاعاتیاینترنت برای کاربران آموزش ندیده WWW باعث رونق اینترنت شد که تا به امروز ادامه دارد و میزان اطلاعات اینترنتی موجود هر سال دو برابر می شود.

WWW بر اساس اصل فرامتن (که قبلاً برای خواننده آشناست) است، یعنی بر روی سیستمی از اسناد پیوند داده شده توسط پیوندها. ابرمتن کلمات کلیدی هستند که به طور خاص از متن معمولی استخراج می شوند. پیوندهای فرامتن کاربر را به اسناد دیگری در همان سرور یا سرورهای دیگری که می‌توانند در هر نقطه از اینترنت قرار گیرند ارسال می‌کنند. اگر این سند متنیهمچنین فرامتن است، پیوندهای آن به شما امکان می دهد به اسناد مربوطه بیشتر بروید. هر تغییر مسیر بدون توجه کاربر رخ می دهد، بنابراین او می تواند ترکیب اطلاعات اینترنت را به شیوه ای معنی دار مشاهده کند، بدون اینکه نگران آدرس دادن به رایانه های خاص باشد.

با توسعه برنامه های کاربردی چند رسانه ای، در ابتدا اسناد صرفا فرامتن به طور فزاینده ای تبدیل به ابر رسانه ای می شوند. بنابراین، اسناد WWW می توانند در هر قالب داده ای وجود داشته باشند: متن، گرافیک، صدا/موسیقی یا کلیپ ویدیویی. جهت یابی و ناوبری در شبکه جهانی وب با استفاده از برنامه های خاصی به نام مرورگرهای WWW انجام می شود که رابط کاربریمانند NetscapeNavigator یا MicrosoftInternetExplorer.

نقطه شروع جستجوی اطلاعات معمولاً صفحه اصلی (پایه، اصلی) (سایت) یک منبع اطلاعاتی است که با وارد کردن آدرس مناسب در مرورگر (به عنوان مثال http://ncpi) می توان به آن دسترسی پیدا کرد. .gov.by یا www.iparegistr.com). سایت‌های WWW توسط شرکت‌ها یا سازمان‌های خاصی ایجاد و به روز می‌شوند که اطلاعات را منتشر می‌کنند و بر محتوای صفحات WWW خود نظارت می‌کنند. بنابراین، استفاده از WWW غیرفعال نیست و هر کاربر اینترنت با استفاده از برنامه های ویرایشگر فرامتن خاص، می تواند به طور مستقل صفحات WWW تعاملی خود را ایجاد کند. این امر راه را برای تجاری سازی و گسترش روزافزون اینترنت هموار کرد.

امروزه، اطلاعات جدید ایجاد شده با در نظر گرفتن دسترسی به WWW ساخته می‌شوند و اسناد قدیمی‌تر به تدریج به تناسب آن تبدیل می‌شوند، اما هنوز میلیون‌ها فایل در سراسر جهان به اشکال متفاوت با الزامات WWW وجود دارد. برای استفاده از این اطلاعات از طریق WWW، مرورگرها شامل سرویس‌های اینترنتی توصیف‌شده در بالا هستند که دسترسی به آن را فراهم می‌کنند (تلنت، ftp، Archie، Gopher). از طریق WWW همچنین می توانید از سایر خدمات اینترنتی که برای ارتباط در نظر گرفته شده اند (ایمیل، NetNews) استفاده کنید. بنابراین، مرورگر WWW اکنون به برنامه ارتباطی جهانی اینترنت تبدیل شده است.

با ظهور سرویس WWW، رونق اینترنت آغاز شد. این محیط کاربری یکپارچه و با کاربری آسان برای همه سرویس ها، علاقه بسیاری از افراد و سازمان ها را به اینترنت ایجاد کرده است. ناگهان معلوم شد که برای استفاده از خدمات شبکه لازم نیست متخصص اینترنت باشید. این را می توان با موفقیت مایکروسافت با انتشار ویندوز مایکروسافت به عنوان یک رابط کاربری گرافیکی مقایسه کرد. به ظهور ویندوزهر برنامه DOS راهنمای کاربر خود را داشت و بنابراین نیاز به مطالعه جداگانه هر برنامه داشت.

2 تکنیک اساسی برای جستجوی اطلاعات در اینترنت

2.1 الزامات جستجوی اولیه

نتایج جستجو منوط به الزامات پوشش کامل منابع، قابلیت اطمینان اطلاعات دریافتی، حداقل زمان صرف شده و حداکثر سرعت جستجو است.

الزام به پوشش کامل منابع نیازی به توضیح اضافی ندارد، به جز نیاز به استفاده از منابع نه تنها از WWW، بلکه از سایر خدمات اینترنتی در هنگام جستجو.

قابل اعتماد بودن اطلاعات، با توجه به ماهیت اینترنت، به یک نیاز بسیار مهم تبدیل می شود. ارزیابی پایایی را می‌توان با استفاده از روش‌های سنتی (بررسی قانونی بودن نشریات) انجام داد رسانه کاغذیکسب اطلاعات در مورد سازمان ها و نویسندگان، اطلاع از اعتبار منابع الکترونیکی آنها و غیره) و استفاده از اینترنت (آشنایی با منابع جایگزین اطلاعات، بررسی مطالب واقعی، تعیین فراوانی استفاده از آن توسط منابع دیگر، یافتن موارد وضعیت سند و امتیاز منبع به معنی موتورهای جستجو، به دست آوردن اطلاعات در مورد صلاحیت و وضعیت نویسنده مطالب با استفاده از خدمات ویژه جستجوی اینترنتی؛ تجزیه و تحلیل عناصر فردی سازمان سایت به منظور ارزیابی صلاحیت متخصصان پشتیبانی کننده و غیره).

زمان جستجو، به استثنای هزینه های زمانی مرتبط با مشخصات فنیاتصال، عمدتا به برنامه ریزی جستجو و مهارت های متخصص جستجو که با منبع نوع انتخاب شده کار می کند بستگی دارد. برنامه ریزی جستجو شامل تعیین خدمات جستجوی مورد نیاز برای رفع نیاز جستجو و ترتیب استفاده از آنها است. علاوه بر این، بسیار به مهارت و تجربه متخصص جستجوی فردی بستگی دارد.

همانطور که اشاره شد، اطلاعات در اینترنت از منابع در دسترس است انواع مختلف. اول از همه، اینها منابع WWW (سیستم ابرمتن، فهرست منابع، موتورهای جستجو) هستند. علاوه بر این، اینها ایمیل، ربات‌های پست الکترونیکی، Usenet و سایر کنفرانس‌های راه دور که قبلاً برای خواننده شناخته شده است، و همچنین سیستم‌ها و آرشیوهای ftp (با استفاده از Gopher و Veronica) هستند. WWW به شما امکان می دهد منابع مورد نیاز را بر اساس ویژگی های فوق العاده آن جستجو کنید، یعنی موتورهای جستجوی موجود با استفاده از لینک ها به طور خودکار کار می کنند، بدون اینکه امکان مرور دستی را رد کنند. WWW تعدادی خدمات جستجو برای اهداف عمومی و تخصصی دارد.

دایرکتوری های منابع پایگاه هایی با آدرس منابع اینترنتی و موضوعات متنوعی هستند. آنها معمولاً ساختار سلسله مراتبی دارند که برای کاربر آشنا است و ابزارهایی برای جستجو در آن وجود دارد. این کاتالوگ ها بیشتر توسط متخصصان طبقه بندی نگهداری می شوند، یعنی رویکرد ذهنی خاصی برای انتخاب اطلاعات از قبل تعیین شده است، که از یک سو تا حدودی قابلیت اطمینان اطلاعات را تضمین می کند، اما از سوی دیگر، امکان را از قبل تعیین می کند. عدم وجود (حذف) بخشی از اطلاعات و همچنین قرار دادن دیرهنگام آن در کاتالوگ.

موتورهای جستجو مکانیزمی برای ایجاد خودکار لینک (شاخص) به منابع مختلف هستند. موتورهای جستجو می توانند بر روی منابع جهانی، تخصصی یا محلی متمرکز شوند. در اصل، آنها سیستم های اطلاعاتی قدرتمندی هستند که با کمک برنامه های ربات ویژه (به اصطلاح "عنکبوت") به طور مداوم انجام می دهند. جستجوی خودکاراطلاعات مورد نیاز در اینترنت پایگاه های داده تخصصی ایجاد شده بر این اساس جستجوی اطلاعات را بر اساس درخواست های کاربر بر اساس PN های خاص ارائه می دهند. درست است، پوشش اطلاعات مشاهده شده به الگوریتم های مورد استفاده بستگی دارد و حتی برای موتورهای جستجوی قدرتمند نیز چیزهای زیادی باقی می ماند.

ایمیل در اینترنت و WWW استفاده می شود. آدرس‌ها سپس به موتورهای جستجو ختم می‌شوند و در دسترس موتورهای جستجو هستند.

ربات های پستی برنامه های خاصی هستند که قادرند با اعمال خاصی به دستورات دریافتی از طریق ایمیل توسط آنها پاسخ دهند. هدف اصلی آنها ارسال داده در صورت درخواست زمانی است که به روش دیگری در دسترس نیست، و همچنین به عنوان جایگزینی برای کار آنلاین با هر یک از منابع شناخته شده، به عنوان مثال، آرشیوهای ftp. آدرس ربات ایمیل دارای فرمت است ایمیل. هنگام جستجو، ربات های ایمیل معمولاً فقط به عنوان واسطه در به دست آوردن اطلاعات استفاده می شوند. گاهی اوقات باید با این واقعیت روبرو شوید که آنها تنها وسیله به دست آوردن اطلاعات لازم هستند.

یوزنت و سایر گروه‌های خبری منطقه‌ای و تخصصی «تابلوهای اعلانات» الکترونیکی هستند که کاربر اطلاعات خود را در یکی از آن‌ها ارسال می‌کند. گروه های موضوعیاخبار ارسال شده به مشترکین در مورد موضوعات مرتبط. این منبع برای جمع آوری سریع اطلاعات در مورد یک موضوع محدود و هنگام جستجو، اغلب برای به دست آوردن اطلاعات خصوصی و غیر رسمی بسیار مهم است.

منابع موجود از طریق telnet، در برخی موارد، اطلاعات کاملاً منحصربه‌فردی را نشان می‌دهند، عمدتاً در فهرست کتابخانه‌های دانشگاه‌های اروپایی و آمریکایی و همچنین سازمان‌های دولتی.

همانطور که قبلاً اشاره شد، سیستم آرشیو فایل ftp دارای منابع بسیار گسترده ای از اطلاعات ارزشمند است که هنوز به WWW ترجمه نشده است. آرشیوهای FTP در درجه اول منابع به دست آوردن هستند نرم افزار. اگر ساختار آرشیو را بدانید، جستجوی آنها ممکن است جالب باشد. ساخت و ساز سیستم های فایل، نام فایل ها و دایرکتوری های حاوی منابع مورد نیاز.

2.2 روش جستجوی اطلاعات در اینترنت

جستجو کنید اطلاعات لازمرا می توان در اینترنت انجام داد به طرق مختلف:

· جستجو با استفاده از موتورهای جستجو بر اساس کلمه کلیدی

· جستجو با استفاده از طبقه بندی موتورهای جستجو

· دایرکتوری ها و مجموعه پیوندها (بیشتر مفاهیم کلی)

· کنفرانس ها، چت ها

· صفحات پیوندها ("پیوندها") در سایت های موضوعی (موارد کمیاب و تخصصی)

· روش های غیر شبکه ای (توصیه از دوستان، آشنایان، تبلیغات در رسانه های مکتوب)

در ابتدای جستجوی اطلاعات باید نوع آن را مشخص کرد. به طور متعارف، 4 نوع اطلاعات قابل تشخیص است.

نوع 1 - عمومی (به عنوان مثال: تاریخ امپراتوری روسیه)،

نوع 2 - کمتر عمومی (به عنوان مثال: امپراتور الکساندر دوم)،

نوع 3 - خاص (به عنوان مثال: اصلاحات الکساندر دوم)،

نوع 4 - خاص تر (به عنوان مثال: لغو رعیت).

بسته به نوع اطلاعات، مسیرهای جستجو مشخص می شوند.

اطلاعات نوع 1 با استفاده از طبقه بندی کننده های موتور جستجو جستجو می شود (از روسی - Yandex www.Yandex.ru توصیه می شود). اگر سایت‌هایی با اطلاعات مورد نیاز بلافاصله پیدا نشدند، باید فهرست‌ها و صفحات پیوندها ("لینک‌ها") را با استفاده از طبقه‌بندی‌کننده که در سایت‌هایی با موضوعات مشابه قرار دارند، جستجو کنید. این سایت ها در یک طبقه بندی کننده بر اساس موضوع و فهرست های یافت شده فهرست شده اند.

اطلاعات نوع 2 مشابه جستجوی نوع 1 جستجو می شود، اما با مزیت جستجو در فهرست ها و صفحات پیوند.

اطلاعات نوع 3 - با کلمات کلیدی که در نوار جستجوی موتورهای جستجو، دایرکتوری ها، صفحات پیوند وارد می شوند.

اطلاعات نوع 4 - بر اساس داده های دقیقی که در نوار جستجو وارد می شود. داده ها بر اساس روش های جستجوی مشخص شده برای انواع 2 و 3 یافت می شوند.

جستجو بر اساس 1 نوع اطلاعات مورد نیاز: "تاریخ امپراتوری روسیه."

به Yandex - علم و آموزش / علوم اجتماعی / تاریخ بروید. بر اساس توضیحات موضوع، سایت http://rus-hist.on.ufanet.ru را پیدا می کنیم. اگر حاوی اطلاعات لازم نیست، به صفحه پیوندهای این سایت بروید. این شامل پیوندهایی به کاتالوگ منابع است: www.history.ru، http://www.lants.tellur.ru/history/index.htm. آنها به احتمال زیاد سایت هایی را در یک موضوع مشخص پیدا خواهند کرد.

جستجو بر اساس نوع 2 اطلاعات مورد نیاز: "امپراطور الکساندر دوم".

جستجو مشابه مورد قبلی انجام می شود، اما توجه بیشتری به کار با کاتالوگ های www.history.ru، http://www.lants.tellur.ru/history/index.htm می شود.

جستجو بر اساس نوع 3. اطلاعات مورد نیاز: "اصلاحات اسکندر دوم"

اینجا ظاهر می شود راه جدیدجستجو - با کلمات کلیدی ما در نوار جستجوی Yandex می نویسیم "اصلاحات الکساندر دوم". نتیجه برای مشاهده 1790 صفحه است که در 170 سایت قرار دارد که شامل کاتالوگ می باشد. برای محدود کردن اطلاعات، می توانید کلمات کلیدی جدیدی اضافه کنید - حقایق اضافی در انتخاب سایت هایی که قبلاً پیدا شده است، به عنوان مثال: "1860-1870". و غیره در سایر موتورهای جستجو، کل "اصلاحات الکساندر دوم در 1860-1870" تایپ شده است. برای جستجوی اطلاعات مشخص شده، می توانید از "پیوندها" نیز استفاده کنید که در سایت های یافت شده ارائه شده است

2.3 توسعه یک منبع اطلاعاتی

مانند سایر فناوری های اطلاعاتی، اینترنت توسط توسعه دهندگان ایجاد می شود، اما در این مورد آنها عمدتاً خالق منابع هستند (از متخصصان پشتیبانی سخت و نرم افزار، طراحان، هنرمندان، ویراستاران و مهمتر از همه، نویسندگان منابع اطلاعاتی شروع می شوند). به طور طبیعی، ایجاد منابع به خودی خود یک هدف نیست، توسط کاربران شبکه، یعنی همان متخصصان و مصرف کنندگان منابع، که در میان آنها، همانطور که قبلا ذکر شد، مطالبه می شود. لایه جدید- متخصصان داده کاوی و بازیابی اطلاعات. منابع اطلاعاتی اینترنت، و همچنین سایر منابع، از جمله منابع اطلاعاتی غیر الکترونیکی (به ویژه رسانه ها)، با حالت های خاصی از فعالیت آنها مشخص می شود (شکل 9.3).

منبع مطابق با نیازهای جامعه و قابلیت های آن (به ویژه مربوط به سطح شرایط فنی و اجتماعی جامعه) تولید می شود.

تا حد امکان، منبع "رشد می شود"، ایجاد می شود (یا با کمبود کامل تقاضا ناپدید می شود، یعنی ناپدید می شود، شاید به معنای فیزیکی نباشد - سایت می تواند وجود داشته باشد، یعنی به معنای تقاضا).

در سطح معینی از تقاضا و (از جمله از طریق تلاش نویسندگان سایت)، فهرست نویسی آن رخ می دهد، یعنی اطلاعات مربوط به منبع در دایرکتوری های مختلف مطابق با نوع منبع ظاهر می شود.

نمایه سازی، یعنی ظهور یک منبع در شاخص های موتورهای جستجو، زمانی اتفاق می افتد که حجم خاصی از محتوای اطلاعات و تقاضا به دست می آید.

در صورت افزایش مداوم تقاضا، توسعه مداوم منبع اتفاق می افتد، در غیر این صورت منبع محو می شود و به تدریج از فهرست ها و کاتالوگ ها محو می شود.

2.4 الزامات ابزارهای جستجو

همانطور که قبلا ذکر شد، ویژگی های ذاتی یک جستجوی حرفه ای کامل بودن، قابلیت اطمینان و سرعت بالا است. جدی ترین و غیر پیش پا افتاده ترین عامل تعیین کننده سرعت دستیابی به هدف جستجو، برنامه ریزی رویه جستجو است. این امر از یک سو مستلزم انتخاب نوع منابعی است که به طور بالقوه قادر به حمل اطلاعات مرتبط با کار جستجو هستند، و از سوی دیگر، انتخاب ابزارهای جستجویی که در زمینه اطلاعات مربوطه خدمت می کنند، بسته به انتظارات آنها. اثربخشی اگر امروز در مورد ظرفیت‌ترین فضای WWW از نظر محتوای اطلاعاتی صحبت کنیم، فراوانی نسبی ابزارهای جستجوی آن باعث می‌شود که راه‌حل اکثر مشکلات کاربردی چند متغیره باشد. ایجاد یک توالی بهینه از استفاده از ابزارهای خاص در هر مرحله از جستجو، اثربخشی آن را تعیین می کند. درک روشنی از انواع، اهداف و ویژگی‌های عملیاتی سیستم‌های بازیابی اطلاعات اینترنتی (IRS) می‌تواند به حل مشکل انتخابی کمک کند.

حامل های واقعی اطلاعات در مورد منابع موجود در اینترنت موتورهای جستجو و دایرکتوری ها هستند. سیستم های بازیابی اطلاعات در اینترنت متفاوت است، اما در اصل انتخاب اطلاعات، که به یک درجه یا درجات دیگر هم در برنامه اسکن موتور جستجو و هم در فعالیت های متخصصان فهرست نویسی وجود دارد. به عنوان یک قاعده، دو شاخص اصلی متمایز می شوند: مقیاس فضایی سیستم و تخصص آن.

هنگام تشکیل یک آرایه اطلاعات، سیستم جستجو می تواند به روز رسانی مجموعه ای از پیش تعیین شده از اسناد، دایرکتوری ها یا تعداد محدودی از گره ها را که بر اساس یک اصل خاص انتخاب شده اند، نظارت کند. چنین سیستم‌هایی که در اینترنت پیاده‌سازی می‌شوند را می‌توان تا حدودی به‌طور متعارف محلی و نامید. موتورهای جستجوی جهانی، بر خلاف موتورهای محلی، یک کار پر زحمت تر را حل می کنند - کامل ترین پوشش ممکن از منابع کل حوزه اطلاعاتی اینترنت (WWW یا موارد دیگر) که در آن خدمت می کنند. پیامد این امر افزایش نقش مکانیسم مورد استفاده توسط چنین سیستمی برای افزایش مداوم تعداد سایت های مشاهده شده است.

ساخت خدمات جستجوی منطقه ای و تخصصی شامل فیلتر کردن فعال اطلاعات است. تخصصی شدن یک سیستم جستجو بر اساس هر نمایه یا موضوعی، خواه قانونی باشد، جستجوی شخصیت ها یا فایل های چند رسانه ای در قالب MP3، می تواند در مقیاس جهانی و محلی رخ دهد. البته ساخت و نگهداری سیستم در فضای محدودی از سایت های به روز شده آسانتر است که معمولاً در عمل پیاده سازی می شود.

خدمات جستجوی منطقه ای اطلاعات را عمدتاً با نام دامنه سطح بالای سرور فیلتر می کنند، به عنوان مثال توسط بلاروس، ru برای روسیه. یک اشکال جدی چنین سیستم هایی عدم محاسبه تعداد زیادی از منابع است که توسط نویسندگان منابع منطقه ای به طور مستقیم در دامنه com قرار داده شده است.

در نظر گرفتن ویژگی های منطقه ای اغلب در خدمات جستجوی جهانی وجود دارد. برای مثال، سیستم Lycos، پاسخ ها را بر اساس منطقه درخواست رتبه بندی می کند.

اینترنت به دلیل ماهیت خود با هرج و مرج اطلاعاتی همراه است. و تنها ابزارهای مدرن نمایه سازی خودکار اسناد، با در نظر گرفتن الگوریتم های مورد استفاده و قابلیت های ابزار فنی، قادر به یافتن یک دانه منطقی در این هرج و مرج هستند. استفاده از آن هنگام جستجوی منابع بدون جستجو با کلمات کلیدی، به جای کار جدی با اطلاعات، یادآور گشت و گذار است.

2.6 موتورهای جستجوی جهانی WWW

کاربر پس از آشنایی با چندین موتور جستجوی جهانی، به عنوان یک قاعده، روی یکی دو موتور جستجو می کند که ترجیح می دهد در آینده با آنها کار کند. در عین حال، انتخاب یک سرویس جستجو اغلب به شیوه ای کاملاً دلخواه اتفاق می افتد، نه بر اساس تجزیه و تحلیل از قابلیت های واقعی سیستم ها، بلکه بر اساس محبوبیت آنها. یکی از بزرگترین و محبوب ترین آنها AltaVista است. سیستم AltaVista دارای یک زبان پرس و جو منعطف است که البته به مطالعه خاصی نیاز دارد. AltaVista پشتیبانی چند زبانه دارد فهرست جستجوو امکان ترجمه آنلاین (یعنی مستقیماً در طول جلسه کاری) متن یک صفحه وب از زبان های رایج اروپایی به انگلیسی.

یکی دیگه سیستم شناخته شده NorthernLight است که مجموعه ای نسبتاً استاندارد از توابع دارد. این سیستم علاوه بر این امکان کار با مجموعه ای منحصر به فرد از پیوندها (بیش از 6 هزار) را به طور عمده به مقالات نشریات می دهد. پشتیبانی از فهرست برای الفبای سیریلیک (از جمله زبان روسی) آن را به همراه AltaVista به موتورهای جستجوی منطقه ای روسیه Rambler، Yndex و Aport برای جستجوهای روسی زبان اضافه می کند.

جستجو و جمع آوری اطلاعات در اینترنت نیازمند برنامه ریزی است. منطق اشتباه در ساخت پرس و جو، توالی بهینه نشده استفاده از ابزارهای جستجو، تلاش برای سرعت بخشیدن به جستجو - همه اینها نه تنها دستیابی به نتیجه را به تاخیر می اندازد، بلکه می تواند معنای کار جستجو را به خطر بیندازد.

بیایید به چند مورد نگاه کنیم نکات مهممربوط به برنامه ریزی و گام های اولیه چنین کاری است.

شما باید با تحلیل واژگانی جامع اطلاعاتی که به دنبال آن هستید شروع کنید. هر به اندازه کافی قابل اعتماد و توضیحات مفصلسوال مورد مطالعه برای به دست آوردن اطلاعات اولیه چنین منبعی می تواند یا یک کتاب مرجع بسیار تخصصی یا یک دایره المعارف الکترونیکی عمومی باشد. بر اساس مواد مورد مطالعه، لازم است که گسترده ترین مجموعه ممکن از کلمات کلیدیدر قالب اصطلاحات فردی، عبارات، واژگان حرفه ای، عامیانه، کلمات کلیشه ای و کلیشه های کلامی پایدار، در صورت لزوم به چندین زبان. توضیحات احتمالی پرس و جو باید از قبل تعیین شود - کلمات نادر، مترادف ها و متضادها. نام و نام خانوادگی که ارتباط نزدیکی با موضوع مورد نظر دارد. همچنین توصیه می شود از قبل پاسخ های نامربوط احتمالی به پرس و جوها، یعنی ویژگی های احتمالی نویز جستجو را پیش بینی کنید. پس از جمع آوری این داده های اولیه، می توانید به سراغ به دست آوردن اطلاعات اولیه از اینترنت بروید.

وظیفه اصلی این مرحله در نظر گرفتن ویژگی های اینترنت است که نه تنها حامل فناوری است، بلکه سنت ها و اخلاق خاص خود را نیز به همراه دارد. واژگان آنلاین، عامیانه و املای کلمات رایج در اینجا ممکن است با موارد پذیرفته شده متفاوت باشد.

بهتر است به دنبال اطلاعاتی در مورد در دسترس بودن داده های لازم در اینترنت در یک کاتالوگ شناخته شده قبلی باشید که از جستجوی کلمات کلیدی پشتیبانی می کند. به عنوان مثال، هنگام حل کارهای ساده مانند «دریافت متن قانون اساسی جمهوری بلاروس» یا «در آن قوانین حقوقی از نام شهر زادگاه استفاده می شود»، یک وب سایت یا کاتالوگ معروف ممکن است بیشتر باشد. به روشی سریعبه دست آوردن اطلاعات نسبت به یک شاخص خودکار و قابلیت اطمینان بیشتری را فراهم می کند.

پس از تحلیل واژگانی اطلاعات، مرحله فناورانه آغاز می شود. انتخاب قسمت اطلاعات اینترنتی و ابزارهای جستجوبر اساس رویکردهای فوق تولید شده است.

پرس و جوهای آزمایشی از یک یا دو کلمه یا عبارت کلیدی استفاده می شود، سپس پاسخ کمی تجزیه و تحلیل می شود. تجزیه و تحلیل محتوای داده ها به شما امکان می دهد پرس و جوها را تنظیم کنید، اما نه ارتباط پاسخ. در نتیجه آزمایش، نماینده ترین منابع اطلاعاتی شناسایی می شوند و پس از آن باید ترتیب استفاده از ابزارهای جستجو روشن شود. این مرحله برنامه ریزی را کامل می کند.

در پایان خاطرنشان می کنیم که هنگام حل مشکل جمع آوری اطلاعات از اینترنت، خدمات جستجوی منطقه ای و تخصصی نقش بسزایی دارند. استفاده از نمایه های جهانی نه برای جستجوی مستقیم اطلاعات لازم، بلکه برای بومی سازی این ابزارهای جستجو اغلب امکان کاهش زمان مورد نیاز برای حل مشکل جستجو را فراهم می کند.

نتیجه گیری

با در نظر گرفتن همه موارد فوق، می توان تلاش کرد تا در یک کلمه ماهیت اینترنت را تعریف کنیم: این ارتباط، ارتباط بین افراد و کل ملت ها بدون دخالت مقامات دولتی است. این تکنولوژی جدیددر حال تغییر چهره تمدن با سرعت بسیار زیاد است و درک بشر از جهان و خود را به طور اساسی تغییر می دهد. اینترنت در حال حاضر دهها میلیون نفر را جذب کرده است، بیش از صد کشور، فرآیندهای انتشار و درک اطلاعات را کاملاً تغییر داده است. در عصر ما فناوری اطلاعاتاینترنت واقعیت مجازی، که به پاک کردن مرزهای ایالتی، کاهش فواصل جغرافیایی، از بین بردن موانع بین فرهنگ ها کمک می کند. , کمتر از دنیای مادی اطراف ما روشن نمی شود.

با توسعه INTERNET، جستجوی سریع و راحت برای اطلاعات مستند لازم امکان پذیر شد. حالا دیگر لازم نیست نگران انتخاب و مطالعه حجم عظیمی از ادبیات در کتابفروشی ها و کتابخانه ها باشید. اطلاعات را می توان بدون خروج از منزل یا محل کار به دست آورد. برای انجام این کار، شما فقط به خود کامپیوتر نیاز دارید که با نصب به اینترنت متصل است برنامه ویژه- مرورگری که برای مشاهده محتوای صفحات وب طراحی شده است.

به لطف انواع موتورهای جستجو که به طور ویژه برای کاربر معمولی طراحی شده اند، همه می توانند به راحتی جریان غیر ضروری اطلاعات را قطع کنند، تنها با فرمول بندی صحیح هدف جستجو.

فهرست منابع استفاده شده

1. گرینبرگ A.S.، Kashinsky Yu.I.، Slavin B.S. مقدمه ای بر انفورماتیک حقوقی. Mn.: NO LLC BIP-S، 2002. P. 303.

2. گوسف وی.اس. گوگل: جستجوی موثر راهنمای سریع م.، 2006.

3. انفورماتیک برای حقوقدانان و اقتصاددانان./ ویرایش شده توسط S. V. Simonovich. سن پترزبورگ: پیتر، 2001.

4. علوم کامپیوتر. دوره پایه. کتاب درسی برای دانشگاه ها، سن پترزبورگ، 2001

5. تکنولوژی کامپیوتردر فعالیت های قانونی./ویرایش پروفسور N. Polevoy. م.: انتشارات BEK، 1994.

6. Rassolov M.M. قانون اطلاعات – م.م.: وکیل، 1378.-321 ص.

7. دایره المعارف اینترنت، سن پترزبورگ، 2001

8. نحوه مقایسه مرورگرها//http://www.microsoft.com

زمانی که نیاز داریم اطلاعات مورد نیاز خود را در اینترنت پیدا کنیم، راه های مختلفی برای رسیدن به خواسته های خود داریم. اکثر مردم از موتورهای جستجو استفاده می کنند، پرس و جو مورد نیاز را تایپ می کنند و نتایج جستجوی ارائه شده را مطالعه می کنند. برای اهداف خاص، بدون استفاده از پایگاه های داده تخصصی (DB) یا سایت های فهرستی غیرممکن است.

نحوه جستجوی اطلاعات لازم فقط به میل شما بستگی دارد و تعیین می کند که قبل از یافتن آنچه به دنبال آن هستید، چه مقدار اطلاعات را باید پردازش کنید و چقدر زمان می برد.

بیایید به طور خلاصه چندین روش جستجو را در نظر بگیریم:

1. اگر تصمیم دارید از موتور جستجو برای به دست آوردن اطلاعات کلی در مورد چیزی استفاده کنید، نتایج میلیون ها صفحه و کلیک های متعدد روی پیوندها نباید شما را بترساند. اما اگر هدف شما جستجوی اطلاعات خاص باشد، ممکن است مشکلاتی پیش بیاید. این روش صحت اطلاعات را تضمین نمی کند و زمان بر است.

از طرف دیگر، اکثر موتورهای جستجو مانند Yandex و Google به شما اجازه می دهند دامنه جستجوی خود را محدود کنید. ابتدا می توانید از فیلترهای جستجوی پیشرفته استفاده کنید. با استفاده از این فیلترها، می توانید منطقه مورد نیاز خود را انتخاب کنید، نتایج جستجو را بر اساس تاریخ به روز رسانی سند محدود کنید، زبان سند را تعیین کنید و موارد دیگر. در مرحله دوم، در همان Yandex، یک "زبان پرس و جو" وجود دارد. ماهیت آن این است که برای محدود کردن منطقه جستجو می توانید از عملگرهای خاصی استفاده کنید که به شما امکان می دهد:

فقط اسنادی را که حاوی کلمه درخواستی در فرم مشخص شده است بازیابی کنید.

وجود و موقعیت نسبی کلمات درخواستی در سند را مشخص کنید

محدود کردن جستجو بر اساس نوع فایل، میزبان و غیره

2. اگر نیاز به یافتن اطلاعات در مورد موضوع خاصی دارید، جستجوی دایرکتوری مناسب است. در چنین سایت هایی، اطلاعات سیستماتیک و ساختار یافته، به موضوعات و موضوعات فرعی تقسیم می شوند، که پیدا کردن بخش مورد نیاز را آسان تر می کند. چنین سایت هایی توسط افراد واقعی ویرایش می شوند، بنابراین اغلب می توان به پیوندهای ارائه شده در آنجا اعتماد کرد. البته، این روش جستجو در صورتی که نیاز به یافتن یک سند خاص داشته باشید، کارایی خاصی ندارد، اما در مواردی که نیاز به یافتن هرچه بیشتر اطلاعات در مورد یک موضوع گسترده دارید، به خوبی کار می کند.

تعداد زیادی کاتالوگ در اینترنت وجود دارد، هر دو تخصصی، اختصاص داده شده به یک موضوع گسترده و چند رشته ای.

به عنوان مثال می توان دو کاتالوگ بزرگ و چند رشته ای را در نظر گرفت. DMOZ یکی از بزرگترین فهرست منابع اینترنتی است. اگر دایرکتوری های صرفاً به زبان روسی را در نظر بگیریم، می توانیم list.mail.ru را برجسته کنیم. در ادامه کمی بیشتر در مورد این منابع به شما خواهیم گفت.

3. جستجوی پایگاه داده برای جستجوی موضوعی موثر است. جمع آوری اطلاعات مورد نیاز ما از منابع اطلاعاتی، آموزشی و علمی به زبان روسی و خارجی اغلب مستلزم تلاش زیادی است و می تواند هزینه و زمان قابل توجهی را به همراه داشته باشد.

تعداد زیادی پایگاه داده در اینترنت وجود دارد - واقعی، کتابشناختی، متن کامل، شی گرا و غیره که بسته به محتوای اطلاعات ذخیره شده در آنها، می توان آنها را به جهانی، بخشی و موضوعی تقسیم کرد. به عنوان مثال، پایگاه های کتابشناختی اساساً مشابه الکترونیکی انتشارات کتابشناختی چاپی سنتی هستند. پایگاه داده های کتابشناختی، به عنوان یک قاعده، از یک الگوریتم یک بار تعریف شده و واضح برای توصیف اسناد بر اساس معیارهای خاص پشتیبانی می کنند. این به یافتن اطلاعات لازم کمک می کند، به خصوص اگر وظیفه پیدا کردن یک نشریه خاص منتشر شده در یک نشریه باشد.


مثال. کاتالوگ ها

فهرستی از سایت‌های اینترنتی، یا فهرستی از منابع اینترنتی، یا صرفاً یک فهرست اینترنتی (به انگلیسی: webdirectory) مجموعه‌ای ساختار یافته از پیوندها به سایت‌ها با شرح مختصری از آنهاست. سایت های داخل فهرست بر اساس موضوع تقسیم می شوند.

1. OpenDirectoryProject (ODP)، همچنین به نام DMOZ (از یکی از نام‌های دامنه اصلی آن directory.mozilla.org) یک فهرست چندزبانه و رایگان از پیوندها به وب‌سایت‌های جهانی است که توسط یک جامعه آنلاین از ویرایشگران داوطلب نگهداری می‌شود.

روشن در حال حاضردر وب سایت می توانید پیدا کنید:

3,884,779 سایت

اطلاعات به 90 زبان از جمله روسی، آلمانی، انگلیسی، یونانی، فرانسوی، ژاپنی، کره ای، ایتالیایی و غیره موجود است.

این سایت دارای 91790 ویرایشگر است.

دسته بندی های اصلی: هنر، تجارت، کامپیوتر، بازی، سلامت، خانه، اخبار، اوقات فراغت، دایرکتوری ها، مناطق، علم، خرید، جامعه، ورزش، کاتالوگ برای کودکان و نوجوانان. هر یک از این دسته بندی های اصلی به تعداد زیادی از موضوعات فرعی تقسیم می شوند.

DMOZ توسط AOL Inc اداره می شود. (مجموعه رسانه های آمریکایی، ارائه دهنده خدمات آنلاین و تابلوهای اعلانات الکترونیکی). این توسط تیم کوچکی از متخصصان مسئول خط‌مشی و حاکمیت ویرایشی، مدیریت و توسعه جامعه، و مهندسی سیستم‌ها مدیریت می‌شود.

با این حال، قبل از هر چیز، DMOZ یک جامعه خود تنظیم کننده است. از طریق یک سیستم خودگردان، ویراستاران داوطلب رشد و توسعه کاتالوگ را مدیریت می کنند و سیستم کنترل و تعادل تضمین می کند کیفیت بالامحتوا

DMOZ یک ابتکار مبتنی بر منبع باز و داوطلبانه است. شرکت AOL آن را بیشتر به عنوان یک سازمان غیرانتفاعی اداره می کند و تلاش می کند فضای خود را از یک منبع باز و رایگان حفظ کند.

2. اگر در مورد کاتالوگ های روسی زبان صحبت کنیم، می توانیم [email protected] را برجسته کنیم. مشابه DMOZ، موضوعات اصلی وجود دارد که سپس به موضوعات کوچکتر تقسیم می شوند. در مجموع 18 دسته اصلی وجود دارد: اتومبیل، اینترنت، پزشکی و سلامت، اخبار و رسانه ها، تولید، تجارت و امور مالی، رایانه، علم و آموزش، ورزش و غیره.

برای راحتی کاربران، در داخل هر بخش می‌توانید تمام لینک‌های موجود در این موضوع را به شرح زیر مشاهده کنید:

انواع سایت ها (اطلاعاتی، شرکتی، شخصی، سایت های خدماتی، خصوصی، اطلاعاتی و خدماتی)

همچنین می توانید نتایج را بر اساس حروف الفبا، تاریخ و محبوبیت مرتب کنید.

هر روز [email protected] پربازدیدترین سایت های روز را از سایت های موجود در کاتالوگ ارائه می دهد.


مثال. پایگاه های داده

Espacenet (که قبلا اغلب به عنوان esp@cenet نامیده می شد) رایگان است سرویس آنلاینبرای جستجوی پتنت ها و درخواست های ثبت اختراع. Espacenet توسط اداره ثبت اختراع اروپا (EPO) همراه با کشورهای عضو سازمان ثبت اختراع اروپا توسعه یافته است. اکثر کشورهای عضو می توانند از Espacenet به زبان ملی خود استفاده کنند و به پایگاه داده جهانی EPO دسترسی داشته باشند که بیشتر آنها در دسترس هستند انگلیسی. در سال 2015، Espacenet ادعا کرد که سوابق بیش از 90 میلیون انتشارات ثبت اختراع را دارد.

Espacenet برای اولین بار در سال 1998 راه اندازی شد و اطلاعات ثبت اختراعات بین المللی را با در دسترس قرار دادن آن برای عموم و تغییر روش توزیع، بررسی و جستجوی پتنت ها برای همیشه متحول کرد.

در سال 2012، EPO پروژه PatentTranslate را راه اندازی کرد، یک سرویس آنلاین رایگان برای ترجمه خودکار پتنت ها. این سرویس با مشارکت گوگل ایجاد شده است و "به طور خاص برای مدیریت زبان ثبت اختراع پیچیده ساخته شده است." PatentTranslate 31 زبان را پوشش می دهد.

از مارس 2016، Espacenet شروع به ارائه جستجوی متن کامل اسناد ثبت اختراع انگلیسی، فرانسوی و آلمانی کرد.

مثال. موتور جستجو.

یک موتور جستجو است سیستم کامپیوتری، برای جستجوی اطلاعات طراحی شده است. یکی از شناخته شده ترین کاربردهای موتورهای جستجو، خدمات وب برای جستجوی متن یا اطلاعات گرافیکی در شبکه جهانی وب است.

برای جستجوی اطلاعات با استفاده از موتور جستجو، کاربر یک عبارت جستجو را فرموله می کند. وظیفه یک موتور جستجو این است که با یافتن اسنادی که حاوی کلمات کلیدی مشخص شده یا کلماتی هستند که به نوعی با کلمات کلیدی مرتبط هستند به درخواست کاربر پاسخ دهد.

معماری موتورهای جستجو معمولاً شامل موارد زیر است:

یک ربات جستجوگر که اطلاعات را از سایت های اینترنتی یا اسناد دیگر جمع آوری می کند.

نمایه‌سازی که جستجوی سریع از طریق اطلاعات انباشته شده را فراهم می‌کند

موتور جستجو یک رابط گرافیکی برای کاربر است.

در حال حاضر کاربران دارند انتخاب گسترده، می خواهند از کدام موتور جستجو برای یافتن اطلاعات مورد نیاز خود استفاده کنند: Google، Bing، Yahoo!، Yandex، Rambler و غیره.

به عنوان مثال، موتور جستجوی بینگ را بررسی خواهیم کرد. بینگ یک سرویس جستجوی نسبتاً جدید است که برای اولین بار تنها در سال 2009 وجود خود را اعلام کرد و توسط مدیر عامل مایکروسافت استیو بالمر معرفی شد. با این حال، با وجود جوانی، این موتور جستجو امروزه در برخی از کشورهای اروپایی و همچنین کشورهای آمریکای شمالی، پس از غول جستجوی گوگل، از نظر محبوبیت در رتبه دوم قرار دارد.

بینگ در کشورهایی مانند ایالات متحده آمریکا، چین، آلمان، هند و بریتانیا بسیار محبوب است.

موتور جستجو مختصر است ظاهرو برای یافتن اطلاعات می‌توانید از دسته‌های «تصاویر»، «ویدئوها»، «نقشه‌ها»، «اخبار» نیز استفاده کنید. علاوه بر این، بینگ مترجم خود را بر اساس مترجم مایکروسافت دارد. از ویژگی های این موتور جستجو می توان به این واقعیت اشاره کرد که می توانید از محصولات دارای مجوز مایکروسافت آفیس به طور مستقیم در موتور جستجو استفاده کنید، بدون اینکه آن را بر روی رایانه خود نصب کنید.

اگر این سایت را به عنوان یک منبع اطلاعاتی ارزیابی کنید، ممکن است با یکی از ویژگی هایی روبرو شوید که جستجوی سریع و دقیق را پیچیده می کند. ویژگی الگوریتم جستجوی بینگ ارتباط آن با چگالی کلمات کلیدی است. اگر برای ارتقای موفقیت آمیز در سایر موتورهای جستجو، متون سایت باید از 5 تا 8 درصد کلمات کلیدی داشته باشند، بینگ تراکم کلید طبیعی را 3 درصد در نظر می گیرد. بنابراین، احتمال اینکه درخواست شما ممکن است پیوندهایی به سایت هایی ارائه دهد که حاوی اطلاعات لازم نیستند، افزایش می یابد.

Bing مانند رقبای خود توانایی فیلتر کردن نتایج بر اساس دوره زمانی، زبان و منطقه را دارد.


نتیجه گیری

اینترنت یک مخزن غول پیکر از داده ها در تمام شاخه های دانش بشری را تشکیل می دهد. کتابخانه‌های مجازی، بایگانی‌ها، فیدهای خبری حاوی تعداد زیادی فایل متنی، گرافیکی، صوتی و تصویری هستند - شبکه‌های کامپیوتری در سراسر جهان حجم عظیمی از اطلاعات باز را در اختیار ما قرار می‌دهند. و در این مسیر حرکت کنید جریان اطلاعات، یافتن آنچه نیاز دارید برای یک فرد قرن بیست و یکم بسیار مهم است.

ما با انواع منابع اطلاعاتی باز در اینترنت مانند دایرکتوری ها، پایگاه های داده و موتورهای جستجو با استفاده از مثال های خاص آشنا شدیم و نحوه جستجوی اطلاعات در این منابع را بررسی کردیم.

منابع

1) مقاله "مجموعه اطلاعات از منابع باز" [منبع الکترونیکی] // Vsepoisk، 2015، URL: http://www.vsepoisk.ru/2009/03/blog-post_27.html (تاریخ دسترسی: 13/12 /2016)

2) وب سایت رسمی DMOZ [منبع الکترونیکی] // DMOZ، 2016، آدرس: http://www.dmoz.org/ (تاریخ دسترسی: 1395/12/13)

3) وب سایت رسمی Catalog@Mail [منبع الکترونیکی] // Mail.ru، 2016، URL: http://list.mail.ru/ (تاریخ دسترسی: 12/13/2016)

4) وب سایت رسمی Espacenet [منبع الکترونیکی] // Espacenet، 2015 URL: http://www.epo.org/index.html (تاریخ دسترسی: 12/13/2016)

5) مقاله "نگاه در پایگاه های داده" [منبع الکترونیکی] // Vsepoisk، 2015، URL: http://www.vsepoisk.ru/2009/04/blog-post_08.html (تاریخ دسترسی: 1395/12/13)

تجزیه کنندهبرنامه ای است برای خودکارسازی فرآیند تجزیه، یعنی پردازش اطلاعات بر اساس یک الگوریتم خاص. در این مقاله چندین مثال از برنامه های تجزیه کننده ارائه می کنم و هدف و عملکرد اصلی آنها را به اختصار شرح می دهم.

تجزیه کننده محتوا X-Parser

توابع اصلی برنامه نیز از چندین بلوک برنامه تشکیل شده است.

  • تجزیه کننده هر موتور جستجو را توسط پرس و جوهای کلیدی
  • تجزیه کننده محتوای هر سایت
  • تجزیه کننده محتوا برای پرس و جوهای کلیدی از نتایج هر موتور جستجو
  • تجزیه کننده محتوا بر اساس لیستی از URL ها
  • تجزیه کننده لینک داخلی
  • تجزیه کننده لینک خارجی

برنامه WebParser

تجزیه کننده WebParser یک برنامه جهانی است. که وظیفه اصلی آن تجزیه موتورهای جستجو است. با PS Google، Yandex، Rambler، Yahoo و برخی دیگر کار می کند. موتورهای وب سایت (CMS) را تجزیه و تحلیل می کند. سازگار با همه نسخه های ویندوز، با W2000 شروع می شود. اطلاعات کامل تر

افزونه WP Uniparser

فراموش نکنیم افزونه برای وردپرس WP Uniparser. با دنبال کردن این لینک می توانید در مورد آن بیشتر بدانید.

تجزیه کننده "ماگادان"

تجزیه کننده کلمات کلیدی با نام عاشقانه "Magadan" به طور خاص برای پردازش هدفمند کلمات کلیدی Yandex.Direct ایجاد شده است. هنگام آهنگسازی مفید است هسته معنایی، آماده سازی شرکت های تبلیغاتیو برای جمع آوری و تجزیه و تحلیل اطلاعات.

در خاتمه قابل ذکر است زبان برنامه نویسی برای ایجاد وب سایت Parser، در استودیوی Artemy Lebedev ایجاد شده و برای توسعه وب سایت استفاده می شود. این زبان تا حدودی پیچیده تر از HTML معمولی خواهد بود، اما نیازی به آماده سازی کامل مانند زبان PHP ندارد.

تحقیقات بازاریابی به جمع آوری، نمایش و تجزیه و تحلیل سیستماتیک داده ها در مورد جنبه های مختلف فعالیت های بازاریابی اشاره دارد.

تحقیقات بازاریابی عملکردی است که از طریق اطلاعات، بازاریابان را با بازارها، مصرف کنندگان، رقبا و همه عناصر محیط بازاریابی خارجی مرتبط می کند.

اطلاعات اولیه اطلاعاتی است که محقق به طور مستقل به طور خاص برای حل یک مشکل تحقیقات بازاریابی به دست می آورد.

برای جمع آوری اطلاعات در مورد ترجیحات مصرف کننده و ترجیحات متخصصان واجد شرایط در زمینه روش های جمع آوری، منابع اطلاعاتی در اینترنت، از روش نظرسنجی استفاده شد.

این نظرسنجی شامل جمع آوری اطلاعات اولیه با پرسیدن مستقیم سوالات پاسخ دهنده در مورد سطح دانش، نگرش نسبت به محصول، ترجیحات و رفتار خرید است.

بسته به نوع پاسخ‌دهندگان، نظرسنجی با مشارکت دسته‌ای از جمعیت که فعالیت‌های حرفه‌ای آن‌ها مرتبط با موضوع تجزیه و تحلیل نبود، انتخاب شد.

تحقیقات بازاریابی برای شناسایی ویژگی های جستجو و استفاده از اطلاعات در اینترنت انجام شد. مخاطبان این مطالعه جمعیت زیر 18 سال و بالاتر جمهوری بلاروس هستند. جمع آوری داده ها در شهر گومل انجام می شود.

برای تعیین حجم نمونه مورد نیاز از فرمول استفاده شد:

که در آن n حجم نمونه است.

z - انحراف نرمال شده، بر اساس سطح اطمینان انتخاب شده تعیین می شود.

p - تنوع یافت شده برای نمونه.

ه - خطای قابل قبول.

بنابراین حجم تغییرات برابر با انسان است.

هر تحقیق بازاریابی با تعریف مشکل شروع می شود. بنابراین، در مطالعه ما، مسئله ای که نیاز به تحقیق دارد به صورت زیر فرموله می شود: «مصرف کنندگان در مورد استفاده و جستجوی اطلاعات در اینترنت چه احساسی دارند؟

سؤالات جستجو مؤلفه های فردی مسئله را روشن می کند، که هر کدام به نوبه خود می توانند به مؤلفه هایی تقسیم شوند - سؤالات جستجو. سؤالات جستجو، محدوده اطلاعات خاصی را که برای حل مسئله تحقیق مورد نیاز است، تعیین می کند. بنابراین، سؤالات جستجو در مطالعه ما ممکن است شامل موارد زیر باشد: 1. کاربر موتورهای جستجو چه کسی است: جنسیت، سن، سطح درآمد چیست، موقعیت اجتماعی. 2. کاربران کدام موتور جستجو را انتخاب می کنند؟ 3. کاربران بیشتر از کدام سایت ها بازدید می کنند؟ 4. کاربران به چه منظور از اینترنت استفاده می کنند؟ 5. چه اطلاعاتی در اینترنت جالب تر است؟ بر اساس سوالات جستجو می توان فرضیه هایی را فرموله کرد: 1. کاربران موتور جستجوی گوگل را انتخاب می کنند. 2. اغلب کاربران موتورهای جستجو 19 تا 25 سال سن دارند. 3. کاربران اغلب از سایت های سرگرمی بازدید می کنند. 4. بیشتر کاربران از اینترنت برای ارتباط استفاده می کنند. 5. اطلاعات مربوط به سرگرمی و تفریح ​​برای کاربران بسیار جالب است. 6. بیشتر کاربران اطلاعات مورد نیاز خود را پیدا می کنند. 7. کاربران بیشتر در خانه از اینترنت استفاده می کنند.

در سپتامبر - نوامبر 2011، یک تحقیق بازاریابی انجام شد که طی آن با 150 شهروند ساکن در شهر گومل مصاحبه شد. از پاسخ دهندگان خواسته شد تا پرسشنامه ای متشکل از 17 سوال را پر کنند. مدت زمان مطالعه با در نظر گرفتن تهیه پرسشنامه و پردازش داده های دریافتی 12 هفته می باشد.

یک پرسشنامه برای شناسایی ترجیحات مصرف کننده ایجاد شد (پیوست A).

در طول فرآیند تحقیقات بازاریابی، هنگام مصاحبه با پاسخ دهندگان، گروه های سنی زیر مشخص شدند (شکل 3.1).

شکل 3.1 - نمودار توزیع پاسخ دهندگان بر اساس سن

همانطور که از شکل 3.1 مشاهده می شود، با توجه به معیار سنی، استفاده از موتورهای جستجو تحت سلطه پاسخ دهندگانی است که سن آنها در محدوده 19-25 سال است که 35٪ است. شهروندانی که سن آنها در محدوده 56 سال و بالاتر است، 3 درصد بوده است. مخاطب هدفاز نقطه نظر زمینه فعالیت آنها در شکل 3.2 ارائه شده است.

شکل 3.2 - نمودار توزیع پاسخ دهندگان بر اساس موقعیت اجتماعی

با تجزیه و تحلیل پاسخ پاسخ دهندگان، می توان نتیجه گرفت که بخش قابل توجهی از کاربران موتورهای جستجو را کارمندان (36٪) و کارگران (30٪) تشکیل می دهند. در مرحله بعدی، با اندکی تفاوت، دانشجویان (17 درصد) و کارآفرینان (15 درصد) قرار دارند.

داده های به دست آمده در مورد سطح درآمد جمعیت در شکل 3.3 ارائه شده است

برنج. 3.3

از شکل 3.3 می توان دید که تعداد بیشتری از پاسخ دهندگان دارای سطح درآمد متوسط ​​بودند که از 1000000 تا 2000000 روبل متغیر بود که به 65.3% می رسید. کسانی که در نظرسنجی با درآمد پایین مورد بررسی قرار گرفتند 26.3٪ و کسانی که درآمد بالا - 8٪ داشتند.

برنج. 3.4

از شکل 3.4 مشخص است که تعداد انواع و نام موتورهای جستجو بسیار زیاد است. محبوب ترین سیستم ها گوگل هستند - 45٪، به دنبال Mail.ru، سپس Yandex - 20٪ و در رتبه آخر Rambler - 10٪. به طور کلی، تفاوت زیادی در ترجیحات مصرف کنندگان Google، Mail.ru، Yandex و Rambler وجود دارد.

برنج. 3.5

شکل 3.5 نشان می دهد که سایت هایی که بیشتر از سایرین بازدید می شود، سرگرمی هستند - 35٪، به دنبال اطلاعات - 33٪، سپس شرکتی - 25٪ و سایرین - 7٪.

برنج. 3.6

این شکل نشان می دهد که اکثر پاسخ دهندگان از موتورهای جستجو استفاده می کنند - 90.2٪

برنج. 3.7

با توجه به نتایج مطالعه، مشخص شد که برای 61٪ از پاسخ دهندگان، موتور جستجو یک وسیله ارتباطی راحت است، برای 34٪ یک ابزار ساده است. راه موثریافتن اطلاعات و برای 5٪ چیز دیگری. ساختار پاسخ ها به وضوح در شکل 3.7 نشان داده شده است

برنج. 3.8

این مطالعه اطلاعاتی در مورد فراوانی استفاده از اینترنت ارائه کرد، که در آن مصرف‌کنندگانی که روزانه از اینترنت بازدید می‌کنند 74 درصد، 3-4 بار در هفته - 16 درصد و 3-4 بار در ماه - 10 است. ساختار پاسخ‌ها به وضوح نشان داده شده است. در شکل 3.8

برنج. 3.9

همانطور که از شکل 3.9 مشاهده می شود، اکثریت پاسخ دهندگان از اینترنت در خانه (75%)، 16% در محل کار، 5% در مهمانی و 4% در یک کافی نت استفاده می کنند.

برنج. 3.10

شکل 3.10 نشان می دهد که پاسخ دهندگان اغلب از اینترنت برای ارتباط (48%) و همچنین جستجوی اطلاعات (26%)، تماشای اخبار (19%) و پست الکترونیکی (7%) استفاده می کنند.

برنج. 3.11

با توجه به نتایج این مطالعه، مشخص شد که برای 44٪ از پاسخ دهندگان، جالب ترین اطلاعات مربوط به تفریح ​​و سرگرمی است - 44٪، اینترنت 42٪، تجارت 31٪، کامپیوتر 29٪، جامعه 27٪، علم و آموزش 25. ٪، فرهنگ و هنر 20٪، پزشکی و سلامت 19٪، خانه و خانواده 18٪. ساختار پاسخ ها به وضوح در شکل 3.11 نشان داده شده است

برنج. 3.12 - نمودار توزیع پاسخ دهندگان با پاسخ به این سوال: "آیا می توانید اطلاعات مورد نیاز خود را در اینترنت پیدا کنید؟"، %

از شکل 3.12 می توان مشاهده کرد که تعداد بیشتری از پاسخ دهندگان همیشه اطلاعات مورد نظر خود را پیدا می کنند - 52٪، اغلب - 33٪، به ندرت - 12٪، هرگز 3٪.

بنابراین، این نظرسنجی ترجیحات مصرف کننده زیر را نشان داد: اکثر پاسخ دهندگان موتور جستجویی مانند Google را ترجیح می دهند، در حالی که استفاده از Mail.ru بین آنها فاصله زیادی ندارد (5.٪).

35 درصد از نمونه ها اغلب از سایت های سرگرمی بازدید می کنند، 58 درصد از مصرف کنندگان روزانه از اینترنت بازدید می کنند، اما تجزیه و تحلیل نشان داد که بازدیدها روزانه در حال افزایش است. و پیش بینی رشد آینده پیش بینی شده است. بنابراین، توسعه دهندگان موتورهای جستجو باید:

بهبود الگوریتم‌های جستجو (یا توسعه استراتژی‌های جستجوی جدید)، و «زنگ‌ها و سوت‌های» مرتبط مانند طراحی و خدمات اضافی؛

ارائه تجزیه و تحلیل سوالات (سوالات) مطرح شده به زبان طبیعی؛

موتورهای جستجوی شاخص فایل های خارجی CSS؛

اندازه سند یا اندازه بخشی که ایندکس می شود را افزایش دهید

مرور کنید