2008年03月13日
初心者への道しるべ



検索エンジン


↓いつも読んでくれてありがとう!あんたの熱い応援をヨロシク!↓

↓↓↓
人気blogランキングへ

有名ブログランキング

FC2 Blog Ranking



SEO

初心者への道しるべ


炎の用語解説


その35



検索エンジン

〜☆〜☆〜☆〜☆〜☆〜☆〜☆〜☆〜☆〜☆

検索エンジン


検索エンジン

検索エンジン

検索エンジン

検索エンジンとは?

検索エンジン


検索エンジン
(けんさく-、search engine)
とは、
狭義にはインターネットに存在する情報
(ウェブページ、ウェブサイト、画像ファイル、
ネットニュースなど)を検索する機能を提供する
サーバーやシステムの総称。

インターネットの普及初期には、
検索エンジンとしての機能のみを
提供していたウェブサイトそのものを
検索エンジンと呼んだが、
現在では様々なサービスが加わった
ポータルサイト化が進んだため、
検索エンジンをサービスの一つとして提供する
ウェブサイトを単に検索エンジンと呼ぶことは
なくなっている。

広義には、
インターネットに限定せず
情報を検索するシステム全般を含む。


狭義の検索エンジンは、ロボット型検索エンジン、ディレクトリ型検索エンジン、メタ検索エンジンなどに分類される。 広義の検索エンジンとしては、テキスト情報の全文検索機能を備えたソフトウェア(全文検索システム)等がある。 また、検索エンジンは、全文検索が可能なものと不可能なものがある。

検索エンジン(狭義)


ロボット型検索エンジン

与えられた検索式に従って、
ウェブページ等を検索するサーバー、
システムのこと。

検索式は、
最も単純な場合はキーワードとなる
文字列のみであるが、
複数のキーワードにANDやOR等の
論理条件を組み合わせて指定することが
できるものが多い。


ロボット型検索エンジンの
大きな特徴の一つとして、
クローラ(スパイダー)を用いることが
挙げられる。
このことにより、
WWW上にある多数の情報を効率よく収集
(日本の著作権法では複製)することができる。
大規模な検索エンジンでは、
80億ページ以上のページから検索が
可能になっている。


収集したページの情報は、
前もって解析し、
索引情報(インデックス)を作成する
(日本の著作権法では編集)。
日本語などの言語では、
自然言語処理機能が生成される
索引の質に影響する。
このため、
多言語対応した検索エンジンの方が
精度の高い検索が可能となる。


検索結果の表示順は、
検索エンジンの質が最も問われる部分である。
ユーザーが期待したページを
検索結果の上位に表示することができなければ、
ユーザーが離れてしまうからである。

そのため、多くの検索エンジンが、
表示順を決定するアルゴリズムを非公開にし、
その性能を競っている。

また、検索エンジン最適化業者の存在も、
アルゴリズムを公開しない要因になっている。

Googleは、そのアルゴリズムの一部である
PageRankを公開しているが、
やはり、多くの部分が非公開になっている。
なお、Googleの場合、
創設初期におけるアルゴリズムについては、
創設者自身がウェブ上で公表している論文で
その一端を知ることができる。


ウェブページの更新時刻の情報を用いて、
新しい情報に限定して検索できるものや、
検索結果をカテゴリ化して表示するものなど、
特長のある機能を搭載したり、
検索結果をユーザーへ最適化していく動きもある。

Mooterは、
品詞をクラスター化して検索結果を
テーマや内容に応じて分類・整理する仕組みだ。
また、検索結果と同じ題名の書籍がある場合、
オンライン書店へのリンクを表示するなど、
商業的な機能もある。


また、従来のウェブページを検索するだけの
検索エンジンにとどまらず、
最近ではインターネットショッピング専用の
検索エンジンの開発も散見される。
価格比較サービス最大手の価格.comや、
ベンチャー企業が開発するQOOPIEなどある。

Google, Yahoo!, Mooter, infoseek,
Technorati,MARSFLAG, Altavista,
AlltheWeb, Teoma, WiseNut,
Inktomi,SAGOOLなど。


ディレクトリ型検索エンジン

人手で構築した
ウェブディレクトリ内を検索するサーバー、
システムのこと。

人手で構築しているため、
質の高いウェブサイトを検索可能。

また、サイトの概要を人手で記入しているため、
検索結果の一覧から
目的のサイトを探しやすいという特長がある。

しかし、
検索対象となるサイトは人手で入力するため、
検索対象となるサイト数が多くないという
欠点がある。

WWWの爆発的な拡大によって、
あらゆるウェブサイトを
即時にディレクトリに反映させることが
事実上不可能になり、
現在では主流ではなくなっている。

このため、ディレクトリ型検索エンジンでは、
検索にヒットするサイトが無かった場合、
ロボット型検索エンジンを用いて結果を
表示するような、併用型のものが多い。

Yahoo!, goo, infoseek,
Open Directory Projectなど。




メタ検索エンジン

ひとつの検索ワードを
複数の検索エンジンで検索することを
メタ検索という
(横断検索エンジンと呼ぶこともある)。


検索エンジン(広義)


全文検索システム

与えられた文書群から、
検索式(キーワードなど)による
全文検索機能を提供するソフトウェア、
システムの総称で、
ウェブサーバに組み込んで利用されることが多い。

スタンドアローン環境で用いられる
個人用途のものもあり、
そういったものは特に
「デスクトップ検索」と呼ばれている。



歴史


黎明期

日本のインターネット普及初期から
存在した検索エンジンには
以下のようなものがある。

黎明期には、
豊橋技術科学大学の学生が作成したYahhoや、
東京大学の学生が作成したODiN、
早稲田大学の学生が作成した千里眼など、
個人の学生が作成したものが
商用に対して先行していた
(いずれも1995年に作成)。

これらは、
単に実験用に公開されていただけでなく、
多くの人に用いられていたものであって、
黎明期のユーザにとっては、
知名度、実用度ともに高いものであった。
またMondouなどのように研究室(京都大学)
で作成したものもあった。




Yahoo!の独走

日本では、
1996年にサービスを始めたYahoo!が
簡素な画面構成と質の高いディレクトリで
人気を集め、検索サイト首位の座を固めた。
そして、
検索サイトの集客力を武器にニュース、
オークションなどのサービスで
ポータルサイトとしての独走を始めた。


群雄割拠

1997年頃から、
WWWの爆発的な拡大に伴って、
ディレクトリ型のみであった
Yahoo!のウェブディレクトリの陳腐化が
急速に進んだ。
この頃、infoseekやgooに代表される
ロボット型検索エンジンが人気を集め始め、
Yahoo! JAPANはロボット型検索エンジンに
gooを採用するなど、
群雄割拠の時代になった。


Googleの台頭

1998年に登場したGoogleは、
従来の検索エンジンが
ポータルサイト化へ進む流れに逆行し、
独創的な検索技術に特化し
バナー広告等を排除した簡素な画面と
2000年にYahoo!のロボット型検索エンジンに
採用されたことにより、
急速に人気を集めた。
2004年現在では、
ウェブページ検索の
世界シェアのトップに躍り出たと見られている。
英語圏ではあるフレーズ
(たとえば「ウィキペディア」)を
Googleで検索することを“google Wikipedia”
のように表現する
(日本語においては
「ウィキペディアをググる、
ウィキペディアでググる」)ほどになった。

この状況に危機感を募らせたYahoo!は、
2004年にロボット型検索エンジンを
独自技術Yahoo!Search Technology(YST)
(Yahoo!が買収したInktomiとAltaVista、
Overture等の技術を統合した)に切り替えた。

同年、
GoogleやYahoo!のエンジンに匹敵すると
言われるTeomaを利用した検索エンジン、
Ask Jeeves(現・Ask.com)が
「Ask.jp」として、2005年、
オーストラリアで誕生したMooterが
日本に進出し、検索サービスを開始した。


検索エンジンの多様化

検索という行為が一般化するにつれて、
各種目的別に多様化した検索エンジンが
現れるようになった。
品詞をクラスターさせて検索するMooter、
ブログの情報に特化した検索Technoratiや
blogWatcher、
商品情報の検索に特化した商品検索サイト、
サイトの見た目で検索するMARSFLAGほか、
次々と新しい検索エンジンが生まれている。
また、
検索エンジンでは判断できない
抽象的な条件などでの検索を人手に求めた、
OKWaveや人力検索はてななどの
「人力検索」と呼ばれるサービスも登場した。

また最近では、
携帯電話からもサイトを検索する傾向となり、
Googleやyahoo!やfroute.jpをはじめとする
携帯向けのモバイル検索サイトが登場し
活気がでている。


対応端末の多様化

ソフトバンク・Yahoo! JAPANが
ボーダフォンを買収し、
KDDIがGoogleと提携するなど、
携帯電話の分野で検索エンジンの戦いが
激化してきている。

モバイル検索の分野は
長らく公式サイトと呼ばれる世界が
ユーザーの囲い込みを行っていたため
脚光を浴びることが少なかった。

また、近年携帯型・据置型問わず
家庭用ゲーム機にインターネット接続機能が
搭載されるようになり、
こういった世界でも検索エンジンの戦いが
まもなく起こるのではないかとの見方もある。


テレビコマーシャルとの連動

2006年頃から日本では
検索キーワードを表示する
テレビコマーシャルが急増している。
大抵はキーワードが書かれた状態の
検索フォームとボタンを表示し、
マウスクリックを促す演出がなされている。

コマーシャルでURLを表示するのに比べて
アクセス数を獲得しやすいことが
増加の要因である。
しかし検索結果に企業にとって
不都合な情報が現れる場合があるため、
グーグル八分のような
検索結果の操作が行われるケースも
考えられる。


リーガルリスク


深層ウェブ

また、
Googleなどのウェブ検索エンジンでは
、データベースの検索結果など
多くの動的ページが検索対象になっていない。
このような動的ページは
「深層ウェブ」「見えないウェブ」
「隠されたウェブ」などと呼ばれている。

静的ページの500倍の量が存在し、
多くは無料だといわれる。
深層ウェブは、
一般の検索エンジンなどから
データベースなどを見つけ出すか、
直接アクセスした上で、
それぞれの検索機能から
再度検索しなければならない。

このようにWebページが
深層と表層に分かれてしまう背景には
検索エンジン側が晒される
リーガルリスクがある。
深層にあるものは必ずしも
検索エンジンから検索されることを
前提としていないものも多い。

すべての深層データが検索エンジンから
検索可能な状態になっていた場合、
動的ページの情報提供者の存在意義を
脅かす可能性もある。
また、
本来であれば非公開とされているような
データが誤って検索されてしまうという
可能性も高くなる。
さらに、データベースと連動する
動的ページをクローラーが集中的に
クロールすると、
データベース側の負荷が上がるため
サーバ速度の低下やシステムダウンを
引き起こす危険が高まる。
このようなことから
検索エンジンは技術的に深層に
入り込めない訳ではなく、
あえて避けていると推測することができる。

実際、中国の検索エンジン百度は
集中的なクロール活動を続けた結果、
多くのサーバ管理者から一斉にクレームを受け、
クロール活動を大きく制限せざるを得なかった。


著作権との関係

検索エンジンは、
その仕様上インターネット上の
コンテンツを複製して
キャッシュとして保存するようになっている。
このような仕様は、
日本では、著作権法上、問題があるため、
検索エンジンの仕様を合法とする海外
(米国など)のサーバに置かれている。

しかし、
これでは日本人が検索している内容が
米国に筒抜けとなってしまい、
国益上好ましくないと考えられる。
そのため遅ればせながら、
経済産業省が日本国内でも
検索エンジンサービスが行えるように
著作権法の改正や検索エンジンの
開発に取り組むと発表した。




社会的な問題



ストーカー行為の助長

検索エンジンを利用した
ストーカー行為の事例も
発生するようになってきた。
個人の氏名で検索すると
非常に詳細な個人情報が取得できる
ケースもあるが、
個人情報の削除要請に対し
検索エンジン各社は、
元のページの作成者に
一切の責任があるとして、
応じない方針を取っている。

また、
Yahoo!では削除要請を
依頼するための連絡先すら掲示せず
利用者からの依頼を無視することで
この問題に対処する方針をとっている。
検索エンジンの利用のうち
30%程度が個人情報に関連する検索で
占められている見られており、
プライバシー問題は
検索エンジン各社にとって
触れられたくない問題であるのは
事実である。

SNSなどの代表されるサイトMixiでは
本名での登録を促しているが、
これは名前さえわかればSNSサイトの
検索機能で容易に個人を特定可能であり、
自らに関連するカテゴリへの参加
(喩えば卒業校)や
公開された参加者間の会話などで、
容易に個人の情報を推測・取得できる。
クローズドなサイトで
公開されていたものであっても、
一般公開サイトに転載されてしまう
ケースもある。
また、
検索機能がストーカー行為を
助長しているという指摘もある。


学校裏サイトの問題

最近になって問題となっているものに
学校裏サイトがある。
その多くが、
特定個人名を挙げての誹謗中傷を
主にしたものであり、
学校名では検索できない場合でも、
個人名で検索するとその存在が
判明するものも多い。
また、
不特定多数のものが
匿名で作るサイトであるため、
サイト管理者に対応を求めることが
困難であるケースが多い。
こういったケースでは
検索エンジンからの削除を求める以外に
被害の拡大を防ぐことは難しいが、
検索エンジン各社は
明白な誹謗中傷の場合であっても
個々の削除依頼者に不必要なほどの
詳細な説明を求めることが常態化しており、
不明確な基準により削除をせず、
誹謗中傷が引き続き検索エンジンで
検索されつづけるケースも多い。


言論弾圧への加担

また中国の検索エンジンでは
反政府的な内容や政府が
弾圧しているといわれる宗教団体に
関する情報は
検索結果に表示されなくなっている。
Googleなどは検索結果の中に
「表示されている内容は一部法律に
基づいて省略されている」
という記述があるが、
結果的に中国政府の言論弾圧に
手を貸しているという批判がある。
同様の批判はYahoo!やMSNにも
向けられている。

こういった露骨な言論弾圧以外にも、
上場企業のウェブサイトがスパムと
判断され検索結果に掲載されなくなる
ということがある。
検索サイトに表示されることは
企業や商用サイトにとって
莫大な利益を還元することであり、
同時に検索されない場合の
不利益は非常に大きい。


不明確な基準

膨大なインターネット上の情報を
網羅的に調査するには
大手の検索エンジンを利用するほか方法が無い。
このためURLがあまり知られていない
無名なウェブサイトや
ドキュメントなどに関しては
検索エンジンに検索結果として表示されなければ、
その情報にたどりつく可能性が
著しく少なくなってしまう。
表示されなくなる基準は
露骨な検索エンジン最適化テクニックを
使用しているサイトや各国の法律等に
反しているサイト(下記中国の例)、
公序良俗に悖るサイト
(アダルトサイト、誹謗中傷が主体のサイト等)と
考えられているが、
その明確な基準は各社共に不明瞭であり、
検索結果から削除される際の
該当ウェブサイトへの警告は
基本的にない。
各社とも、
検索エンジンスパムには
厳しい姿勢を取る反面、
公序良俗に反するサイトの非表示には
消極的である。
検索エンジン各社にとって、
公序良俗に反するサイトをも含め
検索できるような状態にしておくことが
結果として自社の検索エンジンの
シェアを高めることになるため、
積極的に不適切なサイトを
排除するという動機は働きにくい。


そのほか


多言語化の課題 

いわゆる
「使用言語からみたインターネット人口の割合」は
Internet Archiveを用いて
Euro MarketingとGlobal Reachから
過去の月次資料を整理すると
以下のような推移を辿っている。

   
    1998年 1999年 2000年
    12月   1月   4 - 7月 12月
英語  58%   55%   51.3% 49.6%
非英語 42%   45%   48.7% 50.4%

    2001年       2002年
  2月   4 - 6月 7月  1月 6 - 10月
英語  47.6% 47.5% 45.0% 43.0% 40.2%
非英語 52.4% 52.5% 55% 57.0% 59.8%

    2003年  2004年
    2 - 4月  7月
英語  36.5%   35.8%
非英語 63.5% 64.2%


1995年以前のInternet Societyによれば
インターネットで用いられている言語のうち
英語が占める割合は85%とされていたが、
その後のITの進歩や
各国のインターネットの普及により
多言語化が進み、
上表に見られるように
2000年の年末には英語と
非英語の言語人口が逆転し、
その傾向は継続している。

2005年2月2日現在、
WWW検索エンジンの代表格である
Googleでは80億を越す
8,058,044,651ウェブページが
登録されている。
検索エンジンの利用者は
それら40億を越すウェブページから
求める情報を容易に引き出せる
と思い込みがちであるが、
例えば日本語入力のできない
コンピュータなどの端末を用いて
日本語サイトを検索することは
容易ではない。
同様に非英語圏の言語間の検索は
中間に翻訳エンジンを介さないと
検索作業は難しい。

インターネットの多言語化が
今後も増加すると仮定した場合、
言語間の壁をどのように乗り越えるかは
今後の検索エンジンが
抱える課題の一つとして
挙げることができる。


各種広告

2004年頃から、
各種広告で目的のアクセス先URL
(アドレス)を記す代わりに、
社名や商品名などを検索エンジンで
検索させるように仕向ける
広告が多くなっている。
このような変化が生じた理由は不明であるが、
各メディアの広告掲載基準の
変更などが考えられる。


主な検索エンジンサイト

* @nifty
* Ask.jp
* BIGLOBE
* Clusty.jp
* Excite
* フレッシュアイ
* goo
* Google
* infoseek
* ライブドア
* Lycos
* MARSFLAG
* Mooter
* MSN (Live Search)
* Powerset
* SAGOOL
* Yahoo!
* 百度(バイドゥ)

サービスを終了した

主な検索エンジンサイト


* ODiN (ロボット型)
* 千里眼 (ロボット型)
* OCN Navi (TITAN) (ロボット型)
* Mondou(ロボット型)
* NTT DIRECTORY (ディレクトリ型)
* CSJ INDEX (ディレクトリ型)

出典: フリー百科事典『ウィキペディア(Wikipedia)』より

〜☆〜☆〜☆〜☆〜☆〜☆〜☆〜☆〜☆〜☆
書いて欲しいテーマなんかあったらリクエストもお待ちしてます。

yokoより。

検索エンジンって大切だよね。

ネットを仕事にしようとしたら、

外せないけど、あまりこだわってもねえ。

素人だと大変だし。

スポンサーリンクになれば、一番初めになるけど、

お金がかかるしね。

まあ、無料にこだわることもないんだけど。

仕事始めはお金がないから、

何処で調達するかっていうのが大切だよね。

いずれ書くから待っててね。



最後まで読んでくれて、ありがとう。

あなたに、幾多の幸せがおきますように。


じゃあな!!


↓解説・記事が為になったと思ったら、
あんたの熱い応援をヨロシク!↓


人気blogランキングへ

有名ブログランキング

FC2 Blog Ranking





もしも、気に入ってもらえたのなら
↓お気に入りに入れてください。
新着がすぐに見られて便利です。




☆=☆=☆=☆=☆=☆=☆=☆=☆=☆=☆



↓はい!あんた!ちゅうも〜く!!!

□■□■□■□■yokoより、まだ見ぬあんたへ・・・□■□■□■□■

何か、意見があったり、教えて欲しいこと、

書いてもらいたい記事があったら、

遠慮なく、コメントをくれよ!

恋の相談でもいいぜ!

『どうしたら、モテますか?』とか、

『どうしたら、勇気が持てますか?』とか、

『スケバンて何ですか?』とかでもいいぜ!

ちなみにスケバンを調べると
ウィキペディアではこう出ています。




『yoko姉さんの口調が怖いんですが、何とかなりませんか?』

なんてのもいいぜ!

何だって答えるよ!

もちろんお代はいただかないから安心してくれよ!


ココ↓にコメントを残すだけでも、

あんたはレベルがアップするんだぜ!

練習のつもりでチャレンジしてくれよ!

あんたの熱い想い、しっかり受け止めるからな!


□■□■□■□■□■□■□■□■□■□■□■□■□■□■□■□■

あたいのリンクから買ってくれた、優しいあなたには、

あたいから、素敵な、愛を、分けてあげるよ!

(いらないっていうなよ!!)

あたいの愛(特典の詳細)はコチラを見てくれよ。

□■□■□■□■□■□■□■□■□■□


情報商材【スケバン流】比較どっとこむのTOPへ戻る
posted by すけばんyoko☆彡 at 12:00 | Comment(0) | TrackBack(0) | 初心者のための用語解説
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。