第284章谷歌一下 (1/2)

叫我神灵大人 / 著投票加入书签

古典文学 www.gudianwenxue.com，花开美利坚无错无删减全文免费阅读！

    第284章谷歌一下

    一个搜索引擎，还有比这更bāng的东西么？

    凯瑟琳未来自己经常登陆的网站，大多都是通过“下”而知道的。凯瑟琳觉得，自己很有必要nòng出一个搜索引擎来……

    如果要追溯的话，搜索引擎的“历史”比WorldWideWeb还要长。早在Web出现之前，互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP站点。

    就目前而言，大多数网站都是大学的mén户网，其他的网站实在是太少了，于是搜索引擎的存在意义就被淡化了。

    但是未来肯定不会如此。

    且不说自己想要将这网上这些蛋疼的人分开，从另一方面而言，因为和《洛杉矶时报》的合作也快要开始了，综合类型的网站总是会出现的，于是搜索引擎就会变得必要起来。

    “也许这是一个不错的注意……”凯瑟琳撑着下$ ()巴，然后在思考着。

    而艾尔莎看看时间，已经快到下午…了，于是就去泡红茶了。

    “什么主意？”

    艾尔莎一边在拿着茶饼，一边问着。

    “一个搜索引擎，一个能够让我们知道各种网站的一个好东西。”

    “我们可以将自己想要的网页搜索出来？”

    “对，就是这样。”

    “这能办得到吗？”

    “当然……”

    虽然是肯定的回答，但是凯瑟琳最后的语气却变得有些奇怪。

    搜索引擎依靠的是网络蜘蛛，即Web-Spider。

    这是一个很形象的比喻，就如同网络被人称为“Net”一样（Net就是“网”的意思）。

    准确一点来说，网络蜘蛛就是通过网页的链接地址来寻找网页，从网站首页开始读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。简而言之，网络蜘蛛就是一个爬行程序，一个抓取网页的程序。

    未来的“百度”、“谷歌”等等网站，都是建立在这样的一个基础之上的。

    可是凯瑟琳突然想到自己似乎根本就没有了解过“网络蜘蛛”这个东西，虽然知道原理，但是想要nòng出来……似乎还有些麻烦。

    “看来还给成立一个工作组才行。”

    开始了抱着双手站了起来。

    “我觉得我们公司的人才已经够紧张的了。”艾尔莎将红茶和茶饼放在了凯瑟琳的桌上。

    “没关系，到了五月份，这种情况就能得到缓解。”Intel与斯坦福大学的合作培养的第一批学生已经快要毕业了，有了他们的加入，公司的人才紧缺的问题必然能够得到一定程度的缓解。

    “至少在未来十年内，我们公司的人才都有可能是供不应求，这是一个急速扩张的产业，和那些传统行业是不一样的。”

    ——直到21世纪，这些行业对于人才的渴求依然是强烈的。

    当然，中国除外——因为那里的人实在是太多了，乃至于都有了“IT民工”的说法。

    凯瑟琳坐了下来，然后喝了一口红茶。

    她一边喝着茶，一边在思考着应该如何写一个网络蜘蛛的程序出来。

    评价一个网络蜘蛛的好坏，有三个方式，一个是覆盖率，网络蜘蛛的首要目标是抓取互联网上所需的信息。因此，有价值的信息是否都收录，收录的比例是网络蜘蛛的基本评价指标；第二个则是时效xìng，即事件发生并在互联网上传播后（以新闻、论坛、博客等各种形式），用户需要通过搜索引擎尽快能检索到相应内容。而索引的前提是收录，因此需要网络蜘蛛尽快的抓取互联网上最新出现的资源；最后则是重复率，互联网上重复的内容很多，如何尽早的发现页面重复并消除之，是网络蜘蛛需要解决的问题。除转载导致的重复外，重复总能体现为各种不同的模式，站点级重复，目录级重复，CGI级重复，参数级重复等等，及早发现这些模式并进行处理，能节省系统的存储、抓取、建库和展现资源。

    第一个问题最好解决，因为美国电信的根服务器就在诺亚。网页的覆盖率永远都是100。

    需要解决的是第二和第三个问题。

    事实上这也不是个大问题，原理很容易解决，最重要的一环在于需要一个高效率的程序。

    光凭自己一个人的话，可能需要不少的时间。凯瑟琳一直梦想的是当一个甩手掌柜，这事怎么能够发生呢？——于是，找... -->>

本章未完，点击下一页继续阅读

第284章 谷歌一下 (1/2)

第284章谷歌一下 (1/2)