江延和室友坐下以后,还是有源源不断的人前来参加招聘。
看着每个人进入到面试区出来后表情不一,有的兴奋的手舞足蹈,有的则是一脸的失望,江延突然觉得想加入这家公司可能也并不轻松。
整理了一下自身的情绪,江延又开始观察四周的环境和装修,发现虽然乘风公司刚刚成立不久,但是公司的装修和环境都不错,感觉还是很温馨。
等待了大概有半个小时左右,江延突然听到有人喊自己的名字,赶忙整理了一下衣服跟着被领入的面试的房间。
房间里面刘峰,洪艺艺,张小龙,方宇舟和马思武并肩坐着。
洪艺艺指了指江延面前的沙发说:“坐下来讲话就可以了。”
江延局促不安的做了下来。
洪艺艺看着江延的简历问道:“你的简历我看了一下,在学校的学习成绩一直很不错,听说你在上学期间自己做了一个爬虫程序是这样的对么?”
江延回答道:“对,是我自己利用课余时间自己设计出来的。”
洪艺艺又继续发问到:“那我问一下,如果让你重新设计一个爬虫程序,目的是抓取当前所有的互联网信息并且可以快速呈现出来你觉得你需要多久?”
江延小心翼翼的回答道:“这个,这个我想应该需要很久,因为有很多东西需要攻克。”
其实刘峰看重的就是这个人有过做爬虫程序的这一点。
百度的核心技术其实就是earcher和Indexer
earcher是直接与用户进行交互的模块,在接口上有多种实现的方式,常见的主要是Web方式。
earcher通过某种接口方式,接受用户查询,对查询进行分词(stemming)处理,获取查询关键字。
通过Indexer获取与查询关键字匹配的网页数据,经过排序后返回给用户。
Searcher中的问题:
检索结果的排序:
对不同的用户采用不同的排序策略。
排序结果排重:
排重可以提高结果数据的质量。
检索结果的相似性分析:
主要用在类似网页功能中,需要在索引结构中提供支持。
检索的速度:
主要依赖索引结构的设计。
同时在体系结构上还有很多技术可以用来提升速度。
如:Cache,负载均衡等。
相关核心技术:
分布式技术:
当搜索引擎处理数据达到一定规模时,为了提高系统的性能,必须采用分布式技术。
请关闭浏览器阅读模式后查看本章节,否则将出现无法翻页或章节内容丢失等现象。
相邻推荐:从和前任上节目开始爆火 位面之幻想世界 乾隆皇帝——秋声紫苑 七零:对照组女配觉醒了 玩转沙盒异界 都市明月 写故事的人是故事里的人 盛世闺娇 从一条河开始的无限进化 穿书后甩了大佬男主 我,读书就能变强! 穿越犬夜叉之神女戈薇 修仙从五庄观开始 武灵风暴 重生之只要你 海贼之空间剑豪 暗卫一号 九界空 你捅谁不好,捅这挂逼家族 京洛再无佳人2