<Modern Information retrieval> notes
用户搜索界面
Marchionini给出了信息查找(information lookup)和探索式搜索(exploratory search)。信息查找就像数据库中查找信息,输入最简单的信息即可完成。探索式搜索分为学习和调查,学习搜索需要多个查询响应对,用户需要花费时间读取多个信息项,综合这些内容。调查是一个更长期的过程,在一段长时间内进行多次迭代,对返回结果进行评估。
现在的模型强调搜索过程的动态特性,用户在搜索的同时也在学习,当他们看到检索结果时,其信息需求会进行相应调整。这种动态过程称为采摘模型(berry picking model)。
有时用户把一个复杂的不容易查到的查询分解成多个简单的定向的查询,这种策略称为定向(orienteering)。
信息搜寻理论(IFT)利用了进化论的观点。
搜索引擎用了导航结构(navigation),某个交互界面可能需要数次点击来引领搜索用户寻找他们的目标。
搜索界面中还用了深度链接和站内链接,现在也在用。
在查询产生了一定结果之后,超过50%的用户至少进行了1次查询修改。搜索界面越来越多使用相关项建议技术,通常称为查询项扩展(term expansion)。研究发现,如果能提出较好的查询建议,那么它会是一个频繁使用的功能。
搜索结果的分组办法有:分类系统(category system),特别是分面分类(faceted category)和聚类(clustering)。
分类系统将一组有意义的标签组织在一起来反映某个领域的概念。他们通常是手动构造的,有的文档自动设定类别已经达到了一定准确率。
在用于组织搜索结果和表达信息集合结构的分类结构中,最常见的是扁平的(flat), 层次的(hierarchical)和分面的(faceted)。扁平分类是话题或对象的一个列表。
聚类是指将条目按照相似度进行分组。最大的好处在于它是自动的,容易应用到任意文本集。缺点包括形式和结果质量的不可预测性,标记分组的难度,以及聚类层次化的反直觉性。有些算法在占主导作用的语句间建立簇(cluster),来构造可理解的标签。
话题的混合性和分组之间的重叠,对文档聚类是很典型的。