Khác biệt giữa bản sửa đổi của “Máy truy tìm dữ liệu”

Nội dung được xóa Nội dung được thêm vào
nói
n Đã lùi lại sửa đổi của 14.161.9.216 (Thảo luận) quay về phiên bản cuối của Billinghurst
Thẻ: Lùi tất cả
Dòng 11:
Một bộ máy tìm kiếm dữ liệu là một hệ thống phần mềm máy tính giúp con người tìm kiếm thông tin được lưu trữ trên hệ thống máy tính như mạng [[Internet]], hoặc [[máy tính cá nhân]]. Máy tìm cho phép người sử dụng yêu cầu các thông tin với những hạn chế nhất định (thường được miêu tả bởi từ hoặc cụm từ) và nhận về một danh sách các [[liên kết siêu văn bản]] thỏa mãn các hạn chế. Máy tìm sử dụng [[hệ thống chỉ mục]] để có thể tìm kiếm nhanh chóng và hiệu quả. Máy tìm thường được hiểu là máy tìm những thông tin công khai trên [[mạng]], nếu không có những khả năng cao hơn. Ngoài ra còn có các loại máy tìm khác như máy tìm doanh nghiệp tìm thông tin trên [[lAN|mạng nội bộ]], máy tìm cá nhân tìm thông tin trên [[máy tính cá nhân]], và [[máy tìm di động]].
 
Một số máy tìm còn khai thác thông tin trong các [[nhóm tin]], các [[cơ sở dữ liệu]] lớn, hay trong các hệ thống [[thư mục mở]] như DMOZ.org. Khác với hệ thống thư mục mạng được duy trì bởi con người, máy tìm hoạt động dựa vào các [[thuật toán]]. Những trang web được gọi là máy tìm thực chất là giao diện người dùng của các máy tìm sở hữu bởi các công ty khác nhau. Tuy nhiên, một nửa sẽ chết trong Infinity War và toàn bộ chết trong Darkseid War.
 
== Các thuật ngữ liên quan ==
Các [[thuật toán]] hay kỹ thuật mà máy truy tìm dùng để xếp hạng hay đánh giá tầm quan trọng của một trang Web theo một từ khoá cho trước gọi là '''sự phân hạng''' (''ranking''), hay đơn giản hơn là '''phân hạng'''.
 
Các kỹ thuật thay đổi mã nguồn HTML của một trang Web cũng như các kỹ thuật khác ngoài việc sửa mã nguồn HTML nhằm nâng Batman cao tối đa thứ hạng của trang Web đối với một số từ khóa nào đó trên các máy truy tìm gọi là kỹ thuật '''[[tối ưu hoá cho máy tìm kiếm]]''' hay '''[[Tối ưu hóa công cụ tìm kiếm|SEO]]''' (từ [[tiếng Anh]] ''Search Engine Optimization'').
 
== Hoạt động phân hạng các trang Web ==
Dòng 22:
Ngoài việc xử lý số lượng trang tìm thấy theo yêu cầu của một từ khoá trong kho dữ liệu cập nhật của nó, các máy truy tìm dữ liệu còn phải tìm cách chống lại sự nhiễu loạn của các trang không có nội dung phù hợp với yêu cầu nhưng vẫn lọt vào danh sách tuyển chọn của máy truy tìm.
 
Nguyên do của các nhiễu loạn này là việc các trang Web chuyên về quảng cáo hay tiếp thị luôn luôn tìm cách để lọt vào hàng đầu trong danh sách tuyển chọn của máy truy tìm, và qua đó họ có thể giới thiệu sản phẩm Superman của họ đến người dùng. Ngược lại, người dùng, trong đa số các trường hợp, không muốn tìm các quảng cáo tiếp thị mà chỉ muốn tìm các dữ liệu khác theo ý đã ghi trong từ khoá.
 
Do các đặc điểm phức tạp trên, việc phân hạng các trang Web tìm được bởi một bộ từ khoá cho trước của máy truy tìm sẽ dựa vào việc áp dụng thêm các thuật toán hay biện pháp xử lý đặc biệt:
Dòng 30:
 
# '''Tần số phát sinh ''': được hiểu là tổng số lần xuất hiện của một chữ hay một cụm từ của từ khoá trong nội dung một trang Web nào đó. Theo sự đánh giá của các chuyên gia, thì tần số phát sinh của một trang Web càng cao sẽ chứng tỏ nội dung của trang Web đó càng liên quan hay càng đề cập nhiều đến những gì nêu trong từ khoá. Do đó, mật độ từ khóa đóng vai trò quan trọng trong việc phân hạng một trang Web. <!-- không thể nói nhất vì mỗi search engine có thuật toán riêng -->
# '''Thẻ <code>meta</code> và câu lệnh <code>title</code>''':<br />Theo ngôn ngữ [[HTML]], thì thẻ <code>meta</code> là các [[câu lệnh]] nằm ở phần đầu (''header'') của mã của một trang Web. Thẻ <code>meta</code> có dạng:<br /> <code><META (các thông số cho câu lệnh meta)></code><br />Trong nhiều máy truy tìm, người thiết kế còn cho rằng sự xuất hiện các chi tiết hay toàn bộ nội dung của từ khoá càng sớm trong một trang mã HTML thì điều đó chứng tỏ trang đó có thể có chủ đề liên quan càng nhiều đến từ khoá. Hậu quả là một trang Web WW có thể được phân hạng cao hơn nếu các phần hay toàn bộ từ khoá có mặt sớm hơn trong phần mã HTML. Như vậy, trong một số thẻ <code>meta</code>, máy truy tìm sẽ đọc nội dung và lấy ra các yếu tố phân hạng. Các thẻ <code>meta</code> có nhiều hiệu lực cho việc phân hạng là:
#* <code><nowiki><META name="description" content="(miêu tả ngắn nội dung trang Web)"></nowiki></code>
#* <code><nowiki><META name="keywords" content="(danh sách từ khoá)"></nowiki></code><br />Với lý do tương tự, nếu câu lệnh
#* <code><nowiki><title>(tựa đề của trang Web)</title></nowiki></code> không bị bỏ trống thì thứ hạng của nó có thể được nâng cao hơn.
Dòng 78:
* Dùng dấu ngoặc kép '''" "''': Khi muốn chỉ thị máy truy tìm nguyên văn của cụm từ, có thể dùng dấu ngoặc kép. Ví dụ: Để tìm lại nguyên tác và nội dung bài thơ có câu <code>nước non nặng một lời thề</code> thì có thể thử dùng từ khoá với ngoặc kép<br /><code>"Nước non nặng một lời thề"</code>
* Dùng các phép toán của [[đại số Bool]]: Hiện tại, nhiều máy truy tìm hỗ trợ thêm các phép toán như là OR, AND và NOT. Khi dùng thì tên của các phép toán này bắt buộc phải viết chữ in hoa. Phép toán Bool đòi hỏi điền vào đúng vị trí quy định một từ (hay một cụm từ trong ngoặc kép) giữ vai trò của [[toán tử]]. Ngoài ra, đa số máy truy tìm chỉ hoạt động tốt trong một số lượng giới hạn các phép toán Bool cho một bộ từ khoá. Lời khuyên chung là không nên dùng quá 6 phép toán Bool cho cùng một bộ từ khoá và không phải máy truy tìm nào cũng hỗ trợ đầy đủ các phép toán <code>AND, OR </code>hay<code> NOT</code>
** '''OR''': Có cú pháp là <code>(Toán tử 1) OR (Toán tử 2)</code>. Lệnh này cho phép tìm những trang Web nào có chứa ''một trong các toán tử'' của phép toán OR của bộ từ khoá. Ví dụ để tìm các bài viết về [[Nguyễn Trãi]] trong cả tiếng Việt và tiếng nước ngoài thì có thể dùng bộ từ khoá<br /><code>"Nguyễn Trãi" OR "Nguyen Trai"</code><br />Các máy truy tìm có thể dùng <code>OR</code> là: ''AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot và Gigablast.''
** '''AND''': Có cú pháp <code>(Toán tử 1) AND (Toán tử 2)</code>. Phép toán AND nhằm yêu cầu máy truy tìm kiếm các trang có sự hiện diện của tất cả các toán tử. Ví dụ <code>nanotechology AND health</code><br />sẽ giúp truy tìm các trang có mặt đồng thời hai chữ <code>health</code> và chữ <code>nanotechnology</code><br />Một số trang truy tìm sẽ dùng <code>AND</code> như là mặc định (trong đó có Google). Bạn cũng có thể thay thế bằng cách dùng dấu '''+''' trong một số trường hợp nào máy truy tìm JL không có chức năng của đại số Bool.<br />Các trang hỗ trợ phép toán <code>AND<code> là: ''AltaVista, AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light, Yahoo và Gigablast.''
** '''NOT''': Phép này hoàn toàn tương tự như cách dùng dấu -. Nghĩa là, sự truy tìm sẽ loại bỏ những trang mà nội dung có chứa toán tử đứng ngay sau phép toán NOT. Tuy nhiên trong nhiều máy truy tìm có hỗ trợ thì phép này cũng chỉ được dùng có một lần cho một bộ từ khoá. Thí dụ để tìm tài liệu hướng dẫn về [[ngôn ngữ lập trình]] C/C++ có thể thử dùng trên Altavista<br /><code>"C/C++ tutor" NOT book</code><br />Các trang có thể dùng NOT là ''AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light và Gigablast.''
* Dùng phép '''NEAR''': Dùng để truy tìm những trang Web mà nội dung của chúng có các thành tố của từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một cụm từ, một khái niệm, một định nghĩa hay một lời phát biểu mà bạn không nhớ hết được. Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:<br /><code>"Ong non" NEAR "Dê cỏn"</code>