Khác biệt giữa bản sửa đổi của “Máy truy tìm dữ liệu”

Nội dung được xóa Nội dung được thêm vào
Cheers!-bot (thảo luận | đóng góp)
n →‎Liên kết ngoài: clean up, replaced: {{Commonscat → {{thể loại Commons using AWB
n sửa chính tả, replaced: thí dụ → Ví dụ (21) using AWB
Dòng 45:
* Sự ra đời của các công ty tư vấn về nâng cao thứ hạng cho trang Web: các công ty này sẽ nhận làm các dịch vụ SEO cho thân chủ để đưa thứ hạng các trang đó lên trong danh sách hiển thị trước tiên của các máy truy tìm.
* Các trang Web giả dụng (''page cloaking''): Người thiết kế các trang này sẽ tìm cách cung cấp một nội dung có thể nhận sự phân hạng cao trong các máy truy tìm trong khi thực tế nếu một người dùng Internet truy cập đến địa chỉ này (qua trang trả về của máy truy tìm hay qua việc gõ thẳng địa chỉ vào [[máy truy cập]]) thì trang đó hiển thị một nội dung hoàn toàn khác với sự đánh giá của máy truy cập. Hành động này xuất phát từ ý muốn tăng cường khả năng tiếp thị của một số trang Web.
:''Kỹ thuật đánh lừa các máy truy tìm như trên không quá phức tạp. Một thí dụ là chỉ việc thêm vào phần nội dung các thẻ <code>meta</code> và câu lệnh <code>title</code> thật nhiều chữ hay đoạn văn bản có khả năng làm tăng thứ hạng của chính nó lên mà thực ra bản thân phần hiển thị (phần giữa câu lệnh <code>body</code>) của trang không hề liên hệ tới. Máy truy tìm khi xét đến các trang như vậy sẽ không thể biết rằng nội dung các văn từ ghi trong thẻ <code>meta</code> hoàn toàn không phù hợp với nội dung hiển thị của nó. Tuy nhiên, sự đánh lừa chỉ có thể xảy ra trong thời gian ngắn. Sau đó, khi nhận được phản ánh từ người dùng, máy truy cập sẽ được điều chỉnh và lúc đó các trang giả dụng này sẽ bị trừng phạt bằng cách xoá hẳn chỉ số đã được gán cho trang Web đó.''
* Tính tạm thời của SEO: Phương pháp phân hạng các trang Web của các máy truy tìm thường thay đổi theo tình hình phát triển của Internet và của sự thay đổi nội dung của các trang Web. Do đó, một trang Web cố định chỉ có thể được phân hạng cao trong một thời hạn cố định mà thôi. Để một trang Web tiếp tục được giữ thứ hạng cao thì nội dung của nó (hay ít nhất nội dung các thẻ <code>meta</code>) phải thay đổi hoặc là tự trang đó phải được tăng liên kết từ các địa chỉ Web khác tới và đây cũng là chỗ cho các nhà chuyên nghiệp về SEO phục vụ.
* Bảo trợ quảng cáo cho máy truy tìm: Bản thân các máy truy tìm cũng có thể là các cơ quan phục vụ quảng cáo do đó một trong những cách tốt để tăng hiệu quả tiếp thị là tham gia các dịch vụ quảng cáo ngay trên các máy truy tìm.
Dòng 74:
 
Để mở rộng các chức năng tìm kiếm, cũng như tạo thêm nhiều tiện dụng cho người dùng, các máy truy tìm cũng đã hỗ trợ thêm nhiều phép toán lên từ khóa. Dĩ nhiên mỗi máy có thể sẽ hỗ trợ những phép toán khác nhau. Ở đây chỉ nêu ra các phép toán được hỗ trợ bởi hầu hết các máy truy tìm.
* Dùng phép "'''+'''": Để tìm các trang có mặt tất cả các chữ của từ khóa mà không theo thứ tự nào hết thì viết nối các chữ này với nhau bằng dấu +. Thí dụ: Tìm trang nói về cách thức viết [[Linux]] scripts có thể dùng bộ từ khóa <br /><code> +Linux +script +tutor </code>
* Dùng phép "'''-'''": Trong số các trang Web tìm được do quy định của từ khóa thì máy truy tìm sẽ loại bỏ các trang mà nội dung của chúng có chứa chữ (hay cụm từ) trong ngoặc kép đứng ngay sau dấu trừ. Thí dụ: Khi tìm tin tức về các loại xe dùng kỹ thuật lai mới chưa có bán trên thị trường nhưng không muốn các trang bán xe hay các trang nói về hai kiểu xe Prius (của [[Toyota]]) và kiểu xe Insight (của [[Honda]]) lọt vào danh cách truy tìm thì có thể thử từ khóa<br /> <code>+car +hibrid -sale -Prius -Insight</code>
* Dùng dấu ngoặc kép '''" "''': Khi muốn chỉ thị máy truy tìm nguyên văn của cụm từ, có thể dùng dấu ngoặc kép. Thí dụ: Để tìm lại nguyên tác và nội dung bài thơ có câu <code>nước non nặng một lời thề</code> thì có thể thử dùng từ khoá với ngoặc kép<br /><code>"Nước non nặng một lời thề"</code>
* Dùng các phép toán của [[đại số Bool]]: Hiện tại, nhiều máy truy tìm hỗ trợ thêm các phép toán như là OR, AND và NOT. Khi dùng thì tên của các phép toán này bắt buộc phải viết chữ in hoa. Phép toán Bool đòi hỏi điền vào đúng vị trí quy định một từ (hay một cụm từ trong ngoặc kép) giữ vai trò của [[toán tử]]. Ngoài ra, đa số máy truy tìm chỉ hoạt động tốt trong một số lượng giới hạn các phép toán Bool cho một bộ từ khoá. Lời khuyên chung là không nên dùng quá 6 phép toán Bool cho cùng một bộ từ khoá và không phải máy truy tìm nào cũng hỗ trợ đầy đủ các phép toán <code>AND, OR </code>hay<code> NOT</code>
** '''OR''': Có cú pháp là <code>(Toán tử 1) OR (Toán tử 2)</code>. Lệnh này cho phép tìm những trang Web nào có chứa ''một trong các toán tử'' của phép toán OR của bộ từ khoá. Thí dụ để tìm các bài viết về [[Nguyễn Trãi]] trong cả tiếng Việt và tiếng nước ngoài thì có thể dùng bộ từ khoá<br /><code>"Nguyễn Trãi" OR "Nguyen Trai"</code><br />Các máy truy tìm có thể dùng <code>OR</code> là: ''AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot và Gigablast.''
** '''AND''': Có cú pháp <code>(Toán tử 1) AND (Toán tử 2)</code>. Phép toán AND nhằm yêu cầu máy truy tìm kiếm các trang có sự hiện diện của tất cả các toán tử. Thí dụ <code>nanotechology AND health</code><br />sẽ giúp truy tìm các trang có mặt đồng thời hai chữ <code>health</code> và chữ <code>nanotechnology</code><br />Một số trang truy tìm sẽ dùng <code>AND</code> như là mặc định (trong đó có Google). Bạn cũng có thể thay thế bằng cách dùng dấu '''+''' trong một số trường hợp nào máy truy tìm không có chức năng của đại số Bool.<br />Các trang hỗ trợ phép toán <code>AND<code> là: ''AltaVista, AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light, Yahoo và Gigablast.''
** '''NOT''': Phép này hoàn toàn tương tự như cách dùng dấu -. Nghĩa là, sự truy tìm sẽ loại bỏ những trang mà nội dung có chứa toán tử đứng ngay sau phép toán NOT. Tuy nhiên trong nhiều máy truy tìm có hỗ trợ thì phép này cũng chỉ được dùng có một lần cho một bộ từ khoá. Thí dụ để tìm tài liệu hướng dẫn về [[ngôn ngữ lập trình]] C/C++ có thể thử dùng trên Altavista<br /><code>"C/C++ tutor" NOT book</code><br />Các trang có thể dùng NOT là ''AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light và Gigablast.''
* Dùng phép '''NEAR''': Dùng để truy tìm những trang Web mà nội dung của chúng có các thành tố của từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một cụm từ, một khái niệm, một định nghĩa hay một lời phát biểu mà bạn không nhớ hết được. Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:<br /><code>"Ong non" NEAR "Dê cỏn"</code>
* Dùng dấu ngoặc đơn '''()''' để chẻ nhánh. Dùng ngoặc đơn cho phép tìm nhiều kết hợp phức tạp. Thí dụ để truy tìm tài liệu về cách tạo ra CD ROM có khả năng tự khởi động có thể thử từ khoá<br /><code>bootable AND (CD OR CDROM OR CD-ROM) AND (howto OR instruction)</code><br />Hỗ trợ cho kiểu phân nhánh bằng ngoặc đơn là ''AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light''
* Lưu ý:
*# Trong mọi trường hợp thì từ khoá sai chính tả sẽ không thể có hiệu quả.
Dòng 93:
Các từ khoá mặc định kết thúc bằng dấu hai chấm ''':''' và chữ (hay cụm từ trong ngoặc kép) của bộ từ khoá nào đứng ngay sau dấu này sẽ bị chi phối bởi điều kiện của từ khoá mặc định, còn các thành phần khác trong từ khoá sẽ không thay đổi ý nghĩa.
* Các từ khoá mặc định giới hạn máy truy tìm trả về các trang nằm trong một tên miền, hay một miền con. Tuỳ theo máy truy tìm mà các từ khoá mặc định được sử dụng.
*# ''Altavista'' hỗ trợ chức năng này bằng từ khoá <code>host:</code>. Thí dụ, <code>host:mars.jpl.nasa.gov mars saturn</code> chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chứa chữ "mars" và chữ "saturn".
*# ''Excite, Google (Netscape, Yahoo)'' hỗ trợ chức năng này bằng từ khoá <code>site:</code>, khi kết hợp với các lệnh khác có thể tìm theo cách chuyên biệt. Thí dụ, <code>"carbon nanotech" -host:www.technologyreview.com</code> cho phép tìm tất cả các trang nào có chứa cụm từ "carbon nanotech" ngoại trừ các trang xuất sứ từ www.technologyreview.com
*# ''Inktomi (HotBot, iWon, LookSmart)'' hỗ trợ chức năng này bằng từ khoá <code> domain:</code>. Thí dụ, để tìm các trang có đuôi là ".edu" (thường là trang Web của các đại học) về đề tài "heart transplan", có thể dùng bộ từ khoá <code> "heart transplan" +host:edu</code> để tìm các trang có đuôi gốc là.edu mang đề tài này.
*# ''AllTheWeb'' hỗ trợ các từ khoá <code>domain, url, site:</code> cho chức năng này. Thí dụ, để tìm các trang về "deutch" từ các trang trong nước [[Đức]] có thể dùng <code>deutch domain:.de</code>
* Các từ khoá mặc định dùng để tìm trang có tựa đề chứa một từ (hay cụm từ) đặc biệt:
*# ''AltaVista, AllTheWeb, Inktomi (MSN và HotBot)'' dùng từ khoá <code>title:</code>. Thí dụ, <code>title: "Mars Landing"</code> sẽ giúp truy tìm các trang có đề tựa về [[Sao Hỏa|Hoả Tinh]].
*# ''Google và Teoma'' hỗ trợ các từ khoá <code>intitle:</code> và <code>allintitle:</code> ("allintitle:" sẽ ảnh hưởng đến tất cả các chữ đứng sau dấu ''':''').
* Các từ khoá dùng để tìm các địa chỉ Web nào có chứa từ (hay cụm từ) của bộ từ khoá:
*# ''Google'' hỗ trợ từ khoá <code>inurl:</code> và <code>allinurl:</code>.
*#* Muốn tìm địa chỉ các trang Web có một chữ đặc biệt thì dùng inurl. Thí dụ, <code>inurl:nasa </code> sẽ giúp tìm tất cả các địa chỉ Web nào có chứa chữ "nasa".
*#* Nếu cần truy tìm một địa chỉ có nhiều hơn một chữ thì dùng allinurl. Thí dụ, <code>allinurl:vietnam thetholucbat</code> sẽ giúp tìm tất cả các trang nào mà nội dung địa chỉ của nó chứa chữ "vietnam" hay là chữ "thetholucbat".
*# ''Inktomi, AOL, GoTo, HotBot'' cung cấp từ khoá <code>originurl:</code> cho việc này.
*# ''Yahoo'' thì dùng từ khoá u:
*# ''Exite'' dùng url:
* Các từ khoá mặc định giúp tìm các trang có cài đặt các liên kết tới địa chỉ trang được ghi trong từ khoá:
*# ''Google, Yahoo'' sẽ cung cấp từ khoá <code>link:</code>. Tuy nhiên, Yahoo yêu cầu địa chỉ trong từ khoá phải có đủ tiếp đầu ngữ <code><nowiki>http://</nowiki></code> thì mới hoạt động hữu hiệu. Thí dụ, bộ từ khoá <code><nowiki>link:vi.wikipedia.org</nowiki></code> sẽ giúp truy ra tất cả các trang Web nào có liên kết tới trang Bách khoa toàn thư tiếng Việt này.
*# ''MSN'' hỗ trợ chức năng này bằng từ khoá <code>linkdomain:</code>
* Ngoài ra, để truy tìm các loại tệp có định dạng (''format'') đặc biệt thì có thể dùng từ khoá <code>filetype:(đuôi của tập tin)</code>:
*# Google: sẽ hỗ trợ truy tìm các kiểu tệp: PDF, Word (.doc), Excel (.xls), PowerPoint (.ppt) và Rich Text Format (.rtf) cũng như PostScript (.ps), Text (.txt), HTML (.htm hay.html), WordPerfect (.wpd) và các đuôi khác... Thí dụ: <code>laser filetype:pdf</code> sẽ giúp tìm các trang là các tập tin dạng <code>.pdf</code> (.pdf là loại tập tin được dùng trong cá hồ sơ văn bản của phần mềm Adobe Arcobat).
*# ''Yahoo'' cho phép tìm HTML (htm hay html), PDF, Excel (.xls), PowerPoint (.ppt), Word (.doc), RSS/XML (.xml) và tập tin văn bản dạng (.txt).
*# ''MSN'' chỉ hỗ trợ chuyên tìm các loại tệp: HTML, PDF, PowerPoint (.pps hay.ppt), các dạng của Word, hay Excel.
Dòng 119:
'''[[Kí tự thay thế]]''' (''wildcard character'') được hiểu là một [[kí tự]] có thể dùng để thay thế, hay đại diện cho một tập hợp con của tập các kí tự chưa được xác định hoàn toàn. Một cách đơn giản hơn, kí tự thay thế là kí tự được dùng để đại diện cho một kí tự, hay một chuỗi kí tự trong một từ khoá, mệnh đề, câu hay dãy các kí tự.
Nhiều máy truy tìm hỗ trợ cho việc sử dụng hai loại kí tự thay thế. Đó là dấu sao <code>*</code> và dấu chấm hỏi <code>?</code>
* Dấu sao <code>'''*'''</code>: dấu này sẽ thay thế cho một dãy bất kì các kí tự (chữ, số, hay dấu). Thí dụ, trong từ khoá <code>có t*ng</code> thì chữ <code>t*ng<code> có thể hiểu ngầm là tướng, từng, tuồng, ttamxng,...<br />Cần lưu ý sự khác biệt về ý nghĩa đối với kí tự thay thế <code>*</code> dùng trong các [[hệ điều hành]] như là DOS, LINUX, Windows,... Theo cách hiểu của các hệ thống này thì dấu <code>*</code> hoàn toàn không bị lệ thuộc vào biên giới của một từ. Trong khi đó, dấu <code>*</code> dùng trong máy truy tìm sẽ được hạn chế trong biên giới của một từ. Ví dụ, từ khoá <code>My*</code> dùng trong các [[công cụ truy vấn dữ liệu|công cụ tìm kiếm]] của các hệ điều hành kiểu Windows thì nó có thể là <code>My Downloads, My Documents, My Yahoo!, my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere,...</code>. Trong khi đó <code>my*</code> trong các máy truy tìm chỉ giới hạn trong các chữ) lập thành bắt đầu với <code>my</code>. Như vậy, trong ví dụ trên thì <code>My Downloads, My Documents, My Yahoo!</code> sẽ không được máy truy tìm xem xét mà chỉ có <code>my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere</code> là hợp lệ mà thôi.<br />''AltaVista, Inktomi (iWon), Northern Light, Gigablast, Google, Yahoo, MSN,...'' đều hỗ trợ cho cách dùng dấu <code>*</code> này.
* Dấu chấm hỏi '''?''': dùng thay cho một kí tự duy nhất nào đó. Thí dụ, <code>ph?ng</code> có thể là <code>phong, phặng, ph@ng, ph_ng, ph-ng,...<code> nhưng không thể là <code>phượng, ph ng, phug, phăang</code>.<br />''AOL Search, Inktomi (iWon)'' là các máy truy tìm có hỗ trợ dấu <code>?</code> này.
 
'''Dấu ngã <code>~</code>''': Đặc biệt trong Google có một cách để tìm không những các trang có chứa từ khoá mà còn tìm các trang có chứa chữ đồng nghĩa (''synonym'') Anh ngữ với từ khoá. Ví dụ, <code>~food facts</code> sẽ giúp truy tìm các dữ liệu có chữ "food facts" và các chữ tương đương như "nutrition facts",... Sự truy tìm theo hỗ trợ này đặc biệt hữu dụng trong trường hợp các tài liệu cần tìm quá hiếm hoi.
Dòng 139:
== Sử dụng các chức năng đặc biệt của máy truy tìm ==
Các máy truy tìm có thể cung cấp thêm một số phương tiện để giảm thiểu khó khăn của việc truy tìm. Sau đây là vài chức năng đặc biệt
* Tìm thêm dữ liệu theo liên hệ (''related search''): Sau khi tìm kiếm, máy truy tìm có thể giúp đào sâu sự truy tìm bằng cách cung cấp các bộ từ khoá chi tiết hơn dưới dạng các dòng liên kết (''link''). Các liên kết này thu nhỏ thị trường tìm kiếm (nếu số trang tìm theo từ khoá quá lớn). Thực ra, nếu cách chọn từ khoá đủ tập trung và khéo thì sẽ không phải mượn đến chức năng này. Thí dụ, như tìm các trang viết về sao Hoả mà dùng từ khoá <code>mars</code> thì số lượng trang tìm ra sẽ vô cùng lớn. Do đó, có thể bấm thêm vào các chữ liên hệ để máy truy tìm thu nhỏ thị trường tìm kiếm lại.<br /> Những trang có chức năng để tìm dữ liệu theo liên hệ là: ''AltaVista (<code>Related Searches</code>),[http://www.Ask.com Ask.com] AllTheWeb (<code>Narrow your search</code>), Excite (<code>Refine Your Results</code>), HotBot, Lycos, MSN, Yahoo (<code>also try</code>)''.
* Nhóm gọn (''cluster''): trong lúc tìm kiếm nếu máy truy tìm cho rằng các trang tìm ra có thể ở chung một trang nguồn thì nó chỉ chọn ra một trang đại diện, còn các trang khác sẽ được xếp gọn vào và người dùng có thể khai triển rộng ra thành nhiều trang nếu muốn. Như vậy, sự tìm kiếm sẽ dễ hơn và ít bị nhiễu loạn thông tin của cùng một trang.<br />Những trang có chức năng này là: ''AltaVista (<code>Additional relevant pages from this site</code>), AllTheWeb (<code>more hits from</code>), Excite, Google (<code>More results from</code>), HotBot, MSN, Northern Light''.
* Trang tương tự và trang có chính tả gần giống: Trong một số trường hợp thì chức năng tìm các trang tương tự như các trang mà máy truy tìm cho rằng có thể hữu dụng. Để dùng chức năng này chỉ việc bấm vào liên kết tương ứng. Riêng trong Google thì còn có link gợi ý thêm hay sửa chính tả cho việc truy tìm bằng chữ "<code>Did you mean...</code>"<br />Các trang có chức năng tìm trang Web tương tự là: ''AltaVista (<code>similar pages, related pages</code>), AOL Search (<code>Show me more like this</code>), Google (<code>did you mean, similar pages</code>).
[[Tập tin:chucnangnangcao.jpg|nhỏ|400px|phải|Các chức năng đặc biệt của máy truy tìm Google]]
* Trang có từ nối dài (''stemming''): Đây là khả năng của một số máy truy tìm cho phép tìm những trang có những chữ mở rộng của chữ trong từ khoá. Thí dụ, thay vì chỉ tìm "tutor" thì tìm luôn các trang có "tutors, tutorial, e-tutor,..."<br />''AOL Search'' có chức năng này mặc định, ''Direct Hit, HotBot (<code>Enable Word Stemming</code>)''.
* Chức năng tồn trữ (<code>''cached''<code>) của Google: Có nhiều trường hợp trang Web đã bị xoá không thể hiển thị được nữa nhưng thông tin của nó trong cơ sở dữ liệu của máy truy tìm vẫn còn mà người dùng có thể cần đến. Trong thời gian các tin tức này chưa bị xoá khỏi cơ sở dữ liệu thì vẫn có thể đọc được nó nhờ vào chức năng đặc biệt này của Google.
* Chuyển dịch (''translation''): Một số trang cho khả năng dịch lại trang tìm thấy sang thứ tiếng mà người dùng đang có. Thường thì chỉ có dịch được ra các thứ tiếng thông dụng như Anh, Pháp, Đức, hay Tây Ban Nha và sự chuyển dịch này cũng không chính xác hoàn toàn. Dù vậy, người dùng có thể nắm được một phần thông tin có thể dịch ra.<br /> Các trang có chức năng chuyển dịch là: ''AltaVista (<code>Translate</code>), Google(<code>Translate this page</code>)''.
Dòng 175:
 
=== Tài liệu tham khảo ===
* Truy tìm định nghĩa, khái niệm, tài liệu tham khảo hay dịch nghĩa:<br />Nếu chỉ muốn biết chính tả thì có thể dùng từ đó làm từ khoá và gõ vào Google rồi đọc chức năng hỗ trợ có dòng <code>"did you mean"</code>. Đây là chức năng có khả năng chỉnh chính tả.<br /> Nếu để tra ý nghĩa chữ, khái niệm, hay danh từ khoa học thì dùng từ khoá mặc định <code>"define:"</code> trên Google. (Thí dụ define:OLED)
* Truy tìm nghĩa qua các từ điển
** [http://www.yourdictionary.com yourdictionary.com]