Mercurial > pub > ImplabNet
comparison Implab/Parsing/Scanner.cs @ 55:c0bf853aa04f
Added initial JSON support
+JSONParser
+JSONWriter
| author | cin |
|---|---|
| date | Sun, 15 Jun 2014 19:39:11 +0400 |
| parents | |
| children | 7759c80cad95 |
comparison
equal
deleted
inserted
replaced
| 51:2c332a9c64c0 | 55:c0bf853aa04f |
|---|---|
| 1 using Implab; | |
| 2 using System; | |
| 3 using System.Collections.Generic; | |
| 4 using System.Linq; | |
| 5 using System.Text; | |
| 6 using System.Threading.Tasks; | |
| 7 | |
| 8 namespace Implab.Parsing { | |
| 9 /// <summary> | |
| 10 /// Базовый класс для разбора потока входных символов на токены. | |
| 11 /// </summary> | |
| 12 /// <remarks> | |
| 13 /// Сканнер имеет внутри буффер с симолами входного текста, по которому перемещаются два | |
| 14 /// указателя, начала и конца токена, при перемещении искользуется ДКА для определения | |
| 15 /// конца токена и допустимости текущего символа. | |
| 16 /// </remarks> | |
| 17 public class Scanner { | |
| 18 struct ScannerConfig { | |
| 19 public DFAStateDescriptior[] states; | |
| 20 public int[] alphabetMap; | |
| 21 } | |
| 22 | |
| 23 Stack<ScannerConfig> m_defs = new Stack<ScannerConfig>(); | |
| 24 | |
| 25 DFAStateDescriptior[] m_states; | |
| 26 int[] m_alphabetMap; | |
| 27 | |
| 28 protected DFAStateDescriptior m_currentState; | |
| 29 int m_previewCode; | |
| 30 | |
| 31 protected int m_tokenLen = 0; | |
| 32 protected int m_tokenOffset; | |
| 33 | |
| 34 protected char[] m_buffer; | |
| 35 protected int m_bufferSize; | |
| 36 protected int m_pointer; | |
| 37 | |
| 38 public Scanner(CDFADefinition definition, string text) { | |
| 39 Safe.ArgumentNotNull(definition, "definition"); | |
| 40 Safe.ArgumentNotEmpty(text, "text"); | |
| 41 | |
| 42 m_states = definition.States; | |
| 43 m_alphabetMap = definition.Alphabet.GetTranslationMap(); | |
| 44 | |
| 45 Feed(text.ToCharArray()); | |
| 46 } | |
| 47 | |
| 48 public Scanner(CDFADefinition definition) { | |
| 49 Safe.ArgumentNotNull(definition, "definition"); | |
| 50 | |
| 51 m_states = definition.States; | |
| 52 m_alphabetMap = definition.Alphabet.GetTranslationMap(); | |
| 53 | |
| 54 Feed(new char[0]); | |
| 55 } | |
| 56 | |
| 57 /// <summary> | |
| 58 /// Заполняет входными данными буффер. | |
| 59 /// </summary> | |
| 60 /// <param name="data">Данные для обработки.</param> | |
| 61 /// <remarks>Копирование данных не происходит, переданный массив используется в | |
| 62 /// качестве входного буффера.</remarks> | |
| 63 public void Feed(char[] data) { | |
| 64 Safe.ArgumentNotNull(data, "data"); | |
| 65 | |
| 66 Feed(data, data.Length); | |
| 67 } | |
| 68 | |
| 69 /// <summary> | |
| 70 /// Заполняет буффур чтения входными данными. | |
| 71 /// </summary> | |
| 72 /// <param name="data">Данные для обработки.</param> | |
| 73 /// <param name="length">Длина данных для обработки.</param> | |
| 74 /// <remarks>Копирование данных не происходит, переданный массив используется в | |
| 75 /// качестве входного буффера.</remarks> | |
| 76 public void Feed(char[] data, int length) { | |
| 77 Safe.ArgumentNotNull(data, "data"); | |
| 78 Safe.ArgumentInRange(length, 0, data.Length, "length"); | |
| 79 | |
| 80 m_pointer = -1; | |
| 81 m_buffer = data; | |
| 82 m_bufferSize = length; | |
| 83 Shift(); | |
| 84 } | |
| 85 | |
| 86 /// <summary> | |
| 87 /// Получает текущий токен в виде строки. | |
| 88 /// </summary> | |
| 89 /// <returns></returns> | |
| 90 public string GetTokenValue() { | |
| 91 return new String(m_buffer, m_tokenOffset, m_tokenLen); | |
| 92 } | |
| 93 | |
| 94 /// <summary> | |
| 95 /// Метки текущего токена, которые были назначены в регулярном выражении. | |
| 96 /// </summary> | |
| 97 public int[] TokenTags { | |
| 98 get { | |
| 99 return m_currentState.tag; | |
| 100 } | |
| 101 } | |
| 102 | |
| 103 /// <summary> | |
| 104 /// Читает следующий токен, при этом <see cref="m_tokenOffset"/> указывает на начало токена, | |
| 105 /// <see cref="m_tokenLen"/> на длину токена, <see cref="m_buffer"/> - массив символов, в | |
| 106 /// котором находится токен. | |
| 107 /// </summary> | |
| 108 /// <returns><c>false</c> - достигнут конец данных, токен не прочитан.</returns> | |
| 109 protected bool ReadTokenInternal() { | |
| 110 if (m_pointer >= m_bufferSize) | |
| 111 return false; | |
| 112 | |
| 113 m_currentState = m_states[CDFADefinition.INITIAL_STATE]; | |
| 114 m_tokenLen = 0; | |
| 115 m_tokenOffset = m_pointer; | |
| 116 int nextState = CDFADefinition.UNREACHEBLE_STATE; | |
| 117 do { | |
| 118 nextState = m_currentState.transitions[m_previewCode]; | |
| 119 if (nextState == CDFADefinition.UNREACHEBLE_STATE) { | |
| 120 if (m_currentState.final) | |
| 121 return true; | |
| 122 else | |
| 123 throw new ParserException( | |
| 124 String.Format( | |
| 125 "Unexpected symbol '{0}', at pos {1}", | |
| 126 m_buffer[m_pointer], | |
| 127 Position | |
| 128 ) | |
| 129 ); | |
| 130 } else { | |
| 131 m_currentState = m_states[nextState]; | |
| 132 m_tokenLen++; | |
| 133 } | |
| 134 | |
| 135 } while (Shift()); | |
| 136 | |
| 137 // END OF DATA | |
| 138 if (!m_currentState.final) | |
| 139 throw new ParserException("Unexpected end of data"); | |
| 140 | |
| 141 return true; | |
| 142 } | |
| 143 | |
| 144 | |
| 145 bool Shift() { | |
| 146 m_pointer++; | |
| 147 | |
| 148 if (m_pointer >= m_bufferSize) { | |
| 149 return ReadNextChunk(); | |
| 150 } | |
| 151 | |
| 152 m_previewCode = m_alphabetMap[m_buffer[m_pointer]]; | |
| 153 | |
| 154 return true; | |
| 155 } | |
| 156 | |
| 157 /// <summary> | |
| 158 /// Вызывается по достижению конца входного буффера для получения | |
| 159 /// новых данных. | |
| 160 /// </summary> | |
| 161 /// <returns><c>true</c> - новые двнные получены, можно продолжать обработку.</returns> | |
| 162 protected virtual bool ReadNextChunk() { | |
| 163 return false; | |
| 164 } | |
| 165 | |
| 166 /// <summary> | |
| 167 /// Позиция сканнера во входном буфере | |
| 168 /// </summary> | |
| 169 public int Position { | |
| 170 get { | |
| 171 return m_pointer + 1; | |
| 172 } | |
| 173 } | |
| 174 | |
| 175 /// <summary> | |
| 176 /// Преключает внутренний ДКА на указанный, позволяет реализовать подобие захватывающей | |
| 177 /// группировки. | |
| 178 /// </summary> | |
| 179 /// <param name="states">Таблица состояний нового ДКА</param> | |
| 180 /// <param name="alphabet">Таблица входных символов для нового ДКА</param> | |
| 181 protected void Switch(DFAStateDescriptior[] states, int[] alphabet) { | |
| 182 Safe.ArgumentNotNull(states, "dfa"); | |
| 183 | |
| 184 m_defs.Push(new ScannerConfig { | |
| 185 states = m_states, | |
| 186 alphabetMap = m_alphabetMap | |
| 187 }); | |
| 188 | |
| 189 m_states = states; | |
| 190 m_alphabetMap = alphabet; | |
| 191 | |
| 192 m_previewCode = m_alphabetMap[m_buffer[m_pointer]]; | |
| 193 } | |
| 194 | |
| 195 /// <summary> | |
| 196 /// Восстанавливает предыдущей ДКА сканнера. | |
| 197 /// </summary> | |
| 198 protected void Restore() { | |
| 199 if (m_defs.Count == 0) | |
| 200 throw new InvalidOperationException(); | |
| 201 var prev = m_defs.Pop(); | |
| 202 m_states = prev.states; | |
| 203 m_alphabetMap = prev.alphabetMap; | |
| 204 m_previewCode = m_alphabetMap[m_buffer[m_pointer]]; | |
| 205 } | |
| 206 } | |
| 207 } |
